---
title: &quot;Usa Kling en OpenClaw con RunAPI — Guía de API de video&quot;
url: &quot;https://runapi.ai/es/openclaw-kling.md&quot;
canonical: &quot;https://runapi.ai/es/openclaw-kling&quot;
locale: &quot;es&quot;
model: &quot;kling&quot;
---

# Usa Kling en OpenClaw.

Kling 3.0 de Kuaishou genera video a partir de texto o imágenes a hasta 1080p con audio nativo, escenas multi-toma y duraciones de 3–15 segundos. Los agentes de OpenClaw lo llaman a través de RunAPI con la misma clave API usada para chat — envía un prompt, consulta la tarea y recibe una URL de video.

## API example

```bash
curl -X POST https://runapi.ai/api/v1/kling/text_to_video \
  -H &quot;Authorization: Bearer $RUNAPI_API_KEY&quot; \
  -H &quot;Content-Type: application/json&quot; \
  -d &#39;{
    &quot;model&quot;: &quot;kling-3.0&quot;,
    &quot;prompt&quot;: &quot;A drone shot pulling back from a mountain lake at sunrise, mist rising off the water, cinematic lighting&quot;,
    &quot;duration_seconds&quot;: 5,
    &quot;aspect_ratio&quot;: &quot;16:9&quot;,
    &quot;enable_sound&quot;: true,
    &quot;output_resolution&quot;: &quot;1080p&quot;
  }&#39;

```

### Response

```json
{
  &quot;task_id&quot;: &quot;tsk_abc123&quot;,
  &quot;status&quot;: &quot;pending&quot;,
  &quot;model&quot;: &quot;kling-3.0&quot;
}

```

## How it works

1. **Configura RunAPI** — Establece la variable de entorno RUNAPI_API_KEY. Si ya configuraste RunAPI como proveedor de OpenClaw para chat, la misma clave funciona para generación de video — no se necesita configuración adicional.
2. **Llama a Kling text_to_video** — Envía un POST a /api/v1/kling/text_to_video con model establecido en kling-3.0. Incluye un prompt, duration_seconds (3–15), aspect_ratio y opcionalmente enable_sound para audio nativo. Para generación a partir de imagen, usa /api/v1/kling/image_to_video con una first_frame_image_url.
3. **Consulta el resultado** — El endpoint devuelve un task_id inmediatamente. Consulta el endpoint de estado de la tarea hasta que el estado cambie a completado, luego recupera la URL del video de la respuesta. La generación tarda típicamente entre 30 y 120 segundos según la duración y la resolución.

## Parameters

| Parameter | Type | Description |
|-----------|------|-------------|
| `model` | `string` | Obligatorio. kling-3.0 para la versión más reciente. |
| `prompt` | `string` | Descripción del video. Obligatorio a menos que multi_shots esté activado. |
| `duration_seconds` | `integer` | Duración del video. Kling 3.0 admite 3–15 segundos. Versiones anteriores aceptan 5 o 10. |
| `aspect_ratio` | `string` | Relación de aspecto de salida: 16:9, 9:16 o 1:1. |
| `output_resolution` | `string` | Resolución: 720p, 1080p o 4k. Mayor resolución cuesta más por segundo. |
| `enable_sound` | `boolean` | Genera audio nativo junto con el video. Incrementa el coste por segundo. |
| `negative_prompt` | `string` | Elementos a excluir de la generación. |
| `first_frame_image_url` | `string` | URL de imagen para usar como fotograma inicial (modo toma única). |
| `cfg_scale` | `number` | Escala de guía (0–1). Valores más altos siguen el prompt más fielmente. |
| `multi_shots` | `boolean` | Activa la generación de escenas multi-toma con prompts separados por segmento. |

## FAQ

### ¿Cómo funciona la facturación por segundo de Kling en RunAPI?

Kling se factura por segundo de video generado. La tarifa depende de output_resolution y de si enable_sound está activado. Un clip de 5 segundos a 720p sin sonido es la opción más económica; 1080p con sonido cuesta aproximadamente el doble por segundo. Consulta la página de precios de RunAPI para las tarifas exactas.

### ¿Cuál es la diferencia entre text_to_video e image_to_video?

text_to_video genera un clip a partir de un prompt de texto. image_to_video requiere una first_frame_image_url y anima a partir de esa imagen. Ambos endpoints devuelven un task_id asíncrono y admiten las mismas opciones de duración y resolución.

### ¿Puede Kling generar videos con sonido?

Sí. Establece enable_sound en true en el cuerpo de la solicitud. Kling 3.0 genera audio sincronizado que coincide con el contenido del video. La generación de sonido incrementa el coste por segundo — a 720p, el sonido añade aproximadamente 3 centavos por segundo.

### ¿Cuál es la duración máxima de video que soporta Kling 3.0?

Kling 3.0 admite de 3 a 15 segundos mediante el parámetro duration_seconds. Versiones anteriores como kling-v2.5-turbo-text-to-video-pro solo aceptan 5 o 10 segundos.

### ¿Puedo controlar el movimiento de cámara en los videos de Kling?

Kling 3.0 tiene un endpoint separado motion_control en /api/v1/kling/motion_control para aplicar presets de movimiento a una imagen de origen con un video de referencia. El endpoint text_to_video se basa en las descripciones del prompt para la dirección de cámara.


## Links

- [Guía de configuración de OpenClaw →](https://runapi.ai/es/openclaw)
- [Modelos de Kling →](https://runapi.ai/es/models/kling)
- [Model catalog](https://runapi.ai/es/models)
- [API docs](https://runapi.ai/es/docs)
