Usa Wan en OpenClaw.
Wan es el modelo de generación de video e imágenes de código abierto de Alibaba, con licencia Apache 2.0 y clasificado n.º 1 en el ranking de texto a video de Artificial Analysis. Abarca más de 20 variantes desde Wan 2.2 hasta 2.7 — texto a video, imagen a video, voz a video con sincronización labial, edición de video vía R2V y generación de imágenes hasta 4K. Los agentes de OpenClaw llaman a cualquier endpoint de Wan a través de la misma clave de RunAPI usada para chat.
Usa RunAPI para generar un video con Alibaba Wan 2.7.
Requisitos:
- Llama al endpoint text_to_video de RunAPI en https://runapi.ai/api/v1/task/text_to_video.
- Establece model en "wan-2.7-text-to-video".
- Lee la clave API de la variable de entorno RUNAPI_API_KEY.
- Establece output_resolution en "1080p" para salida Full HD.
- Incluye un prompt detallado describiendo la escena, el movimiento de cámara y la iluminación.
- La respuesta es asíncrona. Consulta el task_id devuelto hasta que el estado sea "completed".
- Cuando termine, lee la URL del video de la salida de la respuesta.
curl -X POST https://runapi.ai/api/v1/task/text_to_video \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "wan-2.7-text-to-video",
"prompt": "A drone shot rising over terraced rice paddies at golden hour, mist rolling through the valleys, slow upward camera tilt",
"output_resolution": "1080p"
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "wan-2.7-text-to-video"
}
Usa Wan en OpenClaw en tres pasos
Configura RunAPI
Establece RUNAPI_API_KEY en tu entorno. Si ya configuraste RunAPI en OpenClaw para chat o generación de imágenes, la misma clave funciona para todos los endpoints de Wan — no se necesita configuración de proveedor adicional.
export RUNAPI_API_KEY=runapi_xxx
Llama a un endpoint de Wan
Envía un POST a text_to_video con model establecido en wan-2.7-text-to-video y output_resolution en 720p o 1080p. Para imagen a video, usa wan-2.7-image-to-video con first_frame_image_url. Para video a partir de voz, usa wan-2.2-a14b-speech-to-video-turbo con source_audio_url y source_image_url.
POST /api/v1/task/text_to_video
Consulta el resultado
El endpoint devuelve un task_id inmediatamente. Consulta el endpoint de estado de la tarea hasta que el estado sea completado, luego lee la URL del video o imagen de salida de la respuesta. Los SDKs de RunAPI y la CLI gestionan el polling automáticamente.
GET /api/v1/task/text_to_video/tsk_abc123
Parámetros de la API text_to_video de Wan
| Parâmetro | Tipo | Descrição |
|---|---|---|
model |
string |
Obligatorio. wan-2.7-text-to-video, wan-2.6-text-to-video, wan-2.5-text-to-video, wan-2.2-a14b-text-to-video-turbo o wan-2.7-r2v. |
prompt |
string |
Obligatorio. Descripción de texto de la escena de video deseada, incluyendo movimiento de cámara, iluminación y detalle del sujeto. |
output_resolution |
string |
Opcional. 720p o 1080p para Wan 2.5+. Wan 2.2 también acepta 480p y 580p. Por defecto 720p. |
aspect_ratio |
string |
Opcional. Solo para wan-2.7-r2v. Valores aceptados: 16:9, 9:16, 1:1, 4:3, 3:4. |
duration_seconds |
integer |
Opcional. Solo para wan-2.7-r2v. Duración del video en segundos, de 2 a 10. |
seed |
integer |
Opcional. Semilla de reproducibilidad para salida determinista. |
callback_url |
string |
Opcional. URL de webhook que recibe un POST cuando la tarea se completa. |
O que é Wan no OpenClaw?
Wan da Alibaba é um modelo de vídeo de código aberto (Apache 2.0) classificado no topo do ranking de texto para vídeo da Artificial Analysis. Oferece controle de primeiro e último frame para geração ancorada em endpoints, vídeo multi-plano com consistência de personagem e áudio nativo incluindo fala para vídeo com sincronização labial. Agentes OpenClaw acessam mais de 20 variantes Wan via RunAPI com uma única chave de API.
Casos de uso do Wan
Workflow de storyboard para vídeo
Use ancoragem de primeiro e último frame para transformar ilustrações de storyboard em sequências de vídeo fluidas.
Apresentadores virtuais e mascotes de marca
Gere vídeo de talking head a partir de uma imagem de rosto e arquivo de áudio para apresentações de marca.
Sequências multi-plano com consistência de personagem
Construa conteúdo rico em diálogo ou narrativo onde o mesmo personagem permanece consistente em múltiplas cenas.
Preguntas sobre Wan + OpenClaw
Todos. text_to_video, image_to_video, speech_to_video, text_to_image (Wan 2.7 Image), edit_video y animate. Cada endpoint usa un slug de modelo diferente — por ejemplo wan-2.7-text-to-video para generación de video y wan-2.7-image para generación de imágenes hasta 4K.
Wan 2.5 introdujo salida a 1080p. Wan 2.6 añadió edición de video (R2V) y variantes flash para generación más rápida. Wan 2.7 añade generación de imágenes (wan-2.7-image, wan-2.7-image-pro hasta 4K), edición de video (wan-2.7-edit-video) y mejor calidad de texto a video que lidera el ranking de Artificial Analysis.
Usa wan-2.2-a14b-speech-to-video-turbo con source_audio_url (el archivo de audio) y source_image_url (el rostro a animar). Wan genera un video con sincronización labial donde el rostro habla el audio. La resolución de salida admite 480p, 580p o 720p.
Sí. Wan 2.7 añadió endpoints text_to_image. Usa wan-2.7-image para generación estándar o wan-2.7-image-pro para mayor calidad. Ambos admiten relaciones de aspecto de 1:1 a 21:9 y resoluciones de salida de 1k, 2k o 4k.
Sí. Wan se publica bajo licencia Apache 2.0 por Alibaba y los pesos del modelo están disponibles públicamente. A través de RunAPI te saltas la configuración de GPU — una sola llamada a la API genera video o imágenes. Si necesitas un pipeline auto-alojado por privacidad, los mismos pesos funcionan en tu propia infraestructura.
Configuración general de OpenClaw
¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para OpenClaw.
Guía de configuración de OpenClaw →Catálogo de modelos Wan
Ver las más de 20 variantes de Wan, precios y documentación de endpoints.
Wan en RunAPI →Prueba Wan en OpenClaw hoy.
Obtén una clave RunAPI gratuita, pega el prompt en OpenClaw y genera video con el modelo de código abierto n.º 1 — texto a video, imagen a video o voz a video.