OpenClaw で Wan を使う。
Wan は Alibaba のオープンソース動画・画像生成モデルで、Apache 2.0 ライセンスのもと Artificial Analysis のテキスト→動画リーダーボードで第 1 位にランクされています。Wan 2.2 から 2.7 まで 20 以上のバリアントを揃え —— テキスト→動画、画像→動画、リップシンク付き音声→動画、R2V による動画編集、最高 4K の画像生成に対応します。OpenClaw エージェントはチャットと同じ RunAPI キーで任意の Wan エンドポイントを呼び出します。
Use RunAPI to generate a video with Alibaba Wan 2.7.
要件:
- Call the RunAPI text_to_video endpoint at https://runapi.ai/api/v1/task/text_to_video.
- Set model to "wan-2.7-text-to-video".
- Read the API key from the RUNAPI_API_KEY environment variable.
- Set output_resolution to "1080p" for full HD output.
- Include a detailed prompt describing the scene, camera motion, and lighting.
- The response is async. Poll the returned task_id until status is "completed".
- When done, read the video URL from the response output.
curl -X POST https://runapi.ai/api/v1/task/text_to_video \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "wan-2.7-text-to-video",
"prompt": "A drone shot rising over terraced rice paddies at golden hour, mist rolling through the valleys, slow upward camera tilt",
"output_resolution": "1080p"
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "wan-2.7-text-to-video"
}
OpenClaw で Wan を使う3ステップ
Configure RunAPI
Set RUNAPI_API_KEY in your environment. If you already configured RunAPI in OpenClaw for chat or image generation, the same key works for all Wan endpoints — no extra provider setup needed.
export RUNAPI_API_KEY=runapi_xxx
Call a Wan endpoint
Send a POST request to text_to_video with model set to wan-2.7-text-to-video and output_resolution to 720p or 1080p. For image-to-video, use wan-2.7-image-to-video with a first_frame_image_url. For speech-driven video, use wan-2.2-a14b-speech-to-video-turbo with source_audio_url and source_image_url.
POST /api/v1/task/text_to_video
Poll for the result
The endpoint returns a task_id immediately. Poll the task status endpoint until the status is completed, then read the output video or image URL from the response. RunAPI SDKs and the CLI handle polling automatically.
GET /api/v1/task/text_to_video/tsk_abc123
Wan text_to_video API パラメータ
| パラメータ | 型 | 説明 |
|---|---|---|
model |
string |
Required. wan-2.7-text-to-video, wan-2.6-text-to-video, wan-2.5-text-to-video, wan-2.2-a14b-text-to-video-turbo, or wan-2.7-r2v. |
prompt |
string |
Required. Text description of the desired video scene, including camera motion, lighting, and subject detail. |
output_resolution |
string |
Optional. 720p or 1080p for Wan 2.5+. Wan 2.2 also accepts 480p and 580p. Defaults to 720p. |
aspect_ratio |
string |
Optional. For wan-2.7-r2v only. Accepted values: 16:9, 9:16, 1:1, 4:3, 3:4. |
duration_seconds |
integer |
Optional. For wan-2.7-r2v only. Video length in seconds, 2 to 10. |
seed |
integer |
Optional. Reproducibility seed for deterministic output. |
callback_url |
string |
Optional. Webhook URL that receives a POST when the task completes. |
OpenClaw上のWanとは?
WanはAlibaba製のオープンソース(Apache 2.0)動画モデルで、Artificial Analysisのテキスト→動画リーダーボードのトップにランクされています。エンドポイント固定生成向けのファースト・ラストフレームコントロール、キャラクター一貫性付きマルチショット動画、リップシンク音声→動画を含むネイティブ音声サポートを提供します。OpenClaw agentは単一のAPIキーで20以上のWanバリアント全てにアクセスできます。
Wanの活用例
絵コンテ→動画ワークフロー
ファースト・ラストフレームのアンカリングを使って絵コンテのパネルを動画シーケンスに変換します。各クリップがキーフレーム上で開始・終了し、マルチショットプロジェクト全体で視覚的連続性を維持します。
バーチャルプレゼンターとブランドマスコット
Wanの音声→動画エンドポイントを使って顔画像と音声ファイルからトーキングヘッド動画を生成します。モデルがリップシンクと頭部の動きを処理し、一貫したブランドスポークスパーソンコンテンツを作成します。
キャラクター一貫性付きマルチショットシーケンス
複数のクリップにわたって同じキャラクターが登場する対話の多いまたはナラティブなコンテンツを構築します。Wanの時系列一貫性がショット間で顔と服装を安定させます。
Wan + OpenClaw に関する質問
All of them. text_to_video, image_to_video, speech_to_video, text_to_image (Wan 2.7 Image), edit_video, and animate. Each endpoint uses a different model slug — for example wan-2.7-text-to-video for video generation and wan-2.7-image for image generation up to 4K.
Wan 2.5 introduced 1080p output. Wan 2.6 added video editing (R2V) and flash variants for faster generation. Wan 2.7 adds image generation (wan-2.7-image, wan-2.7-image-pro up to 4K), video editing (wan-2.7-edit-video), and improved text-to-video quality that leads the Artificial Analysis leaderboard.
Use wan-2.2-a14b-speech-to-video-turbo with source_audio_url (the audio file) and source_image_url (the face to animate). Wan generates a lip-synced video where the face speaks the audio. Output resolution supports 480p, 580p, or 720p.
Yes. Wan 2.7 added text_to_image endpoints. Use wan-2.7-image for standard generation or wan-2.7-image-pro for higher quality. Both support aspect ratios from 1:1 to 21:9 and output resolutions of 1k, 2k, or 4k.
Yes. Wan is released under Apache 2.0 by Alibaba and the model weights are publicly available. Through RunAPI you skip the GPU setup — one API call generates video or images. If you need a self-hosted pipeline for privacy, the same weights run on your own infrastructure.
今すぐ OpenClaw で Wan を試す。
無料の RunAPI キーを取得し、プロンプトを OpenClaw に貼り付けて、第 1 位のオープンソースモデルで動画を生成しましょう —— テキスト→動画、画像→動画、または音声→動画。