Welche Wan-Endpunkte kann ich aus OpenClaw aufrufen?

Alle. text_to_video, image_to_video, speech_to_video, text_to_image (Wan 2.7 Image), edit_video und animate. Jeder Endpunkt verwendet einen anderen Modell-Slug — zum Beispiel wan-2.7-text-to-video für Videogenerierung und wan-2.7-image für Bildgenerierung bis zu 4K.

Was ist der Unterschied zwischen Wan 2.5, 2.6 und 2.7?

Wan 2.5 führte 1080p-Output ein. Wan 2.6 fügte Videobearbeitung (R2V) und Flash-Varianten für schnellere Generierung hinzu. Wan 2.7 fügt Bildgenerierung (wan-2.7-image, wan-2.7-image-pro bis 4K), Videobearbeitung (wan-2.7-edit-video) und verbesserte Text-to-Video-Qualität hinzu, die die Artificial-Analysis-Bestenliste anführt.

Wie funktioniert Speech-to-Video mit Wan?

wan-2.2-a14b-speech-to-video-turbo mit source_audio_url (die Audiodatei) und source_image_url (das zu animierende Gesicht) verwenden. Wan generiert ein lipsynchronisiertes Video, in dem das Gesicht den Ton spricht. Ausgabeauflösung unterstützt 480p, 580p oder 720p.

Kann ich Bilder mit Wan generieren?

Ja. Wan 2.7 hat text_to_image-Endpunkte hinzugefügt. wan-2.7-image für Standardgenerierung oder wan-2.7-image-pro für höhere Qualität verwenden. Beide unterstützen Seitenverhältnisse von 1:1 bis 21:9 und Ausgabeauflösungen von 1k, 2k oder 4k.

Ist Wan Open-Source? Kann ich es selbst hosten?

Ja. Wan ist von Alibaba unter Apache 2.0 veröffentlicht und die Modellgewichte sind öffentlich verfügbar. Über RunAPI entfällt die GPU-Einrichtung — ein API-Aufruf generiert Video oder Bilder. Für selbst gehostete Pipelines aus Datenschutzgründen laufen dieselben Gewichte auf eigener Infrastruktur.

OPENCLAW + WAN

Wan in OpenClaw verwenden.

Wan ist Alibabas Open-Source-Video- und Bildgenerierungsmodell, Apache 2.0-lizenziert und № 1 auf dem Artificial Analysis Text-to-Video-Leaderboard. Es umfasst 20+ Varianten von Wan 2.2 bis 2.7 — Text-to-Video, Image-to-Video, Speech-to-Video mit Lipsync, Videobearbeitung via R2V und Bildgenerierung bis zu 4K. OpenClaw-Agenten rufen jeden Wan-Endpunkt über denselben RunAPI-Key wie für Chat auf.

API Key holen Dokumentation lesen

ein API-Key · 20+ Wan-Varianten · Apache 2.0 Open Source

RunAPI verwenden, um ein Video mit Alibaba Wan 2.7 zu generieren.


      Requirements:

      - Call the RunAPI text_to_video endpoint at https://runapi.ai/api/v1/task/text_to_video.

      - Set model to "wan-2.7-text-to-video".

      - Read the API key from the RUNAPI_API_KEY environment variable.

      - Set output_resolution to "1080p" for full HD output.

      - Include a detailed prompt describing the scene, camera motion, and lighting.

      - The response is async. Poll the returned task_id until status is "completed".

      - When done, read the video URL from the response output.

curl -X POST https://runapi.ai/api/v1/task/text_to_video \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "wan-2.7-text-to-video",
    "prompt": "A drone shot rising over terraced rice paddies at golden hour, mist rolling through the valleys, slow upward camera tilt",
    "output_resolution": "1080p"
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "wan-2.7-text-to-video"
}

Den curl-Befehl kopieren und testen wan

SO FUNKTIONIERT ES

Wan in OpenClaw in drei Schritten verwenden

RunAPI konfigurieren

RUNAPI_API_KEY in der Umgebung setzen. Wenn RunAPI bereits in OpenClaw für Chat oder Bildgenerierung konfiguriert ist, funktioniert derselbe Key für alle Wan-Endpunkte — keine zusätzliche Provider-Einrichtung nötig.

export RUNAPI_API_KEY=runapi_xxx

Einen Wan-Endpunkt aufrufen

Einen POST-Request an text_to_video mit model wan-2.7-text-to-video und output_resolution 720p oder 1080p senden. Für Image-to-Video wan-2.7-image-to-video mit first_frame_image_url verwenden. Für sprachgesteuerte Videos wan-2.2-a14b-speech-to-video-turbo mit source_audio_url und source_image_url verwenden.

POST /api/v1/task/text_to_video

Ergebnis abrufen

Der Endpunkt gibt sofort eine task_id zurück. Den Task-Status-Endpunkt abfragen, bis der Status completed ist, dann die Video- oder Bild-URL aus der Antwort auslesen. RunAPI SDKs und die CLI übernehmen das Polling automatisch.

GET /api/v1/task/text_to_video/tsk_abc123

PARAMETER

Wan text_to_video API-Parameter

Parameter	Typ	Beschreibung
`model`	`string`	Erforderlich. wan-2.7-text-to-video, wan-2.6-text-to-video, wan-2.5-text-to-video, wan-2.2-a14b-text-to-video-turbo oder wan-2.7-r2v.
`prompt`	`string`	Erforderlich. Textbeschreibung der gewünschten Videosequenz, einschließlich Kamerabewegung, Beleuchtung und Motivdetail.
`output_resolution`	`string`	Optional. 720p oder 1080p für Wan 2.5+. Wan 2.2 akzeptiert auch 480p und 580p. Standard ist 720p.
`aspect_ratio`	`string`	Optional. Nur für wan-2.7-r2v. Akzeptierte Werte: 16:9, 9:16, 1:1, 4:3, 3:4.
`duration_seconds`	`integer`	Optional. Nur für wan-2.7-r2v. Videolänge in Sekunden, 2 bis 10.
`seed`	`integer`	Optional. Reproduzierbarkeitssamen für deterministischen Output.
`callback_url`	`string`	Optional. Webhook-URL, die einen POST erhält, wenn der Task abgeschlossen ist.

Was ist Wan auf OpenClaw?

Wan von Alibaba ist ein Open-Source-(Apache 2.0-)Videomodell, das an der Spitze des Artificial-Analysis-Text-zu-Video-Leaderboards steht. Es bietet First-Frame- und Last-Frame-Kontrolle für endpunktverankerte Generierung, Mehrfach-Shot-Video mit Charakterkonsistenz und natives Audio einschließlich lippensynchronisiertem Speech-to-Video. OpenClaw-Agenten greifen mit einem einzelnen API-Key auf alle 20+ Wan-Varianten über RunAPI zu.

Wan Anwendungsfälle

Storyboard-zu-Video-Workflow

First-Frame- und Last-Frame-Verankerung verwenden, um Storyboard-Panels in Videosequenzen umzuwandeln. Jeder Clip beginnt und endet auf den eigenen Keyframes und hält visuelle Kontinuität über ein Mehrfach-Shot-Projekt aufrecht.

Virtuelle Presenter und Markenmaskottchen

Talking-Head-Video aus einem Gesichtsbild und einer Audiodatei über Wans Speech-to-Video-Endpunkt generieren. Das Modell verarbeitet Lippensync und Kopfbewegung für konsistenten Markensprechercontent.

Mehrfach-Shot-Sequenzen mit Charakterkonsistenz

Dialog-lastigen oder narrativen Content aufbauen, bei dem derselbe Charakter über mehrere Clips erscheint. Wans zeitliche Konsistenz hält Gesichter und Outfits zwischen Shots stabil.

FAQ

Wan + OpenClaw — Fragen

OpenClaw Grundeinrichtung

Noch nicht eingerichtet? Mit der RunAPI-Einrichtungsanleitung für OpenClaw starten.

OpenClaw Einrichtungsanleitung →

Wan Modellkatalog

Alle 20+ Wan-Varianten, Preise und Endpunkt-Dokumentation ansehen.

Wan on RunAPI →

Wan in OpenClaw noch heute ausprobieren.

Einen kostenlosen RunAPI-Key holen, den Prompt in OpenClaw einfügen und Videos mit dem № 1-Open-Source-Modell generieren — Text-to-Video, Image-to-Video oder Speech-to-Video.

Modelle durchsuchen →