Kann ich ElevenLabs in Hermes Agent verwenden?

Ja. RunAPI als custom:runapi-Provider in Hermes Agent mit base_url https://runapi.ai/v1 und key_env RUNAPI_API_KEY konfigurieren, dann beliebige ElevenLabs-Endpunkte aufrufen — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound oder isolate_audio.

Was ist der Unterschied zwischen turbo-v2.5 und multilingual-v2?

Turbo-v2.5 ist für niedrige Latenz und englischsprachigen Output optimiert — es wird eine Standardstimme angewendet, wenn keine angegeben ist. Multilingual-v2 unterstützt 29 Sprachen und benötigt eine explizite voice-ID und optionalen language_code. Turbo kostet etwa halb so viel pro Zeichen.

Wie wird ElevenLabs auf RunAPI abgerechnet?

Text-to-Speech- und Dialogue-Endpunkte werden pro Zeichen des Eingabetexts abgerechnet. Speech-to-Text wird pro Audiominute abgerechnet. Audio-Isolation wird pro Task abgerechnet. Aktuelle Preise auf der RunAPI-Preisseite.

Kann ich Audio mit ElevenLabs in Hermes Agent transkribieren?

Ja. Den speech_to_text-Endpunkt unter /api/v1/elevenlabs/speech_to_text mit einer source_audio_url aufrufen. Der Endpunkt unterstützt optionale Sprecher-Diarisierung über den diarize-Parameter und Audio-Event-Tagging über tag_audio_events. Ergebnisse werden asynchron zurückgegeben.

Wie funktioniert die Audio-Isolation über RunAPI?

Den isolate_audio-Endpunkt unter /api/v1/elevenlabs/isolate_audio mit einer source_audio_url aufrufen, die auf die gemischte Audiodatei zeigt. Der Endpunkt trennt Gesang von Hintergrundgeräuschen und gibt eine bereinigte Audio-URL zurück. Der Task ist asynchron — abfragen oder callback_url verwenden.

HERMES + ELEVENLABS

ElevenLabs in Hermes Agent verwenden.

ElevenLabs bietet sechs Audio-Endpunkte über RunAPI — turbo-v2.5 TTS mit unter einer Sekunde Latenz, multilingual-v2 für 29 Sprachen, dialogue-v3 für Multi-Speaker-Konversationen, Soundeffekte, Sprache-zu-Text-Transkription und Vokaltrennung. Hermes Agent ruft sie über den custom:runapi-Provider mit einem API-Key auf.

API Key holen Dokumentation lesen

ein API-Key · Text-to-Speech-Endpunkt · zeichenbasierte Abrechnung

RunAPI verwenden, um Sprachaudio mit ElevenLabs Text-to-Speech zu generieren.


      Requirements:

      - Read the API key from RUNAPI_API_KEY.

      - Use the custom:runapi provider with base_url https://runapi.ai/v1.

      - Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech

      - Set model to "text-to-speech-turbo-v2.5".

      - Set text to the content you want spoken.

      - Optionally set voice to a specific ElevenLabs voice ID.

      - Optionally set speed between 0.7 and 1.2.

      - The task is async. Poll the returned task_id until status is "completed".

      - When done, read the audio URL from the response output.

curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}

Den curl-Befehl kopieren und testen elevenlabs

SO FUNKTIONIERT ES

ElevenLabs in Hermes Agent in drei Schritten verwenden

RunAPI konfigurieren

RUNAPI_API_KEY in der Umgebung setzen, in der Hermes Agent läuft. Wenn RunAPI bereits als custom:runapi-Provider hinzugefügt wurde, übernehmen derselbe Key und dieselbe base_url alle ElevenLabs-Endpunkte — TTS, STT, Dialogue, Soundeffekte und Audio-Isolation.

export RUNAPI_API_KEY=runapi_xxx

text_to_speech aufrufen

Einen POST an den text_to_speech-Endpunkt mit model text-to-speech-turbo-v2.5, dem zu sprechenden Text und optionalen voice-, speed- und stability-Parametern senden. Hermes Agent leitet den Request über den custom:runapi-Provider weiter. Für mehrsprachigen Output text-to-speech-multilingual-v2 mit einer voice und language_code verwenden.

POST /api/v1/elevenlabs/text_to_speech

Ergebnis abrufen

Der Endpunkt gibt sofort eine task_id zurück. Den Task-Status-Endpunkt abfragen, bis der Status completed ist, dann die Audio-URL aus der Antwort auslesen.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123

PARAMETER

ElevenLabs text_to_speech API-Parameter

Parameter	Typ	Beschreibung
`model`	`string`	Erforderlich. text-to-speech-turbo-v2.5 (niedrige Latenz) oder text-to-speech-multilingual-v2 (29 Sprachen).
`text`	`string`	Erforderlich. Der zu sprechende Text. Maximal 5000 Zeichen.
`voice`	`string`	ElevenLabs-Stimm-ID. Erforderlich für multilingual-v2. Turbo-v2.5 verwendet eine Standardstimme, wenn weggelassen.
`speed`	`float`	Optional. Wiedergabegeschwindigkeitsmultiplikator. Bereich 0,7 bis 1,2.
`stability`	`float`	Optional. Stimmkonsistenz. Bereich 0,0 bis 1,0. Niedrigere Werte fügen Ausdrucksstärke hinzu.
`similarity_boost`	`float`	Optional. Stimmähnlichkeitserzwingung. Bereich 0,0 bis 1,0.
`style`	`float`	Optional. Stilübertreibung. Bereich 0,0 bis 1,0.
`language_code`	`string`	Optional. Zielsprache für multilingual-v2, z. B. en, es, ja.
`callback_url`	`string`	Optional. Webhook-URL, die einen POST erhält, wenn der Task abgeschlossen ist.

Was ist ElevenLabs mit Hermes Agent?

ElevenLabs ist die führende Text-zu-Sprache-API und Hermes Agent ruft es über den custom:runapi-Provider für Sprachgenerierung, Transkription und Audioverarbeitung auf. Der Hauptvorteil in Hermes ist die Verkettung – Sprache generieren, dann die Audio-URL an InfiniteTalk für einen Talking-Avatar oder an ein Videomodell für vollständigen audiovisuellen Content weitergeben, alles in einem Agent-Lauf. Sechs Endpunkte sind verfügbar, darunter Turbo-TTS, mehrsprachige Stimmen, Mehrsprecherdialog und Soundeffekte.

ElevenLabs Anwendungsfälle

Konversationelle KI-Sprach-Agenten

Sprach-Agenten aufbauen, die natürlich sprechen, indem Sprache über turbo-v2.5 mit Subsekunden-Latenz generiert wird – geeignet für Kundendienst-Bots, interaktive Assistenten oder telefonbasierte Schnittstellen.

YouTube-Content-Narration

Voiceover für YouTube-Videos in konsistenten Charakterstimmen produzieren und Stabilität für Sprecher-Konsistenz und Stil-Übertreibung für emotionale Bandbreite über eine gesamte Serie anpassen.

Text-zu-gesprochenem-Video-Pipelines

ElevenLabs TTS mit InfiniteTalk oder anderen Videomodellen in einem Hermes-Agent-Workflow verketten, um von Text zu narrativem Video mit einem Talking-Avatar in einem einzigen automatisierten Lauf zu kommen.

FAQ

ElevenLabs + Hermes Agent — Fragen

Hermes Agent Grundeinrichtung

Noch nicht eingerichtet? Mit der RunAPI-Einrichtungsanleitung für Hermes Agent starten.

Hermes Agent Einrichtungsanleitung →

ElevenLabs Modellkatalog

Alle ElevenLabs-Varianten, Preise und API-Dokumentation ansehen.

ElevenLabs on RunAPI →

ElevenLabs in Hermes Agent noch heute ausprobieren.

Einen kostenlosen RunAPI-Key holen, den custom:runapi-Provider konfigurieren und Sprachaudio mit ElevenLabs generieren — sechs Endpunkte, ein API-Key, zeichenbasierte Abrechnung.

Modelle durchsuchen →