Używaj ElevenLabs w Hermes Agent.
ElevenLabs zapewnia sześć endpointów audio przez RunAPI — TTS turbo-v2.5 z opóźnieniem poniżej sekundy, multilingual-v2 obsługujący 29 języków, dialogue-v3 dla rozmów wieloosobowych, efekty džwiękowe, transkrypcję mowy na tekst i izolację wokalu. Hermes Agent wywołuje je przez dostawcę custom:runapi z jednym kluczem API.
Use RunAPI to generate speech audio with ElevenLabs text-to-speech.
Requirements:
- Read the API key from RUNAPI_API_KEY.
- Use the custom:runapi provider with base_url https://runapi.ai/v1.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
Używaj ElevenLabs w Hermes Agent w trzech krokach
Skonfiguruj RunAPI
Ustaw RUNAPI_API_KEY w środowisku, w którym działa Hermes Agent. Jeśli już dodałeś RunAPI jako dostawcę custom:runapi, ten sam klucz i base_url obsługują wszystkie endpointy ElevenLabs — TTS, STT, dialogue, efekty džwiękowe i izolacja džwięku.
export RUNAPI_API_KEY=runapi_xxx
Wywołaj text_to_speech
Wyślij POST do endpointu text_to_speech z modelem ustawionym na text-to-speech-turbo-v2.5, tekstem, który chcesz wypowiedzieć, oraz opcjonalnymi parametrami voice, speed i stability. Hermes Agent kieruje żądanie przez dostawcę custom:runapi. Dla wyjścia wielojęzycznego użyj text-to-speech-multilingual-v2 z głosem i language_code.
POST /api/v1/elevenlabs/text_to_speech
Odpytuj o wynik
Endpoint natychmiast zwraca task_id. Odpytuj endpoint statusu zadania, aż status osiągnie wartość completed, a następnie odczytaj wyjściowy adres URL džwięku z odpowiedzi.
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
Parametry API ElevenLabs text_to_speech
| Parametr | Typ | Opis |
|---|---|---|
model |
string |
Wymagane. text-to-speech-turbo-v2.5 (niskie opóźnienie) lub text-to-speech-multilingual-v2 (29 języków). |
text |
string |
Wymagane. Tekst do przekonwertowania na mowę. Maksymalnie 5000 znaków. |
voice |
string |
ID głosu ElevenLabs. Wymagane dla multilingual-v2. Turbo-v2.5 używa domyślnego głosu, jeśli pominięto. |
speed |
float |
Opcjonalne. Mnożnik prędkości odtwarzania. Zakres 0.7 do 1.2. |
stability |
float |
Opcjonalne. Spójność głosu. Zakres 0.0 do 1.0. Niższe wartości dodają ekspresji. |
similarity_boost |
float |
Opcjonalne. Wymuszenie podobieństwa głosu. Zakres 0.0 do 1.0. |
style |
float |
Opcjonalne. Wzmocnienie stylu. Zakres 0.0 do 1.0. |
language_code |
string |
Opcjonalne. Docelowy język dla multilingual-v2, np. en, es, ja. |
callback_url |
string |
Opcjonalne. Adres URL webhooka, który otrzymuje POST po zakończeniu zadania. |
Czym jest ElevenLabs w Hermes Agent?
ElevenLabs to wiodące API tekst-do-mowy, a Hermes Agent wywołuje je przez RunAPI custom provider. Ułatwia to łączenie TTS z innymi modelami RunAPI — generuj mowę i przekazuj URL audio do InfiniteTalk lub modeli wideo w jednym workflow.
Zastosowania ElevenLabs
Konwersacyjni agenci głosowi AI
Buduj agentów głosowych mówiących naturalnie, generując mowę jako krok w workflow'ach Hermes Agent.
Narracja treści YouTube
Produkuj lektorat dla filmów YouTube ze spójnymi głosami postaci przez API TTS.
Pipeline'y tekst-do-mówionego-wideo
Łącz ElevenLabs TTS z InfiniteTalk lub innymi modelami wideo dla kompletnych workflow'ów tekst-do-wideo.
Pytania o ElevenLabs + Hermes Agent
Tak. Skonfiguruj RunAPI jako dostawcę custom:runapi w Hermes Agent z base_url https://runapi.ai/v1 i key_env RUNAPI_API_KEY, a następnie wywołaj dowolny endpoint ElevenLabs — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound lub isolate_audio.
Turbo-v2.5 jest zoptymalizowany pod kątem niskich opóźnień i przede wszystkim angielskiego wyjścia — stosuje domyślny głos, gdy żaden nie jest podany. Multilingual-v2 obsługuje 29 języków i wymaga jawnego ID głosu oraz opcjonalnego language_code. Turbo kosztuje mniej więcej o połowę mniej za znak.
Endpointy text-to-speech i dialogue są rozliczane per znak tekstu wejściowego. Speech-to-text jest rozliczany per minuta džwięku. Izolacja džwięku jest rozliczana per zadanie. Sprawdź stronę cennika RunAPI, aby uzyskać aktualne stawki.
Tak. Wywołaj endpoint speech_to_text pod adresem /api/v1/elevenlabs/speech_to_text z source_audio_url. Endpoint obsługuje opcjonalną diaryzację mówców przez parametr diarize oraz tagowanie zdarzeń džwiękowych przez tag_audio_events. Wyniki są zwracane asynchronicznie.
Wywołaj endpoint isolate_audio pod adresem /api/v1/elevenlabs/isolate_audio z source_audio_url wskazującym na Twój mieszany plik audio. Endpoint ekstrahuje wokal z szumu tła i zwraca oczyszczony adres URL džwięku. Zadanie jest asynchroniczne — odpytuj lub użyj callback_url.
Ogólna konfiguracja Hermes Agent
Nie skonfigurowano jeszcze? Zacznij od przewodnika konfiguracji RunAPI dla Hermes Agent.
Przewodnik konfiguracji Hermes Agent →Katalog modeli ElevenLabs
Zobacz wszystkie warianty ElevenLabs, ceny i dokumentację API.
ElevenLabs na RunAPI →Wypróbuj ElevenLabs w Hermes Agent już dziś.
Zdobądź darmowy klucz RunAPI, skonfiguruj dostawcę custom:runapi i generuj džwięk mowy z ElevenLabs — sześć endpointów, jeden klucz API, rozliczenie per znak.