在 Hermes Agent 中使用 ElevenLabs。
ElevenLabs 透過 RunAPI 提供六個音訊端點 — turbo-v2.5 文字轉語音(亞秒級延遲)、multilingual-v2(支援 29 種語言)、dialogue-v3(多說話者對話)、音效、語音轉文字轉錄和人聲分離。Hermes Agent 透過 custom:runapi provider 以一個 API key 來呼叫。
Use RunAPI to generate speech audio with ElevenLabs text-to-speech.
Requirements:
- Read the API key from RUNAPI_API_KEY.
- Use the custom:runapi provider with base_url https://runapi.ai/v1.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
三步驟在 Hermes Agent 中使用 ElevenLabs
設定 RunAPI
在 Hermes Agent 執行環境中設定 RUNAPI_API_KEY。如果你已將 RunAPI 新增為 custom:runapi provider,同一組 key 和 base_url 即可處理所有 ElevenLabs 端點 — 文字轉語音、語音轉文字、對話、音效和音訊分離。
export RUNAPI_API_KEY=runapi_xxx
呼叫 text_to_speech
向 text_to_speech 端點發送 POST 請求,將 model 設為 text-to-speech-turbo-v2.5,附上要朗讀的文字,以及選填的 voice、speed 和 stability 參數。Hermes Agent 透過 custom:runapi provider 路由請求。如需多語言輸出,使用 text-to-speech-multilingual-v2 並搭配 voice 和 language_code。
POST /api/v1/elevenlabs/text_to_speech
輪詢結果
端點會立即回傳 task_id。輪詢任務狀態端點,直到 status 為 completed,然後從回應中讀取輸出音訊 URL。
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
ElevenLabs text_to_speech API 參數
| 參數 | 類型 | 說明 |
|---|---|---|
model |
string |
必填。text-to-speech-turbo-v2.5(低延遲)或 text-to-speech-multilingual-v2(29 種語言)。 |
text |
string |
必填。要轉換為語音的文字。最多 5000 個字元。 |
voice |
string |
ElevenLabs voice ID。multilingual-v2 必填。turbo-v2.5 若省略則使用預設語音。 |
speed |
float |
選填。播放速度倍率。範圍 0.7 到 1.2。 |
stability |
float |
選填。語音一致性。範圍 0.0 到 1.0。較低值增加表現力。 |
similarity_boost |
float |
選填。語音相似度強化。範圍 0.0 到 1.0。 |
style |
float |
選填。風格誇張程度。範圍 0.0 到 1.0。 |
language_code |
string |
選填。multilingual-v2 的目標語言,例如 en、es、ja。 |
callback_url |
string |
選填。任務完成時接收 POST 通知的 Webhook URL。 |
Hermes Agent 上的 ElevenLabs 是什麼?
ElevenLabs 是領先的文字轉語音 API,Hermes Agent 透過 custom:runapi provider 呼叫它,用於語音生成、轉錄和音訊處理。Hermes 的核心優勢在於串接——生成語音後,將音訊 URL 傳遞給 InfiniteTalk 用於虛擬形象,或傳給影片模型製作完整的音視覺內容,全部在單次代理執行中完成。可用的六個端點包括 turbo TTS、多語言聲線、多說話者對話和音效。
ElevenLabs 使用情境
對話式 AI 語音代理
透過 turbo-v2.5 以次秒延遲生成自然語音,構建能自然說話的語音代理,適用於客服機器人、互動助理或電話介面。
YouTube 內容解說
以一致的角色聲線為 YouTube 影片製作旁白,在整個系列中調整穩定度確保解說一致性,調整風格誇張度呈現情感變化。
文字轉語音影片流程
在 Hermes Agent 工作流程中將 ElevenLabs TTS 與 InfiniteTalk 或其他影片模型串接,在單次自動化執行中從文字生成附有虛擬形象的旁白影片。
ElevenLabs + Hermes Agent 常見問題
可以。在 Hermes Agent 設定中新增 custom:runapi provider,將 base_url 設為 https://runapi.ai/v1,key_env 設為 RUNAPI_API_KEY,然後即可呼叫任何 ElevenLabs 端點 — text_to_speech、speech_to_text、text_to_dialogue、text_to_sound 或 isolate_audio。
turbo-v2.5 針對低延遲和英語優先輸出進行最佳化 — 未指定語音時會套用預設語音。multilingual-v2 支援 29 種語言,需要明確的 voice ID 和選填的 language_code。turbo 的每字元費用約為一半。
文字轉語音和對話端點按輸入文字的字元數計費。語音轉文字按音訊分鐘數計費。音訊分離按任務計費。請查看 RunAPI 定價頁面了解目前費率。
可以。呼叫 speech_to_text 端點(/api/v1/elevenlabs/speech_to_text),帶上 source_audio_url。該端點支援透過 diarize 參數進行選填的說話者分離,以及透過 tag_audio_events 進行音訊事件標記。結果以非同步方式回傳。
呼叫 isolate_audio 端點(/api/v1/elevenlabs/isolate_audio),將 source_audio_url 指向你的混合音訊檔案。該端點從背景噪音中擷取人聲,並回傳清理後的音訊 URL。任務為非同步 — 可輪詢或使用 callback_url。
立即在 Hermes Agent 中試用 ElevenLabs。
取得免費 RunAPI key,設定 custom:runapi provider,即可使用 ElevenLabs 生成語音 — 六個端點、一個 API key、按字元計費。