Hermes Agent에서 ElevenLabs를 사용하세요.
ElevenLabs는 RunAPI를 통해 6개의 오디오 엔드포인트를 제공합니다 — 초저지연의 turbo-v2.5 TTS, 29개 언어를 지원하는 multilingual-v2, 다중 화자 대화용 dialogue-v3, 효과음, 음성 인식 전사, 보컬 분리. Hermes Agent는 하나의 API key로 custom:runapi 공급자를 통해 모두 호출합니다.
Use RunAPI to generate speech audio with ElevenLabs text-to-speech.
Requirements:
- Read the API key from RUNAPI_API_KEY.
- Use the custom:runapi provider with base_url https://runapi.ai/v1.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
Hermes Agent에서 ElevenLabs를 세 단계로 사용하기
RunAPI 설정
Hermes Agent가 실행되는 환경에 RUNAPI_API_KEY를 설정하세요. 이미 RunAPI를 custom:runapi 공급자로 추가했다면 동일한 key와 base_url로 모든 ElevenLabs 엔드포인트 — TTS, STT, 대화, 효과음, 오디오 분리 — 를 처리합니다.
export RUNAPI_API_KEY=runapi_xxx
text_to_speech 호출
model을 text-to-speech-turbo-v2.5로 설정하고, 변환할 텍스트와 선택적으로 voice, speed, stability 파라미터를 포함하여 text_to_speech 엔드포인트로 POST 요청을 보내세요. Hermes Agent가 custom:runapi 공급자를 통해 요청을 라우팅합니다. 다국어 출력에는 voice와 language_code를 사용하여 text-to-speech-multilingual-v2를 사용하세요.
POST /api/v1/elevenlabs/text_to_speech
결과 가져오기
엔드포인트는 즉시 task_id를 반환합니다. 상태가 completed가 될 때까지 작업 상태 엔드포인트를 폴링한 후 응답에서 오디오 URL을 읽으세요.
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
ElevenLabs text_to_speech API 파라미터
| 파라미터 | 유형 | 설명 |
|---|---|---|
model |
string |
필수. text-to-speech-turbo-v2.5(저지연) 또는 text-to-speech-multilingual-v2(29개 언어). |
text |
string |
필수. 음성으로 변환할 텍스트. 최대 5000자. |
voice |
string |
ElevenLabs 음성 ID. multilingual-v2에서는 필수. turbo-v2.5는 생략 시 기본 음성을 사용합니다. |
speed |
float |
선택 사항. 재생 속도 배율. 범위 0.7~1.2. |
stability |
float |
선택 사항. 음성 일관성. 범위 0.0~1.0. 낮을수록 표현력이 높아집니다. |
similarity_boost |
float |
선택 사항. 음성 유사도 강화. 범위 0.0~1.0. |
style |
float |
선택 사항. 스타일 과장. 범위 0.0~1.0. |
language_code |
string |
선택 사항. multilingual-v2의 목표 언어 (예: en, es, ja). |
callback_url |
string |
선택 사항. 작업 완료 시 POST를 수신할 웹훅 URL. |
Hermes Agent의 ElevenLabs란?
ElevenLabs는 선도적인 텍스트→음성 API로, Hermes Agent는 custom:runapi provider를 통해 음성 생성·전사·오디오 처리에 호출합니다. Hermes에서의 핵심 장점은 체이닝——음성을 생성한 후 해당 오디오 URL을 InfiniteTalk에 전달해 토킹 아바타를 만들거나, 동영상 모델에 전달해 완전한 시청각 콘텐츠를 만드는 처리를 단일 agent 실행으로 완성합니다.
ElevenLabs 활용 사례
대화형 AI 음성 에이전트
turbo-v2.5의 서브 초 지연으로 자연스러운 음성을 생성하는 말하는 음성 agent를 구축하며, 고객 서비스 봇·대화형 어시스턴트·전화 기반 인터페이스에 적합합니다.
YouTube 콘텐츠 내레이션
일관된 캐릭터 목소리로 YouTube 동영상의 내레이션을 제작하며, 시리즈 전체에서 안정성을 조정해 내레이터 일관성을 유지하고 감정 범위를 위해 스타일 과장을 조정합니다.
텍스트→토킹 동영상 파이프라인
Hermes Agent 워크플로에서 ElevenLabs TTS와 InfiniteTalk 또는 다른 동영상 모델을 연결해 단일 자동화 실행으로 텍스트에서 토킹 아바타 내레이션 동영상까지의 전체 플로를 완성합니다.
ElevenLabs + Hermes Agent 자주 묻는 질문
네. Hermes Agent에서 RunAPI를 base_url https://runapi.ai/v1과 key_env RUNAPI_API_KEY로 custom:runapi 공급자로 설정하면 ElevenLabs 엔드포인트 — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound, isolate_audio — 를 모두 호출할 수 있습니다.
turbo-v2.5는 저지연과 영어 우선 출력에 최적화되어 있으며 음성이 지정되지 않으면 기본 음성을 적용합니다. multilingual-v2는 29개 언어를 지원하며 명시적인 voice ID와 선택적 language_code가 필요합니다. turbo는 글자당 비용이 약 절반입니다.
음성 합성 및 대화 엔드포인트는 입력 텍스트의 글자 수 기준으로 청구됩니다. 음성 인식은 오디오 분 단위로 청구됩니다. 오디오 분리는 작업당 청구됩니다. 현재 요금은 RunAPI 가격 페이지를 확인하세요.
네. source_audio_url을 포함하여 /api/v1/elevenlabs/speech_to_text의 speech_to_text 엔드포인트를 호출하세요. diarize 파라미터로 선택적 화자 분리와 tag_audio_events로 오디오 이벤트 태깅을 지원합니다. 결과는 비동기적으로 반환됩니다.
혼합 오디오 파일을 가리키는 source_audio_url을 포함하여 /api/v1/elevenlabs/isolate_audio의 isolate_audio 엔드포인트를 호출하세요. 엔드포인트가 배경 소음에서 보컬을 추출하고 정제된 오디오 URL을 반환합니다. 작업은 비동기식이므로 폴링하거나 callback_url을 사용하세요.
지금 Hermes Agent에서 ElevenLabs를 사용해보세요.
무료 RunAPI key를 발급받고, custom:runapi 공급자를 설정하여 ElevenLabs로 음성 오디오를 생성하세요 — 6개 엔드포인트, 하나의 API key, 글자 수 기반 청구.