HERMES + ELEVENLABS

Hermes Agent에서 ElevenLabs를 사용하세요.

ElevenLabs는 RunAPI를 통해 6개의 오디오 엔드포인트를 제공합니다 — 초저지연의 turbo-v2.5 TTS, 29개 언어를 지원하는 multilingual-v2, 다중 화자 대화용 dialogue-v3, 효과음, 음성 인식 전사, 보컬 분리. Hermes Agent는 하나의 API key로 custom:runapi 공급자를 통해 모두 호출합니다.

하나의 API key · 텍스트-음성 엔드포인트 · 글자 수 기반 청구
Use RunAPI to generate speech audio with ElevenLabs text-to-speech.

Requirements:
- Read the API key from RUNAPI_API_KEY.
- Use the custom:runapi provider with base_url https://runapi.ai/v1.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'
{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}
curl 명령어를 복사하여 테스트하세요 elevenlabs
작동 방식

Hermes Agent에서 ElevenLabs를 세 단계로 사용하기

1

RunAPI 설정

Hermes Agent가 실행되는 환경에 RUNAPI_API_KEY를 설정하세요. 이미 RunAPI를 custom:runapi 공급자로 추가했다면 동일한 key와 base_url로 모든 ElevenLabs 엔드포인트 — TTS, STT, 대화, 효과음, 오디오 분리 — 를 처리합니다.

export RUNAPI_API_KEY=runapi_xxx
2

text_to_speech 호출

model을 text-to-speech-turbo-v2.5로 설정하고, 변환할 텍스트와 선택적으로 voice, speed, stability 파라미터를 포함하여 text_to_speech 엔드포인트로 POST 요청을 보내세요. Hermes Agent가 custom:runapi 공급자를 통해 요청을 라우팅합니다. 다국어 출력에는 voice와 language_code를 사용하여 text-to-speech-multilingual-v2를 사용하세요.

POST /api/v1/elevenlabs/text_to_speech
3

결과 가져오기

엔드포인트는 즉시 task_id를 반환합니다. 상태가 completed가 될 때까지 작업 상태 엔드포인트를 폴링한 후 응답에서 오디오 URL을 읽으세요.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
파라미터

ElevenLabs text_to_speech API 파라미터

파라미터 유형 설명
model string 필수. text-to-speech-turbo-v2.5(저지연) 또는 text-to-speech-multilingual-v2(29개 언어).
text string 필수. 음성으로 변환할 텍스트. 최대 5000자.
voice string ElevenLabs 음성 ID. multilingual-v2에서는 필수. turbo-v2.5는 생략 시 기본 음성을 사용합니다.
speed float 선택 사항. 재생 속도 배율. 범위 0.7~1.2.
stability float 선택 사항. 음성 일관성. 범위 0.0~1.0. 낮을수록 표현력이 높아집니다.
similarity_boost float 선택 사항. 음성 유사도 강화. 범위 0.0~1.0.
style float 선택 사항. 스타일 과장. 범위 0.0~1.0.
language_code string 선택 사항. multilingual-v2의 목표 언어 (예: en, es, ja).
callback_url string 선택 사항. 작업 완료 시 POST를 수신할 웹훅 URL.

Hermes Agent의 ElevenLabs란?

ElevenLabs는 선도적인 텍스트→음성 API로, Hermes Agent는 custom:runapi provider를 통해 음성 생성·전사·오디오 처리에 호출합니다. Hermes에서의 핵심 장점은 체이닝——음성을 생성한 후 해당 오디오 URL을 InfiniteTalk에 전달해 토킹 아바타를 만들거나, 동영상 모델에 전달해 완전한 시청각 콘텐츠를 만드는 처리를 단일 agent 실행으로 완성합니다.

ElevenLabs 활용 사례

대화형 AI 음성 에이전트

turbo-v2.5의 서브 초 지연으로 자연스러운 음성을 생성하는 말하는 음성 agent를 구축하며, 고객 서비스 봇·대화형 어시스턴트·전화 기반 인터페이스에 적합합니다.

YouTube 콘텐츠 내레이션

일관된 캐릭터 목소리로 YouTube 동영상의 내레이션을 제작하며, 시리즈 전체에서 안정성을 조정해 내레이터 일관성을 유지하고 감정 범위를 위해 스타일 과장을 조정합니다.

텍스트→토킹 동영상 파이프라인

Hermes Agent 워크플로에서 ElevenLabs TTS와 InfiniteTalk 또는 다른 동영상 모델을 연결해 단일 자동화 실행으로 텍스트에서 토킹 아바타 내레이션 동영상까지의 전체 플로를 완성합니다.

FAQ

ElevenLabs + Hermes Agent 자주 묻는 질문

Hermes Agent 일반 설정

아직 설정하지 않으셨나요? Hermes Agent용 RunAPI 설정 가이드로 시작하세요.

Hermes Agent 설정 가이드 →

ElevenLabs 모델 카탈로그

ElevenLabs의 모든 변형, 가격, API 문서를 확인하세요.

RunAPI의 ElevenLabs →

지금 Hermes Agent에서 ElevenLabs를 사용해보세요.

무료 RunAPI key를 발급받고, custom:runapi 공급자를 설정하여 ElevenLabs로 음성 오디오를 생성하세요 — 6개 엔드포인트, 하나의 API key, 글자 수 기반 청구.