Hermes Agent에서 ElevenLabs를 사용할 수 있나요?

네. Hermes Agent에서 RunAPI를 base_url https://runapi.ai/v1과 key_env RUNAPI_API_KEY로 custom:runapi 공급자로 설정하면 ElevenLabs 엔드포인트 — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound, isolate_audio — 를 모두 호출할 수 있습니다.

turbo-v2.5와 multilingual-v2의 차이점은 무엇인가요?

turbo-v2.5는 저지연과 영어 우선 출력에 최적화되어 있으며 음성이 지정되지 않으면 기본 음성을 적용합니다. multilingual-v2는 29개 언어를 지원하며 명시적인 voice ID와 선택적 language_code가 필요합니다. turbo는 글자당 비용이 약 절반입니다.

RunAPI에서 ElevenLabs는 어떻게 청구되나요?

음성 합성 및 대화 엔드포인트는 입력 텍스트의 글자 수 기준으로 청구됩니다. 음성 인식은 오디오 분 단위로 청구됩니다. 오디오 분리는 작업당 청구됩니다. 현재 요금은 RunAPI 가격 페이지를 확인하세요.

Hermes Agent에서 ElevenLabs로 오디오를 전사할 수 있나요?

네. source_audio_url을 포함하여 /api/v1/elevenlabs/speech_to_text의 speech_to_text 엔드포인트를 호출하세요. diarize 파라미터로 선택적 화자 분리와 tag_audio_events로 오디오 이벤트 태깅을 지원합니다. 결과는 비동기적으로 반환됩니다.

RunAPI를 통한 오디오 분리는 어떻게 작동하나요?

혼합 오디오 파일을 가리키는 source_audio_url을 포함하여 /api/v1/elevenlabs/isolate_audio의 isolate_audio 엔드포인트를 호출하세요. 엔드포인트가 배경 소음에서 보컬을 추출하고 정제된 오디오 URL을 반환합니다. 작업은 비동기식이므로 폴링하거나 callback_url을 사용하세요.

HERMES + ELEVENLABS

Hermes Agent에서 ElevenLabs를 사용하세요.

ElevenLabs는 RunAPI를 통해 6개의 오디오 엔드포인트를 제공합니다 — 초저지연의 turbo-v2.5 TTS, 29개 언어를 지원하는 multilingual-v2, 다중 화자 대화용 dialogue-v3, 효과음, 음성 인식 전사, 보컬 분리. Hermes Agent는 하나의 API key로 custom:runapi 공급자를 통해 모두 호출합니다.

API Key 받기 문서 읽기

하나의 API key · 텍스트-음성 엔드포인트 · 글자 수 기반 청구

Use RunAPI to generate speech audio with ElevenLabs text-to-speech.

Requirements:
- Read the API key from RUNAPI_API_KEY.
- Use the custom:runapi provider with base_url https://runapi.ai/v1.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.

curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}

curl 명령어를 복사하여 테스트하세요 elevenlabs

작동 방식

Hermes Agent에서 ElevenLabs를 세 단계로 사용하기

RunAPI 설정

Hermes Agent가 실행되는 환경에 RUNAPI_API_KEY를 설정하세요. 이미 RunAPI를 custom:runapi 공급자로 추가했다면 동일한 key와 base_url로 모든 ElevenLabs 엔드포인트 — TTS, STT, 대화, 효과음, 오디오 분리 — 를 처리합니다.

export RUNAPI_API_KEY=runapi_xxx

text_to_speech 호출

model을 text-to-speech-turbo-v2.5로 설정하고, 변환할 텍스트와 선택적으로 voice, speed, stability 파라미터를 포함하여 text_to_speech 엔드포인트로 POST 요청을 보내세요. Hermes Agent가 custom:runapi 공급자를 통해 요청을 라우팅합니다. 다국어 출력에는 voice와 language_code를 사용하여 text-to-speech-multilingual-v2를 사용하세요.

POST /api/v1/elevenlabs/text_to_speech

결과 가져오기

엔드포인트는 즉시 task_id를 반환합니다. 상태가 completed가 될 때까지 작업 상태 엔드포인트를 폴링한 후 응답에서 오디오 URL을 읽으세요.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123

파라미터

ElevenLabs text_to_speech API 파라미터

파라미터	유형	설명
`model`	`string`	필수. text-to-speech-turbo-v2.5(저지연) 또는 text-to-speech-multilingual-v2(29개 언어).
`text`	`string`	필수. 음성으로 변환할 텍스트. 최대 5000자.
`voice`	`string`	ElevenLabs 음성 ID. multilingual-v2에서는 필수. turbo-v2.5는 생략 시 기본 음성을 사용합니다.
`speed`	`float`	선택 사항. 재생 속도 배율. 범위 0.7~1.2.
`stability`	`float`	선택 사항. 음성 일관성. 범위 0.0~1.0. 낮을수록 표현력이 높아집니다.
`similarity_boost`	`float`	선택 사항. 음성 유사도 강화. 범위 0.0~1.0.
`style`	`float`	선택 사항. 스타일 과장. 범위 0.0~1.0.
`language_code`	`string`	선택 사항. multilingual-v2의 목표 언어 (예: en, es, ja).
`callback_url`	`string`	선택 사항. 작업 완료 시 POST를 수신할 웹훅 URL.

Hermes Agent의 ElevenLabs란?

ElevenLabs는 선도적인 텍스트→음성 API로, Hermes Agent는 custom:runapi provider를 통해 음성 생성·전사·오디오 처리에 호출합니다. Hermes에서의 핵심 장점은 체이닝——음성을 생성한 후 해당 오디오 URL을 InfiniteTalk에 전달해 토킹 아바타를 만들거나, 동영상 모델에 전달해 완전한 시청각 콘텐츠를 만드는 처리를 단일 agent 실행으로 완성합니다.

ElevenLabs 활용 사례

대화형 AI 음성 에이전트

turbo-v2.5의 서브 초 지연으로 자연스러운 음성을 생성하는 말하는 음성 agent를 구축하며, 고객 서비스 봇·대화형 어시스턴트·전화 기반 인터페이스에 적합합니다.

YouTube 콘텐츠 내레이션

일관된 캐릭터 목소리로 YouTube 동영상의 내레이션을 제작하며, 시리즈 전체에서 안정성을 조정해 내레이터 일관성을 유지하고 감정 범위를 위해 스타일 과장을 조정합니다.

텍스트→토킹 동영상 파이프라인

Hermes Agent 워크플로에서 ElevenLabs TTS와 InfiniteTalk 또는 다른 동영상 모델을 연결해 단일 자동화 실행으로 텍스트에서 토킹 아바타 내레이션 동영상까지의 전체 플로를 완성합니다.

FAQ

ElevenLabs + Hermes Agent 자주 묻는 질문

Hermes Agent 일반 설정

아직 설정하지 않으셨나요? Hermes Agent용 RunAPI 설정 가이드로 시작하세요.

Hermes Agent 설정 가이드 →

ElevenLabs 모델 카탈로그

ElevenLabs의 모든 변형, 가격, API 문서를 확인하세요.

RunAPI의 ElevenLabs →

지금 Hermes Agent에서 ElevenLabs를 사용해보세요.

무료 RunAPI key를 발급받고, custom:runapi 공급자를 설정하여 ElevenLabs로 음성 오디오를 생성하세요 — 6개 엔드포인트, 하나의 API key, 글자 수 기반 청구.

모델 보기 →