OpenClaw에서 ElevenLabs를 사용하세요.
ElevenLabs는 RunAPI를 통해 6개의 오디오 엔드포인트를 제공합니다 — 초저지연의 turbo-v2.5 TTS, 29개 언어를 지원하는 multilingual-v2, 다중 화자 대화용 dialogue-v3, 효과음, 음성 인식 전사, 보컬 분리. OpenClaw 에이전트는 채팅에 사용하는 것과 동일한 RunAPI key로 모두 호출합니다.
Use RunAPI to generate speech audio with ElevenLabs text-to-speech.
Requirements:
- Read the API key from RUNAPI_API_KEY.
- Call POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Set model to "text-to-speech-turbo-v2.5".
- Set text to the content you want spoken.
- Optionally set voice to a specific ElevenLabs voice ID.
- Optionally set speed between 0.7 and 1.2.
- The task is async. Poll the returned task_id until status is "completed".
- When done, read the audio URL from the response output.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
OpenClaw에서 ElevenLabs를 세 단계로 사용하기
RunAPI 설정
환경 변수에 RUNAPI_API_KEY를 설정하세요. 이미 OpenClaw에서 채팅용으로 RunAPI를 설정했다면 동일한 key로 모든 ElevenLabs 엔드포인트 — TTS, STT, 대화, 효과음, 오디오 분리 — 를 모두 사용할 수 있습니다.
export RUNAPI_API_KEY=runapi_xxx
text_to_speech 호출
model을 text-to-speech-turbo-v2.5로 설정하고, 변환할 텍스트와 선택적으로 voice, speed, stability 파라미터를 포함하여 text_to_speech 엔드포인트로 POST 요청을 보내세요. 다국어 출력에는 voice와 language_code를 사용하여 text-to-speech-multilingual-v2를 사용하세요.
POST /api/v1/elevenlabs/text_to_speech
결과 가져오기
엔드포인트는 즉시 task_id를 반환합니다. 상태가 completed가 될 때까지 작업 상태 엔드포인트를 폴링한 후 응답에서 오디오 URL을 읽으세요.
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
ElevenLabs text_to_speech API 파라미터
| 파라미터 | 유형 | 설명 |
|---|---|---|
model |
string |
필수. text-to-speech-turbo-v2.5(저지연) 또는 text-to-speech-multilingual-v2(29개 언어). |
text |
string |
필수. 음성으로 변환할 텍스트. 최대 5000자. |
voice |
string |
ElevenLabs 음성 ID. multilingual-v2에서는 필수. turbo-v2.5는 생략 시 기본 음성을 사용합니다. |
speed |
float |
선택 사항. 재생 속도 배율. 범위 0.7~1.2. |
stability |
float |
선택 사항. 음성 일관성. 범위 0.0~1.0. 낮을수록 표현력이 높아집니다. |
similarity_boost |
float |
선택 사항. 음성 유사도 강화. 범위 0.0~1.0. |
style |
float |
선택 사항. 스타일 과장. 범위 0.0~1.0. |
language_code |
string |
선택 사항. multilingual-v2의 목표 언어 (예: en, es, ja). |
callback_url |
string |
선택 사항. 작업 완료 시 POST를 수신할 웹훅 URL. |
OpenClaw의 ElevenLabs란?
ElevenLabs는 자연스러운 음성 출력을 위한 가장 널리 사용되는 텍스트→음성 API입니다. RunAPI를 통해 OpenClaw agent는 turbo-v2.5(영어 서브 초 지연)·multilingual-v2(29개 언어)·dialogue-v3(다중 화자 대화)·음향 효과 생성·음성→텍스트 변환·보컬 분리에 접근할 수 있습니다.
ElevenLabs 활용 사례
오디오북 및 팟캐스트 내레이션
일관된 캐릭터 목소리를 사용해 장문의 텍스트를 음성으로 변환합니다. 내레이터 일관성을 위해 안정성을 조정하고 수 시간의 콘텐츠 전체에서 목소리를 원본 프로필에 가깝게 유지하기 위해 유사도 강화를 높입니다.
동영상 다국어 더빙
동일한 목소리 프로필과 multilingual-v2를 사용해 동영상 콘텐츠를 29개 언어로 더빙하여 원 화자의 음성 특성을 유지하는 현지화 버전을 제작합니다.
동영상 및 게임 제작용 음향 효과
text_to_sound 엔드포인트로 텍스트 설명에서 커스텀 폴리 사운드·앰비언트 오디오·효과음 큐를 생성해 스톡 오디오 라이브러리 검색을 온디맨드 생성으로 대체합니다.
ElevenLabs + OpenClaw 자주 묻는 질문
RunAPI는 6개의 ElevenLabs 엔드포인트를 제공합니다: text_to_speech(turbo-v2.5 및 multilingual-v2), text_to_dialogue(다중 화자용 dialogue-v3), text_to_sound(효과음), speech_to_text(전사), isolate_audio(보컬 추출). 모두 동일한 RUNAPI_API_KEY를 공유합니다.
turbo-v2.5는 저지연과 영어 우선 출력에 최적화되어 있으며 음성이 지정되지 않으면 기본 음성을 적용합니다. multilingual-v2는 29개 언어를 지원하며 명시적인 voice ID와 선택적 language_code가 필요합니다. turbo는 글자당 비용이 약 절반입니다.
비동기식입니다. 생성 엔드포인트는 즉시 task_id를 반환합니다. 작업 상태 엔드포인트를 폴링하거나 callback_url을 제공하여 오디오 파일이 준비되면 웹훅을 받으세요.
음성 합성 및 대화 엔드포인트는 입력 텍스트의 글자 수 기준으로 청구됩니다. 음성 인식은 오디오 분 단위로 청구됩니다. 오디오 분리는 작업당 청구됩니다. 현재 요금은 RunAPI 가격 페이지를 확인하세요.
네. model을 text-to-dialogue-v3로 설정하여 text_to_dialogue 엔드포인트를 호출하세요. 각 항목에 text와 voice ID가 있는 dialogue 배열을 전달하세요. 모든 화자의 총 텍스트는 5000자 미만이어야 합니다.
지금 OpenClaw에서 ElevenLabs를 사용해보세요.
무료 RunAPI key를 발급받고, 프롬프트를 OpenClaw에 붙여넣어 ElevenLabs로 음성 오디오를 생성하세요 — 6개 엔드포인트, 하나의 API key, 글자 수 기반 청구.