Usa ElevenLabs en OpenClaw.
ElevenLabs proporciona seis endpoints de audio a través de RunAPI — TTS turbo-v2.5 con latencia inferior a un segundo, multilingual-v2 cubriendo 29 idiomas, dialogue-v3 para conversaciones multi-hablante, efectos de sonido, transcripción de voz a texto y aislamiento vocal. Los agentes de OpenClaw llaman a cualquiera de ellos con la misma clave RunAPI usada para chat.
Usa RunAPI para generar audio de voz con ElevenLabs text-to-speech.
Requisitos:
- Lee la clave API de RUNAPI_API_KEY.
- Llama a POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Establece model en "text-to-speech-turbo-v2.5".
- Establece text con el contenido que deseas que se pronuncie.
- Opcionalmente establece voice con un ID de voz específico de ElevenLabs.
- Opcionalmente establece speed entre 0.7 y 1.2.
- La tarea es asíncrona. Consulta el task_id devuelto hasta que el estado sea "completed".
- Al terminar, lee la URL del audio de la salida de la respuesta.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
Usa ElevenLabs en OpenClaw en tres pasos
Configura RunAPI
Establece la variable de entorno RUNAPI_API_KEY. Si ya configuraste RunAPI para chat en OpenClaw, la misma clave funciona para todos los endpoints de ElevenLabs — TTS, STT, diálogo, efectos de sonido y aislamiento de audio.
export RUNAPI_API_KEY=runapi_xxx
Llama a text_to_speech
Envía un POST al endpoint text_to_speech con model establecido en text-to-speech-turbo-v2.5, el texto que deseas que se pronuncie y parámetros opcionales de voice, speed y stability. Para salida multilingüe, usa text-to-speech-multilingual-v2 con un voice y language_code.
POST /api/v1/elevenlabs/text_to_speech
Consulta el resultado
El endpoint devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea hasta que el estado sea completado y luego lee la URL del audio de salida de la respuesta.
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
Parámetros de la API de ElevenLabs text_to_speech
| Parâmetro | Tipo | Descrição |
|---|---|---|
model |
string |
Obligatorio. text-to-speech-turbo-v2.5 (baja latencia) o text-to-speech-multilingual-v2 (29 idiomas). |
text |
string |
Obligatorio. El texto a convertir en voz. Máximo 5000 caracteres. |
voice |
string |
ID de voz de ElevenLabs. Obligatorio para multilingual-v2. Turbo-v2.5 usa una voz predeterminada si se omite. |
speed |
float |
Opcional. Multiplicador de velocidad de reproducción. Rango de 0.7 a 1.2. |
stability |
float |
Opcional. Consistencia de voz. Rango de 0.0 a 1.0. Valores más bajos añaden expresividad. |
similarity_boost |
float |
Opcional. Aplicación de similitud de voz. Rango de 0.0 a 1.0. |
style |
float |
Opcional. Exageración de estilo. Rango de 0.0 a 1.0. |
language_code |
string |
Opcional. Idioma objetivo para multilingual-v2, p. ej. en, es, ja. |
callback_url |
string |
Opcional. URL de webhook que recibe un POST cuando la tarea se completa. |
O que é ElevenLabs no OpenClaw?
ElevenLabs é a API de texto para fala preferida para saída de voz com som natural. Os modelos suportam vozes clonáveis, saída multilíngue em 29 idiomas e geração de efeitos sonoros. Agentes OpenClaw o chamam via RunAPI com a mesma chave de API usada para chat.
Casos de uso do ElevenLabs
Narração de audiolivros e podcasts
Converta texto longo em áudio falado usando vozes de personagem consistentes para audiolivros e podcasts.
Dublagem de vídeo para múltiplos idiomas
Duble conteúdo de vídeo em 29 idiomas usando multilingual-v2 para distribuição global.
Efeitos sonoros para produção de vídeo e jogos
Gere sons Foley personalizados, áudio ambiente e sinais sonoros para produções criativas.
Preguntas sobre ElevenLabs + OpenClaw
RunAPI expone seis endpoints de ElevenLabs: text_to_speech (turbo-v2.5 y multilingual-v2), text_to_dialogue (dialogue-v3 para multi-hablante), text_to_sound (efectos de sonido), speech_to_text (transcripción) e isolate_audio (extracción vocal). Todos comparten la misma RUNAPI_API_KEY.
Turbo-v2.5 está optimizado para baja latencia y salida priorizando inglés — aplica una voz predeterminada cuando no se especifica ninguna. Multilingual-v2 soporta 29 idiomas y requiere un voice ID explícito y un language_code opcional. Turbo cuesta aproximadamente la mitad por carácter.
Asíncrono. El endpoint de creación devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea o proporciona un callback_url para recibir un webhook cuando el archivo de audio esté listo para descargar.
Los endpoints de texto a voz y diálogo se facturan por carácter de texto de entrada. Voz a texto se factura por minuto de audio. El aislamiento de audio se factura por tarea. Consulta la página de precios de RunAPI para las tarifas actuales.
Sí. Llama al endpoint text_to_dialogue con model text-to-dialogue-v3. Pasa un array de diálogo donde cada elemento tiene un text y un voice ID. El texto total de todos los hablantes debe ser inferior a 5000 caracteres.
Configuración general de OpenClaw
¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para OpenClaw.
Guía de configuración de OpenClaw →Catálogo de modelos ElevenLabs
Ver todas las variantes, precios y documentación de la API de ElevenLabs.
ElevenLabs en RunAPI →Prueba ElevenLabs en OpenClaw hoy.
Obtén una clave RunAPI gratuita, pega el prompt en OpenClaw y genera audio de voz con ElevenLabs — seis endpoints, una clave API, facturación por carácter.