¿Qué endpoints de ElevenLabs puedo usar desde OpenClaw?

RunAPI expone seis endpoints de ElevenLabs: text_to_speech (turbo-v2.5 y multilingual-v2), text_to_dialogue (dialogue-v3 para multi-hablante), text_to_sound (efectos de sonido), speech_to_text (transcripción) e isolate_audio (extracción vocal). Todos comparten la misma RUNAPI_API_KEY.

¿Cuál es la diferencia entre turbo-v2.5 y multilingual-v2?

Turbo-v2.5 está optimizado para baja latencia y salida priorizando inglés — aplica una voz predeterminada cuando no se especifica ninguna. Multilingual-v2 soporta 29 idiomas y requiere un voice ID explícito y un language_code opcional. Turbo cuesta aproximadamente la mitad por carácter.

¿ElevenLabs TTS es síncrono o asíncrono en RunAPI?

Asíncrono. El endpoint de creación devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea o proporciona un callback_url para recibir un webhook cuando el archivo de audio esté listo para descargar.

¿Cómo se factura ElevenLabs en RunAPI?

Los endpoints de texto a voz y diálogo se facturan por carácter de texto de entrada. Voz a texto se factura por minuto de audio. El aislamiento de audio se factura por tarea. Consulta la página de precios de RunAPI para las tarifas actuales.

¿Puedo usar ElevenLabs dialogue-v3 para audio multi-hablante en OpenClaw?

Sí. Llama al endpoint text_to_dialogue con model text-to-dialogue-v3. Pasa un array de diálogo donde cada elemento tiene un text y un voice ID. El texto total de todos los hablantes debe ser inferior a 5000 caracteres.

OPENCLAW + ELEVENLABS

Usa ElevenLabs en OpenClaw.

ElevenLabs proporciona seis endpoints de audio a través de RunAPI — TTS turbo-v2.5 con latencia inferior a un segundo, multilingual-v2 cubriendo 29 idiomas, dialogue-v3 para conversaciones multi-hablante, efectos de sonido, transcripción de voz a texto y aislamiento vocal. Los agentes de OpenClaw llaman a cualquiera de ellos con la misma clave RunAPI usada para chat.

Obtener API Key Leer la documentación

una clave API · endpoint de texto a voz · facturación por carácter

Usa RunAPI para generar audio de voz con ElevenLabs text-to-speech.


      Requisitos:

      - Lee la clave API de RUNAPI_API_KEY.

      - Llama a POST https://runapi.ai/api/v1/elevenlabs/text_to_speech

      - Establece model en "text-to-speech-turbo-v2.5".

      - Establece text con el contenido que deseas que se pronuncie.

      - Opcionalmente establece voice con un ID de voz específico de ElevenLabs.

      - Opcionalmente establece speed entre 0.7 y 1.2.

      - La tarea es asíncrona. Consulta el task_id devuelto hasta que el estado sea "completed".

      - Al terminar, lee la URL del audio de la salida de la respuesta.

curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}

Copia el comando curl para probarlo elevenlabs

CÓMO FUNCIONA

Usa ElevenLabs en OpenClaw en tres pasos

Configura RunAPI

Establece la variable de entorno RUNAPI_API_KEY. Si ya configuraste RunAPI para chat en OpenClaw, la misma clave funciona para todos los endpoints de ElevenLabs — TTS, STT, diálogo, efectos de sonido y aislamiento de audio.

export RUNAPI_API_KEY=runapi_xxx

Llama a text_to_speech

Envía un POST al endpoint text_to_speech con model establecido en text-to-speech-turbo-v2.5, el texto que deseas que se pronuncie y parámetros opcionales de voice, speed y stability. Para salida multilingüe, usa text-to-speech-multilingual-v2 con un voice y language_code.

POST /api/v1/elevenlabs/text_to_speech

Consulta el resultado

El endpoint devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea hasta que el estado sea completado y luego lee la URL del audio de salida de la respuesta.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123

PARÁMETROS

Parámetros de la API de ElevenLabs text_to_speech

Parámetro	Tipo	Descripción
`model`	`string`	Obligatorio. text-to-speech-turbo-v2.5 (baja latencia) o text-to-speech-multilingual-v2 (29 idiomas).
`text`	`string`	Obligatorio. El texto a convertir en voz. Máximo 5000 caracteres.
`voice`	`string`	ID de voz de ElevenLabs. Obligatorio para multilingual-v2. Turbo-v2.5 usa una voz predeterminada si se omite.
`speed`	`float`	Opcional. Multiplicador de velocidad de reproducción. Rango de 0.7 a 1.2.
`stability`	`float`	Opcional. Consistencia de voz. Rango de 0.0 a 1.0. Valores más bajos añaden expresividad.
`similarity_boost`	`float`	Opcional. Aplicación de similitud de voz. Rango de 0.0 a 1.0.
`style`	`float`	Opcional. Exageración de estilo. Rango de 0.0 a 1.0.
`language_code`	`string`	Opcional. Idioma objetivo para multilingual-v2, p. ej. en, es, ja.
`callback_url`	`string`	Opcional. URL de webhook que recibe un POST cuando la tarea se completa.

¿Qué es ElevenLabs en OpenClaw?

ElevenLabs es la API de texto a voz de referencia para salida de voz que suena natural. A través de RunAPI, los agentes de OpenClaw obtienen acceso a turbo-v2.5 (latencia subsegundo para inglés), multilingual-v2 (29 idiomas), dialogue-v3 (conversaciones de múltiples hablantes), generación de efectos de sonido, transcripción de voz a texto y aislamiento vocal. Puedes ajustar la salida de voz con controles deslizantes de estabilidad y boost de similitud para controlar qué tan expresiva o consistente suena la voz.

Casos de uso de ElevenLabs

Narración de audiolibros y podcasts

Convertir texto de formato largo en audio hablado usando voces de personajes consistentes. Ajustar la estabilidad para consistencia del narrador y el boost de similitud para mantener la voz cerca del perfil original durante horas de contenido.

Doblaje de video en múltiples idiomas

Doblar contenido de video en 29 idiomas usando multilingual-v2 con el mismo perfil de voz, produciendo versiones localizadas que mantienen las características vocales del hablante original.

Efectos de sonido para producción de video y juegos

Generar sonidos Foley personalizados, audio ambiental y señales de sonido desde descripciones de texto a través del endpoint text_to_sound, reemplazando búsquedas en bibliotecas de audio de stock con generación bajo demanda.

FAQ

Preguntas sobre ElevenLabs + OpenClaw

Configuración general de OpenClaw

¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para OpenClaw.

Guía de configuración de OpenClaw →

Catálogo de modelos ElevenLabs

Ver todas las variantes, precios y documentación de la API de ElevenLabs.

ElevenLabs en RunAPI →

Prueba ElevenLabs en OpenClaw hoy.

Obtén una clave RunAPI gratuita, pega el prompt en OpenClaw y genera audio de voz con ElevenLabs — seis endpoints, una clave API, facturación por carácter.

Explorar modelos →