Usa ElevenLabs en Hermes Agent.
ElevenLabs proporciona seis endpoints de audio a través de RunAPI — TTS turbo-v2.5 con latencia inferior al segundo, multilingual-v2 que cubre 29 idiomas, dialogue-v3 para conversaciones multilocutor, efectos de sonido, transcripción de voz a texto y aislamiento vocal. Hermes Agent los llama a través del proveedor custom:runapi con una sola clave API.
Usa RunAPI para generar audio de voz con text-to-speech de ElevenLabs.
Requisitos:
- Lee la clave API de RUNAPI_API_KEY.
- Usa el proveedor custom:runapi con base_url https://runapi.ai/v1.
- Llama POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Establece model en "text-to-speech-turbo-v2.5".
- Establece text con el contenido que quieres hablar.
- Opcionalmente establece voice en un ID de voz específico de ElevenLabs.
- Opcionalmente establece speed entre 0.7 y 1.2.
- La tarea es asíncrona. Consulta el task_id devuelto hasta que el status sea "completed".
- Cuando termine, lee la URL de audio de la salida de la respuesta.
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
-H "Authorization: Bearer $RUNAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "text-to-speech-turbo-v2.5",
"text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
"speed": 1.0,
"stability": 0.5,
"similarity_boost": 0.75
}'
{
"task_id": "tsk_abc123",
"status": "pending",
"model": "text-to-speech-turbo-v2.5"
}
Usa ElevenLabs en Hermes Agent en tres pasos
Configura RunAPI
Establece RUNAPI_API_KEY en el entorno donde se ejecuta Hermes Agent. Si ya añadiste RunAPI como proveedor custom:runapi, la misma clave y base_url gestionan todos los endpoints de ElevenLabs — TTS, STT, diálogo, efectos de sonido y aislamiento de audio.
export RUNAPI_API_KEY=runapi_xxx
Llama a text_to_speech
Envía un POST al endpoint text_to_speech con model establecido en text-to-speech-turbo-v2.5, el texto que quieres hablar y parámetros opcionales de voice, speed y stability. Hermes Agent enruta la solicitud a través del proveedor custom:runapi. Para salida multilingüe, usa text-to-speech-multilingual-v2 con un voice y language_code.
POST /api/v1/elevenlabs/text_to_speech
Consulta el resultado
El endpoint devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea hasta que el estado sea completado y luego lee la URL de audio de salida de la respuesta.
GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
Parámetros de la API text_to_speech de ElevenLabs
| Parâmetro | Tipo | Descrição |
|---|---|---|
model |
string |
Obligatorio. text-to-speech-turbo-v2.5 (baja latencia) o text-to-speech-multilingual-v2 (29 idiomas). |
text |
string |
Obligatorio. El texto a convertir en voz. Máx. 5000 caracteres. |
voice |
string |
ID de voz de ElevenLabs. Obligatorio para multilingual-v2. Turbo-v2.5 usa una voz predeterminada si se omite. |
speed |
float |
Opcional. Multiplicador de velocidad de reproducción. Rango de 0.7 a 1.2. |
stability |
float |
Opcional. Consistencia de voz. Rango de 0.0 a 1.0. Valores más bajos añaden expresividad. |
similarity_boost |
float |
Opcional. Refuerzo de similitud de voz. Rango de 0.0 a 1.0. |
style |
float |
Opcional. Exageración de estilo. Rango de 0.0 a 1.0. |
language_code |
string |
Opcional. Idioma de destino para multilingual-v2, p. ej. en, es, ja. |
callback_url |
string |
Opcional. URL de webhook que recibe un POST cuando la tarea se completa. |
O que é ElevenLabs no Hermes Agent?
ElevenLabs é a principal API de texto para fala, e Hermes Agent a chama via RunAPI custom provider. Isso torna fácil encadear TTS com outros modelos RunAPI — gere fala e passe a URL do áudio para InfiniteTalk ou modelos de vídeo em um único workflow.
Casos de uso do ElevenLabs
Agentes de voz de IA conversacionais
Construa agentes de voz que falam naturalmente gerando fala como etapa em workflows do Hermes Agent.
Narração de conteúdo do YouTube
Produza narração para vídeos do YouTube em vozes de personagem consistentes via API TTS.
Pipelines de texto para vídeo falado
Encadeie ElevenLabs TTS com InfiniteTalk ou outros modelos de vídeo para workflows completos de texto para vídeo.
Preguntas sobre ElevenLabs + Hermes Agent
Sí. Configura RunAPI como proveedor custom:runapi en Hermes Agent con base_url https://runapi.ai/v1 y key_env RUNAPI_API_KEY, luego llama a cualquier endpoint de ElevenLabs — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound o isolate_audio.
Turbo-v2.5 está optimizado para baja latencia y salida principalmente en inglés — aplica una voz predeterminada cuando no se especifica ninguna. Multilingual-v2 admite 29 idiomas y requiere un ID de voz explícito y un language_code opcional. Turbo cuesta aproximadamente la mitad por carácter.
Los endpoints de text-to-speech y diálogo se facturan por carácter del texto de entrada. Speech-to-text se factura por minuto de audio. El aislamiento de audio se factura por tarea. Consulta la página de precios de RunAPI para las tarifas actuales.
Sí. Llama al endpoint speech_to_text en /api/v1/elevenlabs/speech_to_text con un source_audio_url. El endpoint admite diarización de hablantes opcional mediante el parámetro diarize y etiquetado de eventos de audio mediante tag_audio_events. Los resultados se devuelven de forma asíncrona.
Llama al endpoint isolate_audio en /api/v1/elevenlabs/isolate_audio con un source_audio_url apuntando a tu archivo de audio mezclado. El endpoint extrae las voces del ruido de fondo y devuelve una URL de audio limpio. La tarea es asíncrona — consulta o usa un callback_url.
Configuración general de Hermes Agent
¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para Hermes Agent.
Guía de configuración de Hermes Agent →Catálogo de modelos ElevenLabs
Ver todas las variantes de ElevenLabs, precios y documentación de la API.
ElevenLabs en RunAPI →Prueba ElevenLabs en Hermes Agent hoy.
Obtén una clave RunAPI gratuita, configura el proveedor custom:runapi y genera audio de voz con ElevenLabs — seis endpoints, una clave API, facturación por carácter.