HERMES + ELEVENLABS

Usa ElevenLabs en Hermes Agent.

ElevenLabs proporciona seis endpoints de audio a través de RunAPI — TTS turbo-v2.5 con latencia inferior al segundo, multilingual-v2 que cubre 29 idiomas, dialogue-v3 para conversaciones multilocutor, efectos de sonido, transcripción de voz a texto y aislamiento vocal. Hermes Agent los llama a través del proveedor custom:runapi con una sola clave API.

una clave API · endpoint de texto a voz · facturación por carácter
Usa RunAPI para generar audio de voz con text-to-speech de ElevenLabs.


      Requisitos:

      - Lee la clave API de RUNAPI_API_KEY.

      - Usa el proveedor custom:runapi con base_url https://runapi.ai/v1.

      - Llama POST https://runapi.ai/api/v1/elevenlabs/text_to_speech

      - Establece model en "text-to-speech-turbo-v2.5".

      - Establece text con el contenido que quieres hablar.

      - Opcionalmente establece voice en un ID de voz específico de ElevenLabs.

      - Opcionalmente establece speed entre 0.7 y 1.2.

      - La tarea es asíncrona. Consulta el task_id devuelto hasta que el status sea "completed".

      - Cuando termine, lee la URL de audio de la salida de la respuesta.

      
curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'
{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}
Copia el comando curl para probarlo elevenlabs
CÓMO FUNCIONA

Usa ElevenLabs en Hermes Agent en tres pasos

1

Configura RunAPI

Establece RUNAPI_API_KEY en el entorno donde se ejecuta Hermes Agent. Si ya añadiste RunAPI como proveedor custom:runapi, la misma clave y base_url gestionan todos los endpoints de ElevenLabs — TTS, STT, diálogo, efectos de sonido y aislamiento de audio.

export RUNAPI_API_KEY=runapi_xxx
2

Llama a text_to_speech

Envía un POST al endpoint text_to_speech con model establecido en text-to-speech-turbo-v2.5, el texto que quieres hablar y parámetros opcionales de voice, speed y stability. Hermes Agent enruta la solicitud a través del proveedor custom:runapi. Para salida multilingüe, usa text-to-speech-multilingual-v2 con un voice y language_code.

POST /api/v1/elevenlabs/text_to_speech
3

Consulta el resultado

El endpoint devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea hasta que el estado sea completado y luego lee la URL de audio de salida de la respuesta.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123
PARÁMETROS

Parámetros de la API text_to_speech de ElevenLabs

Parámetro Tipo Descripción
model string Obligatorio. text-to-speech-turbo-v2.5 (baja latencia) o text-to-speech-multilingual-v2 (29 idiomas).
text string Obligatorio. El texto a convertir en voz. Máx. 5000 caracteres.
voice string ID de voz de ElevenLabs. Obligatorio para multilingual-v2. Turbo-v2.5 usa una voz predeterminada si se omite.
speed float Opcional. Multiplicador de velocidad de reproducción. Rango de 0.7 a 1.2.
stability float Opcional. Consistencia de voz. Rango de 0.0 a 1.0. Valores más bajos añaden expresividad.
similarity_boost float Opcional. Refuerzo de similitud de voz. Rango de 0.0 a 1.0.
style float Opcional. Exageración de estilo. Rango de 0.0 a 1.0.
language_code string Opcional. Idioma de destino para multilingual-v2, p. ej. en, es, ja.
callback_url string Opcional. URL de webhook que recibe un POST cuando la tarea se completa.

¿Qué es ElevenLabs en Hermes Agent?

ElevenLabs es la API de texto a voz líder, y Hermes Agent lo llama a través del proveedor custom:runapi para generación de voz, transcripción y procesamiento de audio. La ventaja clave en Hermes es el encadenamiento -- generar voz, luego pasar la URL de audio a InfiniteTalk para un avatar parlante o a un modelo de video para contenido audiovisual completo, todo en una sola ejecución de agente. Seis endpoints están disponibles incluyendo TTS turbo, voces multilingüe, diálogo de múltiples hablantes y efectos de sonido.

Casos de uso de ElevenLabs

Agentes de voz de IA conversacionales

Construir agentes de voz que hablen naturalmente generando voz a través de turbo-v2.5 con latencia subsegundo, adecuado para bots de servicio al cliente, asistentes interactivos o interfaces basadas en teléfono.

Narración de contenido de YouTube

Producir voz en off para videos de YouTube con voces de personajes consistentes, ajustando la estabilidad para consistencia del narrador y la exageración de estilo para rango emocional en toda una serie.

Pipelines de texto a video parlante

Encadenar ElevenLabs TTS con InfiniteTalk u otros modelos de video en un flujo de trabajo de Hermes Agent para ir de texto a video narrado con un avatar parlante en una sola ejecución automatizada.

FAQ

Preguntas sobre ElevenLabs + Hermes Agent

Configuración general de Hermes Agent

¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para Hermes Agent.

Guía de configuración de Hermes Agent →

Catálogo de modelos ElevenLabs

Ver todas las variantes de ElevenLabs, precios y documentación de la API.

ElevenLabs en RunAPI →

Prueba ElevenLabs en Hermes Agent hoy.

Obtén una clave RunAPI gratuita, configura el proveedor custom:runapi y genera audio de voz con ElevenLabs — seis endpoints, una clave API, facturación por carácter.