¿Puedo usar ElevenLabs en Hermes Agent?

Sí. Configura RunAPI como proveedor custom:runapi en Hermes Agent con base_url https://runapi.ai/v1 y key_env RUNAPI_API_KEY, luego llama a cualquier endpoint de ElevenLabs — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound o isolate_audio.

¿Cuál es la diferencia entre turbo-v2.5 y multilingual-v2?

Turbo-v2.5 está optimizado para baja latencia y salida principalmente en inglés — aplica una voz predeterminada cuando no se especifica ninguna. Multilingual-v2 admite 29 idiomas y requiere un ID de voz explícito y un language_code opcional. Turbo cuesta aproximadamente la mitad por carácter.

¿Cómo se factura ElevenLabs en RunAPI?

Los endpoints de text-to-speech y diálogo se facturan por carácter del texto de entrada. Speech-to-text se factura por minuto de audio. El aislamiento de audio se factura por tarea. Consulta la página de precios de RunAPI para las tarifas actuales.

¿Puedo transcribir audio con ElevenLabs en Hermes Agent?

Sí. Llama al endpoint speech_to_text en /api/v1/elevenlabs/speech_to_text con un source_audio_url. El endpoint admite diarización de hablantes opcional mediante el parámetro diarize y etiquetado de eventos de audio mediante tag_audio_events. Los resultados se devuelven de forma asíncrona.

¿Cómo funciona el aislamiento de audio a través de RunAPI?

Llama al endpoint isolate_audio en /api/v1/elevenlabs/isolate_audio con un source_audio_url apuntando a tu archivo de audio mezclado. El endpoint extrae las voces del ruido de fondo y devuelve una URL de audio limpio. La tarea es asíncrona — consulta o usa un callback_url.

HERMES + ELEVENLABS

Usa ElevenLabs en Hermes Agent.

ElevenLabs proporciona seis endpoints de audio a través de RunAPI — TTS turbo-v2.5 con latencia inferior al segundo, multilingual-v2 que cubre 29 idiomas, dialogue-v3 para conversaciones multilocutor, efectos de sonido, transcripción de voz a texto y aislamiento vocal. Hermes Agent los llama a través del proveedor custom:runapi con una sola clave API.

Obtener API Key Leer la documentación

una clave API · endpoint de texto a voz · facturación por carácter

Usa RunAPI para generar audio de voz con text-to-speech de ElevenLabs.


      Requisitos:

      - Lee la clave API de RUNAPI_API_KEY.

      - Usa el proveedor custom:runapi con base_url https://runapi.ai/v1.

      - Llama POST https://runapi.ai/api/v1/elevenlabs/text_to_speech

      - Establece model en "text-to-speech-turbo-v2.5".

      - Establece text con el contenido que quieres hablar.

      - Opcionalmente establece voice en un ID de voz específico de ElevenLabs.

      - Opcionalmente establece speed entre 0.7 y 1.2.

      - La tarea es asíncrona. Consulta el task_id devuelto hasta que el status sea "completed".

      - Cuando termine, lee la URL de audio de la salida de la respuesta.

curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}

Copia el comando curl para probarlo elevenlabs

CÓMO FUNCIONA

Usa ElevenLabs en Hermes Agent en tres pasos

Configura RunAPI

Establece RUNAPI_API_KEY en el entorno donde se ejecuta Hermes Agent. Si ya añadiste RunAPI como proveedor custom:runapi, la misma clave y base_url gestionan todos los endpoints de ElevenLabs — TTS, STT, diálogo, efectos de sonido y aislamiento de audio.

export RUNAPI_API_KEY=runapi_xxx

Llama a text_to_speech

Envía un POST al endpoint text_to_speech con model establecido en text-to-speech-turbo-v2.5, el texto que quieres hablar y parámetros opcionales de voice, speed y stability. Hermes Agent enruta la solicitud a través del proveedor custom:runapi. Para salida multilingüe, usa text-to-speech-multilingual-v2 con un voice y language_code.

POST /api/v1/elevenlabs/text_to_speech

Consulta el resultado

El endpoint devuelve un task_id de inmediato. Consulta el endpoint de estado de la tarea hasta que el estado sea completado y luego lee la URL de audio de salida de la respuesta.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123

PARÁMETROS

Parámetros de la API text_to_speech de ElevenLabs

Parámetro	Tipo	Descripción
`model`	`string`	Obligatorio. text-to-speech-turbo-v2.5 (baja latencia) o text-to-speech-multilingual-v2 (29 idiomas).
`text`	`string`	Obligatorio. El texto a convertir en voz. Máx. 5000 caracteres.
`voice`	`string`	ID de voz de ElevenLabs. Obligatorio para multilingual-v2. Turbo-v2.5 usa una voz predeterminada si se omite.
`speed`	`float`	Opcional. Multiplicador de velocidad de reproducción. Rango de 0.7 a 1.2.
`stability`	`float`	Opcional. Consistencia de voz. Rango de 0.0 a 1.0. Valores más bajos añaden expresividad.
`similarity_boost`	`float`	Opcional. Refuerzo de similitud de voz. Rango de 0.0 a 1.0.
`style`	`float`	Opcional. Exageración de estilo. Rango de 0.0 a 1.0.
`language_code`	`string`	Opcional. Idioma de destino para multilingual-v2, p. ej. en, es, ja.
`callback_url`	`string`	Opcional. URL de webhook que recibe un POST cuando la tarea se completa.

¿Qué es ElevenLabs en Hermes Agent?

ElevenLabs es la API de texto a voz líder, y Hermes Agent lo llama a través del proveedor custom:runapi para generación de voz, transcripción y procesamiento de audio. La ventaja clave en Hermes es el encadenamiento -- generar voz, luego pasar la URL de audio a InfiniteTalk para un avatar parlante o a un modelo de video para contenido audiovisual completo, todo en una sola ejecución de agente. Seis endpoints están disponibles incluyendo TTS turbo, voces multilingüe, diálogo de múltiples hablantes y efectos de sonido.

Casos de uso de ElevenLabs

Agentes de voz de IA conversacionales

Construir agentes de voz que hablen naturalmente generando voz a través de turbo-v2.5 con latencia subsegundo, adecuado para bots de servicio al cliente, asistentes interactivos o interfaces basadas en teléfono.

Narración de contenido de YouTube

Producir voz en off para videos de YouTube con voces de personajes consistentes, ajustando la estabilidad para consistencia del narrador y la exageración de estilo para rango emocional en toda una serie.

Pipelines de texto a video parlante

Encadenar ElevenLabs TTS con InfiniteTalk u otros modelos de video en un flujo de trabajo de Hermes Agent para ir de texto a video narrado con un avatar parlante en una sola ejecución automatizada.

FAQ

Preguntas sobre ElevenLabs + Hermes Agent

Configuración general de Hermes Agent

¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para Hermes Agent.

Guía de configuración de Hermes Agent →

Catálogo de modelos ElevenLabs

Ver todas las variantes de ElevenLabs, precios y documentación de la API.

ElevenLabs en RunAPI →

Prueba ElevenLabs en Hermes Agent hoy.

Obtén una clave RunAPI gratuita, configura el proveedor custom:runapi y genera audio de voz con ElevenLabs — seis endpoints, una clave API, facturación por carácter.

Explorar modelos →