Posso usare ElevenLabs in Hermes Agent?

Sì. Configura RunAPI come provider custom:runapi in Hermes Agent con base_url https://runapi.ai/v1 e key_env RUNAPI_API_KEY, poi chiama qualsiasi endpoint ElevenLabs — text_to_speech, speech_to_text, text_to_dialogue, text_to_sound o isolate_audio.

Qual è la differenza tra turbo-v2.5 e multilingual-v2?

turbo-v2.5 è ottimizzato per bassa latenza e output principalmente in inglese — applica una voce predefinita quando non ne viene specificata una. multilingual-v2 supporta 29 lingue e richiede un voice ID esplicito e un language_code facoltativo. Turbo costa circa la metà per carattere.

Come viene fatturato ElevenLabs su RunAPI?

Gli endpoint text-to-speech e dialogue sono fatturati per carattere di testo di input. speech-to-text è fatturato per minuto di audio. L'isolamento audio è fatturato per task. Controlla la pagina dei prezzi di RunAPI per le tariffe aggiornate.

Posso trascrivere audio con ElevenLabs in Hermes Agent?

Sì. Chiama l'endpoint speech_to_text su /api/v1/elevenlabs/speech_to_text con un source_audio_url. L'endpoint supporta la diarizzazione facoltativa degli speaker tramite il parametro diarize e il tagging degli eventi audio tramite tag_audio_events. I risultati vengono restituiti in modo asincrono.

Come funziona l'isolamento vocale tramite RunAPI?

Chiama l'endpoint isolate_audio su /api/v1/elevenlabs/isolate_audio con un source_audio_url che punta al tuo file audio misto. L'endpoint estrae le voci dal rumore di fondo e restituisce un URL audio pulito. Il task è asincrono — esegui il polling o usa un callback_url.

HERMES + ELEVENLABS

Usa ElevenLabs in Hermes Agent.

ElevenLabs fornisce sei endpoint audio tramite RunAPI — sintesi vocale turbo-v2.5 con latenza inferiore al secondo, multilingual-v2 per 29 lingue, dialogue-v3 per conversazioni multi-speaker, effetti sonori, trascrizione speech-to-text e isolamento vocale. Hermes Agent li chiama tramite il provider custom:runapi con una sola API key.

Ottieni API Key Leggi la documentazione API

una API key · endpoint text to speech · fatturazione per carattere

Usa RunAPI per generare audio vocale con la sintesi vocale ElevenLabs.

Requisiti:
- Leggi la API key da RUNAPI_API_KEY.
- Usa il provider custom:runapi con base_url https://runapi.ai/v1.
- Chiama POST https://runapi.ai/api/v1/elevenlabs/text_to_speech
- Imposta model su "text-to-speech-turbo-v2.5".
- Imposta text sul contenuto che vuoi pronunciato.
- Facoltativamente imposta voice su un voice ID specifico di ElevenLabs.
- Facoltativamente imposta speed tra 0.7 e 1.2.
- Il task è asincrono. Esegui il polling del task_id restituito finché lo status non è "completed".
- Al termine, leggi l'URL audio dall'output della risposta.

curl -X POST https://runapi.ai/api/v1/elevenlabs/text_to_speech \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-to-speech-turbo-v2.5",
    "text": "Welcome to RunAPI. This audio was generated by ElevenLabs turbo v2.5.",
    "speed": 1.0,
    "stability": 0.5,
    "similarity_boost": 0.75
  }'

{
  "task_id": "tsk_abc123",
  "status": "pending",
  "model": "text-to-speech-turbo-v2.5"
}

Copia il comando curl per testare elevenlabs

COME FUNZIONA

Usa ElevenLabs in Hermes Agent in tre passaggi

Configura RunAPI

Imposta RUNAPI_API_KEY nell'ambiente in cui Hermes Agent viene eseguito. Se hai già aggiunto RunAPI come provider custom:runapi, la stessa key e base_url gestiscono tutti gli endpoint ElevenLabs — sintesi vocale, STT, dialogue, effetti sonori e isolamento vocale.

export RUNAPI_API_KEY=runapi_xxx

Chiama text_to_speech

Invia una POST all'endpoint text_to_speech con model impostato su text-to-speech-turbo-v2.5, il testo da pronunciare e i parametri facoltativi voice, speed e stability. Hermes Agent instrada la richiesta tramite il provider custom:runapi. Per output multilingue, usa text-to-speech-multilingual-v2 con un voice e language_code.

POST /api/v1/elevenlabs/text_to_speech

Ottieni il risultato

L'endpoint restituisce immediatamente un task_id. Esegui il polling dell'endpoint di stato del task finché lo stato non cambia in completed, poi leggi l'URL audio di output dalla risposta.

GET /api/v1/elevenlabs/text_to_speech/tsk_abc123

PARAMETRI

Parametri API ElevenLabs text_to_speech

Parametro	Tipo	Descrizione
`model`	`string`	Obbligatorio. text-to-speech-turbo-v2.5 (bassa latenza) o text-to-speech-multilingual-v2 (29 lingue).
`text`	`string`	Obbligatorio. Il testo da convertire in audio. Max 5000 caratteri.
`voice`	`string`	Voice ID ElevenLabs. Obbligatorio per multilingual-v2. turbo-v2.5 usa una voce predefinita se omesso.
`speed`	`float`	Facoltativo. Moltiplicatore di velocità di riproduzione. Range da 0.7 a 1.2.
`stability`	`float`	Facoltativo. Consistenza vocale. Range da 0.0 a 1.0. Valori più bassi aggiungono espressività.
`similarity_boost`	`float`	Facoltativo. Applicazione della somiglianza vocale. Range da 0.0 a 1.0.
`style`	`float`	Facoltativo. Esagerazione dello stile. Range da 0.0 a 1.0.
`language_code`	`string`	Facoltativo. Lingua target per multilingual-v2, ad es. en, es, ja.
`callback_url`	`string`	Facoltativo. URL webhook che riceve una POST quando il task è completato.

Cos'è ElevenLabs su Hermes Agent?

ElevenLabs è l'API testo-a-parlato leader, e Hermes Agent lo chiama tramite il provider custom:runapi per la generazione vocale, la trascrizione e l'elaborazione audio. Il vantaggio chiave in Hermes è il concatenamento -- generare il parlato, poi passare l'URL audio a InfiniteTalk per un avatar parlante o a un modello video per contenuto audiovisivo completo, tutto in un'unica esecuzione dell'agente. Sei endpoint sono disponibili tra cui TTS turbo, voci multilingue, dialogo multi-speaker ed effetti sonori.

Casi d'uso di ElevenLabs

Agenti vocali IA conversazionali

Costruire agenti vocali che parlano naturalmente generando il parlato tramite turbo-v2.5 con latenza sub-secondo, adatto per bot di customer service, assistenti interattivi o interfacce telefoniche.

Narrazione di contenuto YouTube

Produrre voce fuori campo per video YouTube con voci di personaggi coerenti, regolando la stabilità per la coerenza del narratore e l'esagerazione di stile per la gamma emotiva in un'intera serie.

Pipeline da testo a video parlante

Concatenare ElevenLabs TTS con InfiniteTalk o altri modelli video in un workflow Hermes Agent per passare dal testo a un video narrato con un avatar parlante in un'unica esecuzione automatizzata.

FAQ

Domande su ElevenLabs + Hermes Agent

Configurazione generale di Hermes Agent

Non ancora configurato? Inizia con la guida di configurazione RunAPI per Hermes Agent.

Guida di configurazione di Hermes Agent →

Catalogo modelli ElevenLabs

Vedi tutte le varianti, i prezzi e la documentazione API di ElevenLabs.

ElevenLabs su RunAPI →

Prova ElevenLabs in Hermes Agent oggi.

Ottieni una API key RunAPI gratuita, configura il provider custom:runapi e genera audio vocale con ElevenLabs — sei endpoint, una sola API key, fatturazione per carattere.

Sfoglia i modelli →