¿Puedo usar Google Gemini en Hermes Agent sin credenciales de Google Cloud?

Sí. RunAPI proporciona Gemini a través de su endpoint compatible con OpenAI. Configura RunAPI como proveedor custom:runapi con base_url https://runapi.ai/v1 y key_env RUNAPI_API_KEY. No se requiere proyecto de Google Cloud, cuenta de servicio ni configuración de Vertex AI.

¿Qué versión de Gemini debería usar para flujos de trabajo de agentes?

Gemini 3.5 Flash (gemini-3.5-flash) es el más nuevo y rápido — mejor para bucles de agentes en tiempo real y cadenas de llamadas a herramientas. Gemini 2.5 Pro (gemini-2.5-pro) gestiona tareas de contexto largo y razonamiento complejo. Las versiones preliminares de Gemini 3.x Pro ofrecen las capacidades de razonamiento más recientes a mayor coste.

¿Cómo funciona el precio de Gemini en RunAPI?

Gemini se factura por token en RunAPI con precios de pago por uso. Los tokens de entrada y salida se miden por separado. Sin suscripción mensual, sin gasto mínimo. Consulta la página de precios de RunAPI para las tarifas actuales por millón de tokens.

¿Puede Hermes Agent cambiar entre Gemini y otros LLMs a mitad de sesión?

Sí. Todos los LLM de RunAPI comparten el mismo proveedor custom:runapi y clave API. Usa el comando /model o hermes model para cambiar entre gemini-3.5-flash, gpt-5.5, claude-opus-4.6 o cualquier otro modelo de RunAPI sin cambiar la configuración del proveedor.

¿Gemini a través de RunAPI admite llamadas a funciones y uso de herramientas?

Sí. RunAPI pasa los parámetros tools y tool_choice compatibles con OpenAI a Gemini. Define herramientas en el cuerpo de la solicitud y Gemini devuelve tool_calls en el mensaje del asistente. Hermes Agent los procesa igual que las llamadas a herramientas de GPT o Claude.

HERMES + GEMINI

Usa Gemini en Hermes Agent.

Google Gemini está disponible a través del endpoint compatible con OpenAI de RunAPI. Hermes Agent lo llama usando el proveedor custom:runapi — Gemini 3.5 Flash para bucles de agentes sensibles a la velocidad, 3.x Pro para razonamiento multipasos, 2.5 Pro para tareas de producción de contexto largo. No se requieren credenciales de proyecto de Google Cloud ni de Vertex AI — solo la misma RUNAPI_API_KEY y base_url que ya configuraste para chat.

Obtener API Key Leer la documentación

una clave API · endpoint de chat compatible con OpenAI · compatibilidad con streaming

Usa RunAPI para enviar una solicitud de chat a Google Gemini 3.5 Flash a través de Hermes Agent.


      Requisitos:

      - Usa el proveedor custom:runapi ya configurado en Hermes Agent

      - Llama al endpoint de chat completions de RunAPI en https://runapi.ai/v1/chat/completions

      - Establece model en "gemini-3.5-flash"

      - La variable de entorno RUNAPI_API_KEY proporciona la autorización

      - La respuesta es síncrona — la respuesta llega en choices[0].message.content

      - Para streaming, establece stream en true y procesa server-sent events

curl -X POST https://runapi.ai/v1/chat/completions \
  -H "Authorization: Bearer $RUNAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-3.5-flash",
    "messages": [
      {"role": "system", "content": "You are a concise technical assistant."},
      {"role": "user", "content": "Explain the difference between gRPC and REST in three sentences."}
    ],
    "temperature": 0.7,
    "max_tokens": 256
  }'

{
  "id": "chatcmpl-abc123",
  "object": "chat.completion",
  "model": "gemini-3.5-flash",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "gRPC uses HTTP/2 and Protocol Buffers for strongly-typed, multiplexed RPC calls with built-in code generation. REST uses HTTP/1.1 (or 2) with JSON payloads and relies on URL paths and HTTP verbs for resource semantics. gRPC is faster for service-to-service calls; REST is simpler to debug and more widely supported by browsers."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 34,
    "completion_tokens": 71,
    "total_tokens": 105
  }
}

Copia el comando curl para probarlo gemini

CÓMO FUNCIONA

Usa Gemini en Hermes Agent en tres pasos

Configura RunAPI

Establece la variable de entorno RUNAPI_API_KEY. Si ya añadiste RunAPI como proveedor custom:runapi en Hermes Agent, la misma clave y base_url funcionan para Gemini — cambia solo el ID del model. No se necesitan credenciales de Google Cloud.

export RUNAPI_API_KEY=runapi_xxx

Llama a Gemini a través de chat completions

Envía una solicitud POST a /v1/chat/completions con model establecido en gemini-3.5-flash. Pasa un array messages con roles de system y user. Hermes Agent envía la misma forma de solicitud compatible con OpenAI que usa para GPT — RunAPI enruta a Gemini según el parámetro model.

POST /v1/chat/completions

Lee la respuesta

La respuesta llega de forma síncrona en formato de chat completion de OpenAI. La respuesta del asistente está en choices[0].message.content, con el uso de tokens en el objeto usage. Para streaming, establece stream en true y Hermes Agent analiza los eventos delta de SSE automáticamente.

choices[0].message.content

PARÁMETROS

Parámetros de la API de chat completions de Gemini

Parámetro	Tipo	Descripción
`model`	`string`	Obligatorio. gemini-3.5-flash, gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3-pro-preview o gemini-3.1-pro-preview.
`messages`	`array`	Obligatorio. Array de objetos de mensaje con campos role (system, user, assistant) y content.
`temperature`	`number`	Opcional. Temperatura de muestreo entre 0 y 2. Valores más bajos producen salidas más deterministas. El valor predeterminado varía por modelo.
`max_tokens`	`integer`	Opcional. Número máximo de tokens a generar en la respuesta.
`stream`	`boolean`	Opcional. Cuando es true, la respuesta se transmite en streaming como server-sent events. Cada evento contiene un delta con contenido parcial.
`top_p`	`number`	Opcional. Umbral de muestreo por núcleo entre 0 y 1. Alternativa a temperature para controlar la aleatoriedad de la salida.

¿Qué es Gemini en Hermes Agent?

Google Gemini está disponible a través del proveedor custom:runapi de RunAPI sin credenciales de Google Cloud. Hermes Agent lo llama usando la misma configuración compatible con OpenAI usada para GPT y Claude. Gemini 3.5 Flash es la opción más rápida para bucles de agente sensibles a la velocidad, mientras que Gemini 2.5 Pro ofrece una ventana de contexto de 1M de tokens y modo de pensamiento para tareas de razonamiento complejo de varios pasos.

Casos de uso de Gemini

Chat de voz y video en tiempo real con Live API

Usar las capacidades multimodales de Gemini para aplicaciones en tiempo real que procesan entradas de audio y video junto con texto, construyendo agentes interactivos que pueden ver y escuchar a través de flujos de trabajo de Hermes Agent.

Anclaje de respuestas con datos de Google Search

Habilitar el anclaje de Google Search en solicitudes de Gemini para obtener respuestas respaldadas por datos web actuales, útil para agentes que necesitan información actualizada más allá de su fecha de corte de entrenamiento.

Cadenas de llamadas de herramientas de agente económicas

Ejecutar Gemini 3.5 Flash para bucles de llamadas de herramientas rápidos y económicos donde el agente necesita hacer muchas llamadas secuenciales. La latencia de primer token inferior a 100ms mantiene las cadenas de agente responsivas sin romper el presupuesto.

FAQ

Preguntas sobre Gemini + Hermes Agent

Configuración general de Hermes Agent

¿Aún no lo has configurado? Empieza con la guía de configuración de RunAPI para Hermes Agent.

Guía de configuración de Hermes Agent →

Catálogo de modelos Gemini

Ver todas las variantes de Gemini, precios y documentación de la API.

Modelos de Gemini →

Prueba Gemini en Hermes Agent hoy.

Obtén una clave RunAPI gratuita, establece model en gemini-3.5-flash en tu proveedor custom:runapi y empieza a usar Gemini en Hermes Agent.

Explorar modelos →