---
title: &quot;Gemini in Hermes Agent via RunAPI verwenden — LLM-API-Anleitung&quot;
url: &quot;https://runapi.ai/de/hermes-gemini.md&quot;
canonical: &quot;https://runapi.ai/de/hermes-gemini&quot;
locale: &quot;de&quot;
model: &quot;gemini&quot;
---

# Gemini in Hermes Agent verwenden.

Google Gemini ist über RunAPIs OpenAI-kompatiblen Endpunkt verfügbar. Hermes Agent ruft es über den custom:runapi-Provider auf — Gemini 3.5 Flash für latenzempfindliche Agent-Schleifen, 3.x Pro für mehrstufiges Reasoning, 2.5 Pro für Langkontext-Produktionsaufgaben. Kein Google-Cloud-Projekt oder Vertex-AI-Zugangsdaten erforderlich — nur derselbe RUNAPI_API_KEY und dieselbe base_url, die bereits für Chat konfiguriert wurden.

## API example

```bash
curl -X POST https://runapi.ai/v1/chat/completions \
  -H &quot;Authorization: Bearer $RUNAPI_API_KEY&quot; \
  -H &quot;Content-Type: application/json&quot; \
  -d &#39;{
    &quot;model&quot;: &quot;gemini-3.5-flash&quot;,
    &quot;messages&quot;: [
      {&quot;role&quot;: &quot;system&quot;, &quot;content&quot;: &quot;You are a concise technical assistant.&quot;},
      {&quot;role&quot;: &quot;user&quot;, &quot;content&quot;: &quot;Explain the difference between gRPC and REST in three sentences.&quot;}
    ],
    &quot;temperature&quot;: 0.7,
    &quot;max_tokens&quot;: 256
  }&#39;

```

### Response

```json
{
  &quot;id&quot;: &quot;chatcmpl-abc123&quot;,
  &quot;object&quot;: &quot;chat.completion&quot;,
  &quot;model&quot;: &quot;gemini-3.5-flash&quot;,
  &quot;choices&quot;: [
    {
      &quot;index&quot;: 0,
      &quot;message&quot;: {
        &quot;role&quot;: &quot;assistant&quot;,
        &quot;content&quot;: &quot;gRPC uses HTTP/2 and Protocol Buffers for strongly-typed, multiplexed RPC calls with built-in code generation. REST uses HTTP/1.1 (or 2) with JSON payloads and relies on URL paths and HTTP verbs for resource semantics. gRPC is faster for service-to-service calls; REST is simpler to debug and more widely supported by browsers.&quot;
      },
      &quot;finish_reason&quot;: &quot;stop&quot;
    }
  ],
  &quot;usage&quot;: {
    &quot;prompt_tokens&quot;: 34,
    &quot;completion_tokens&quot;: 71,
    &quot;total_tokens&quot;: 105
  }
}

```

## How it works

1. **RunAPI konfigurieren** — Die RUNAPI_API_KEY-Umgebungsvariable setzen. Wenn RunAPI bereits als custom:runapi-Provider in Hermes Agent hinzugefügt wurde, funktionieren derselbe Key und dieselbe base_url für Gemini — nur die Modell-ID ändern. Keine Google-Cloud-Zugangsdaten nötig.
2. **Gemini über Chat-Completions aufrufen** — Einen POST-Request an /v1/chat/completions mit model gemini-3.5-flash senden. Ein messages-Array mit system- und user-Rollen übergeben. Hermes Agent sendet dieselbe OpenAI-kompatible Anfrage, die es für GPT verwendet — RunAPI leitet basierend auf dem model-Parameter an Gemini weiter.
3. **Antwort auslesen** — Die Antwort kommt synchron im OpenAI-Chat-Completion-Format. Die Assistent-Antwort ist in choices[0].message.content, mit Token-Usage im usage-Objekt. Für Streaming stream auf true setzen und Hermes Agent parst die SSE-Delta-Events automatisch.

## Parameters

| Parameter | Type | Description |
|-----------|------|-------------|
| `model` | `string` | Erforderlich. gemini-3.5-flash, gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3-pro-preview oder gemini-3.1-pro-preview. |
| `messages` | `array` | Erforderlich. Array von Message-Objekten mit role (system, user, assistant) und content-Feldern. |
| `temperature` | `number` | Optional. Sampling-Temperatur zwischen 0 und 2. Niedrigere Werte liefern deterministischeren Output. Standard variiert je nach Modell. |
| `max_tokens` | `integer` | Optional. Maximale Anzahl zu generierender Token in der Antwort. |
| `stream` | `boolean` | Optional. Wenn true, streamt die Antwort als Server-Sent Events. Jedes Event enthält ein Delta mit partiellem Inhalt. |
| `top_p` | `number` | Optional. Nucleus-Sampling-Schwellenwert zwischen 0 und 1. Alternative zu temperature zur Steuerung der Output-Zufälligkeit. |

## FAQ

### Kann ich Google Gemini in Hermes Agent ohne Google-Cloud-Zugangsdaten verwenden?

Ja. RunAPI stellt Gemini über seinen OpenAI-kompatiblen Endpunkt bereit. RunAPI als custom:runapi-Provider mit base_url https://runapi.ai/v1 und key_env RUNAPI_API_KEY konfigurieren. Kein Google-Cloud-Projekt, kein Service-Account und keine Vertex-AI-Einrichtung erforderlich.

### Welche Gemini-Version sollte ich für Agent-Workflows verwenden?

Gemini 3.5 Flash (gemini-3.5-flash) ist das neueste und schnellste — am besten für Echtzeit-Agent-Schleifen und Tool-Calling-Ketten. Gemini 2.5 Pro (gemini-2.5-pro) verarbeitet Langkontext-Aufgaben und komplexes Reasoning. Gemini 3.x Pro Previews bieten die neuesten Reasoning-Fähigkeiten zu höheren Kosten.

### Wie funktioniert die Gemini-Preisgestaltung auf RunAPI?

Gemini wird pro Token auf RunAPI mit Pay-as-you-go-Preisen abgerechnet. Input- und Output-Token werden separat gemessen. Kein monatliches Abonnement, kein Mindestausgabe. Aktuelle Preise pro Million Token auf der RunAPI-Preisseite.

### Kann Hermes Agent zwischen Gemini und anderen LLMs mitten in einer Sitzung wechseln?

Ja. Alle RunAPI-LLMs teilen denselben custom:runapi-Provider und denselben API-Key. Den /model-Befehl oder hermes model verwenden, um zwischen gemini-3.5-flash, gpt-5.5, claude-opus-4.6 oder einem anderen RunAPI-Modell zu wechseln, ohne die Provider-Konfiguration zu ändern.

### Unterstützt Gemini über RunAPI Function Calling und Tool Use?

Ja. RunAPI leitet die OpenAI-kompatiblen tools- und tool_choice-Parameter an Gemini weiter. Tools im Request-Body definieren und Gemini gibt tool_calls in der Assistent-Message zurück. Hermes Agent verarbeitet diese genauso wie Tool-Calls von GPT oder Claude.


## Links

- [Hermes Agent Einrichtungsanleitung →](https://runapi.ai/de/hermes-agent)
- [Gemini models →](https://runapi.ai/de/models/gemini)
- [Model catalog](https://runapi.ai/de/models)
- [API docs](https://runapi.ai/de/docs)
