Abo -30% SUB30
LLM Observability für OpenClaw: Monitoring mit OpenTelemetry, Prometheus und Grafana
$ ./blog/guides
Anleitungen

LLM Observability für OpenClaw: Monitoring mit OpenTelemetry, Prometheus und Grafana

ClawHosters
ClawHosters von Daniel Samer
5 Min. Lesezeit

Eine steckengebliebene OpenClaw-Session lief über Nacht auf einem unserer Testserver. Keiner hat es bemerkt. Am Morgen waren 47 Dollar an API-Tokens verbrannt, für absolut nichts. Ab diesem Zeitpunkt war Monitoring kein "Nice-to-have" mehr.

Wer einen KI-Agenten in Produktion betreibt, kommt um LLM Observability nicht herum. OpenClaw-Agenten handeln autonom. Sie warten nicht darauf, dass du irgendwo klickst. Sessions können hängen bleiben, Rate Limits können still und leise Nachrichten verschlucken, und Context Windows füllen sich, bis die Kosten explodieren. Es gibt fünf dokumentierte stille Fehlermodi, die ohne aktives Monitoring nie in deinen Logs auftauchen.

Hier zeige ich dir, wie du ein vernünftiges OpenClaw Monitoring in etwa 15 Minuten aufsetzt.

Den eingebauten OpenTelemetry Exporter aktivieren

OpenClaw liefert ein Plugin namens diagnostics-otel mit. Standardmäßig ist es deaktiviert. Um es zu aktivieren, füge folgendes in deine ~/.openclaw/openclaw.json ein:

{
  "diagnostics": {
    "otel": {
      "enabled": true,
      "endpoint": "http://127.0.0.1:4318",
      "serviceName": "openclaw-prod",
      "traces": true,
      "metrics": true,
      "logs": true,
      "sampleRate": 1.0,
      "flushIntervalMs": 5000
    }
  }
}

Zwei Dinge sind hier wichtig. Setze sampleRate auf 1.0 bei Single-Instance-Deployments, damit dir keine Traces verloren gehen. Und reduziere flushIntervalMs auf 5000 (fünf Sekunden) statt der voreingestellten 60000. Wie das SigNoz-Engineering-Team herausgefunden hat, macht das Standard-Intervall von 60 Sekunden dein Dashboard für Echtzeit-Debugging praktisch unbrauchbar.

Eine Falle, die dich Zeit kosten wird: nur http/protobuf funktioniert. Wenn dein Collector gRPC erwartet, sendet das Plugin einfach gar nichts. Keine Fehlermeldung, keine Warnung. Einfach Stille. Schau in die offizielle Logging-Dokumentation, wenn du darauf stößt.

Die vier Metriken, die wirklich zählen

Du wirst eine Wand voller Telemetrie-Daten bekommen. Ignoriere den Großteil am Anfang. Diese vier verraten dir, ob dein Agent gesund ist:

openclaw.cost.usd verfolgt die Ausgaben pro Session. Setze einen Alert für alles, was über deinem erwarteten Tagesbudget liegt. Das fängt durchdrehende Sessions ab, bevor sie dein API-Guthaben auffressen.

openclaw.run.duration_ms misst die LLM-Antwortlatenz. Ein p95-Wert über fünf Sekunden deutet in der Regel auf ein Problem hin: Entweder ist das Modell überlastet, oder das Context Window ist zu groß geworden.

openclaw.context.tokens zeigt, wie viel vom Context Window des Modells belegt ist. Sobald sich dieser Wert dem Limit nähert, sinkt die Antwortqualität und die Kosten steigen.

openclaw.queue.depth zeigt den Nachrichten-Rückstau an. Wenn die Tiefe ständig wächst, kann dein Agent nicht mit den eingehenden Anfragen mithalten. Nachrichten können je nach queueOverflow-Einstellung verworfen werden.

Architektur: Wie die Teile zusammenspielen

Die Daten-Pipeline sieht folgendermaßen aus:

Das OpenClaw Gateway sendet OTLP/HTTP an einen OTel Collector auf Port 4318. Der Collector stellt einen Prometheus-Scrape-Endpoint auf 127.0.0.1:9464 bereit. Prometheus scrapt diesen Endpoint. Grafana fragt Prometheus ab und rendert Dashboards.

Halte den Collector-Endpoint auf Loopback. Du willst keine Telemetrie-Daten im offenen Internet haben.

Der LumaDock VPS-Monitoring-Guide empfiehlt, node_exporter parallel zu den OpenClaw-Metriken auf dem gleichen Grafana Dashboard laufen zu lassen. So kannst du unterscheiden, ob ein Latenz-Spike vom LLM-Provider kommt oder ob deinem VPS der Arbeitsspeicher ausgeht.

Health Endpoints: /health vs /readyz

OpenClaw bietet zwei Arten von Probes auf Port 18789 an. /health (oder /healthz) ist ein oberflächlicher Liveness-Check. Er gibt {"ok": true} zurück, wenn der Prozess läuft. /ready (oder /readyz) geht tiefer. Er prüft, ob deine Messaging-Channels (Telegram, Discord usw.) tatsächlich verbunden sind. Fällt ein Channel aus, gibt /readyz einen 503 zurück.

Für Docker Compose oder Kubernetes Health Checks: Verwende /readyz. Wenn du /health für Readiness-Probes verwendest, meldet dein Container "healthy", obwohl dein Telegram-Bot längst getrennt ist. Die Health-Endpoint-Dokumentation geht hier ins Detail.

Alerts einrichten

Drei Prometheus-Alert-Rules, die dich vor den meisten Produktions-Überraschungen bewahren:

Hohe Fehlerrate: rate(openclaw_gateway_errors_total[5m]) > 0.1 feuert, wenn Fehler über ein Fünf-Minuten-Fenster 10 % überschreiten. Fängt Gateway-Abstürze und Webhook-Fehler ab.

Langsame Antworten: Alert, wenn die p95-Latenz länger als fünf Sekunden über zwei Minuten hinweg bleibt. Das liegt meistens am Provider oder an einem aufgeblähten Context Window.

Agent down: openclaw_agent_status == 0 feuert, wenn der Agent-Prozess gar nicht mehr antwortet. Kombiniere das mit einer automatischen Restart-Policy in deiner systemd-Unit oder Docker-Konfiguration.

Diese Schwellenwerte sind Ausgangspunkte. Passe sie an, nachdem du eine Woche Baseline-Daten gesammelt hast.

Die leichtgewichtige Alternative: ClawMetry

Falls Prometheus und Grafana für eine einzelne Instanz zu viel Infrastruktur sind, schau dir ClawMetry an. Ein Open-Source Python Dashboard mit über 23.000 Installationen, das deinen OpenClaw-Workspace automatisch erkennt. Ein Befehl zur Installation: pip install clawmetry.

ClawMetry versteht OpenClaw-Konzepte nativ: Channels, Sub-Agents, Memory Files, Cron Jobs. Für einen einzelnen VPS auf ClawHosters ist das wahrscheinlich der richtige Einstieg.

Für Teams, die bereits Grafana nutzen oder KI-Agent-Metriken mit Host-Performance-Daten korrelieren müssen, lohnt sich der volle Prometheus-Stack.

Was ClawHosters für dich übernimmt

Wenn du eine ClawHosters Managed Instance nutzt, ist Host-Level-Monitoring (Uptime, Speicherplatz, Neustarts) bereits abgedeckt. Was du selbst konfigurieren musst, ist Application-Level Observability: Token-Kosten-Tracking, Antwortlatenz und Channel-Readiness. Die diagnostics-otel-Konfiguration oben funktioniert auf jedem ClawHosters-Plan. Unser Setup-Guide führt dich durch den gesamten Prozess.

Um deine Token-Ausgaben zu optimieren, sobald du Einblick hast, schau dir unseren Guide zur OpenClaw Token-Kostenoptimierung an.

Häufig gestellte Fragen

LLM Observability bedeutet, das Verhalten und die Performance von Large-Language-Model-Agenten in Produktion zu überwachen. Bei OpenClaw umfasst das Token-Kosten, Antwortlatenz, Context-Window-Auslastung und Queue-Tiefe. Ohne Observability passieren Fehler still und unbemerkt.

Ja. Das `diagnostics-otel`-Plugin wird mit OpenClaw ausgeliefert, ist aber standardmäßig deaktiviert. Es exportiert Traces, Metriken und Logs über OTLP/HTTP. Nur das `http/protobuf`-Protokoll wird unterstützt. gRPC wird still ignoriert.

Die wichtigsten Optionen sind der Prometheus-und-Grafana-Stack (über den OTel Collector), ClawMetry (ein speziell entwickeltes Python Dashboard), SigNoz Cloud und Grafana Cloud. Henrik Rexeds Observability-Plugin ergänzt Unterstützung für Dynatrace und direkten Grafana-Cloud-Export.

Das hängt von deinem Setup ab. ClawMetry ist einfacher für Single-Instance-Deployments und versteht OpenClaw-Konzepte wie Channels und Sub-Agents nativ. Prometheus ist die bessere Wahl, wenn du langfristige Datenspeicherung, individuelle Alerts oder Korrelation mit Host-Metriken brauchst.

Nein. Token-Verbrauch und Kosten werden pro Agent-Turn aggregiert, nicht pro einzelnem API-Aufruf an Claude oder OpenAI. Du bekommst Sichtbarkeit pro Turn, was für Kosten-Attribution und Latenz-Debugging in den meisten Fällen ausreicht.
*Zuletzt aktualisiert: März 2026*

Quellen

  1. 1 fünf dokumentierte stille Fehlermodi
  2. 2 SigNoz-Engineering-Team herausgefunden hat
  3. 3 offizielle Logging-Dokumentation
  4. 4 LumaDock VPS-Monitoring-Guide
  5. 5 Health-Endpoint-Dokumentation
  6. 6 ClawMetry
  7. 7 ClawHosters
  8. 8 Setup-Guide
  9. 9 OpenClaw Token-Kostenoptimierung
  10. 10 Observability-Plugin