Abo -25% LAUNCH-SUB
Claws -25% LAUNCH-CLAWS
OpenClaw Token Kosten senken: So reduzierst du deinen LLM API Verbrauch um bis zu 77%
$ ./blog/guides
Anleitungen

OpenClaw Token Kosten senken: So reduzierst du deinen LLM API Verbrauch um bis zu 77%

ClawHosters
ClawHosters von Daniel Samer
14 Min. Lesezeit

Deine erste OpenClaw API Rechnung war wahrscheinlich ein Schock. Meine war es definitiv. $187 für einen Monat, in dem ich dachte, ich würde "nur ein bisschen rumspielen." Das Framework ist mächtig, keine Frage. Aber es frisst Tokens schneller als ich "context window" sagen kann, und bei BYOK (Bring Your Own Key) zahlst du jeden einzelnen davon.

Nach drei Monaten und einigen schmerzhaften Rechnungen später betreibe ich bei ClawHosters produktive OpenClaw Instanzen für unter $35 monatlich. Dieser Guide zeigt dir genau, was funktioniert hat und was reine Zeitverschwendung war. Laut einer APIYI Community Case Study hat ein Power User seine monatlichen Kosten von $150 auf $35 gedrückt. Das sind 77% weniger. Ohne Funktionsverlust.

Warum OpenClaw so viele Tokens verbraucht

Bevor du deine OpenClaw Token Kosten senken kannst, musst du verstehen, woher sie kommen. OpenClaw zählt alles als Tokens, was an das Modell gesendet wird: System Prompt, Gesprächsverlauf, Tool Outputs, Attachments, Compaction Summaries und Provider Wrapper. Das summiert sich schnell.

Die sechs Hauptverursacher von hohem AI Agent Tokenverbrauch:

1. Context Accumulation. Dein Gesprächsverlauf wächst mit jeder Nachricht. Das habe ich erst verstanden, als ich /context detail ausgeführt habe und gesehen habe: 52.000 Tokens Verlauf, davon 40.000 aus einer Debug Session von vorgestern. Nach ein paar Stunden sind es 50.000+ Tokens, die bei jeder neuen Anfrage mitgesendet werden. Das ist der größte einzelne Kostentreiber.

2. Tool Output Storage. Wenn OpenClaw ein Tool aufruft (Datei lesen, Web Scraping, Code Ausführung), wird das Ergebnis im Gesprächsverlauf gespeichert. Und bei jeder folgenden Nachricht erneut gesendet. Einmal hatte ich einen Web Scraping Job, der 180.000 Zeichen JSON im Verlauf gespeichert hatte. Bei jedem Request mitgeschickt.

3. Aufgeblähte System Prompts. Skills, Workspace Files, Tool Definitionen. All das wird bei jedem Request zusammengebaut und mitgeschickt. Die Standardkonfiguration erlaubt laut OpenClaw Context Docs bis zu 150.000 Zeichen für Workspace Files allein. Ich hatte einmal 15.000 Tokens Workspace Files geladen und über Wochen vergessen.

4. Falsche Model Selection. Claude Opus für eine einfache Dateisuchanfrage? GPT-4o für eine Formatierungsaufgabe? Ich habe die ersten zwei Monate alles mit Claude Sonnet laufen lassen. Warum auch nicht? "Better quality, better results." Dann kam die Rechnung und ich habe tatsächlich nachgerechnet. Das passiert öfter als du denkst, wenn kein bewusstes Model Routing konfiguriert ist.

5. Output Tokens. Hier liegt der versteckte Multiplikator. Laut Silicon Data kosten Output Tokens bei allen Providern 3-8x mehr als Input Tokens. Wenn dein Agent ausschweifende Antworten gibt, zahlst du dafür erheblich.

6. Heartbeat Intervalle. OpenClaw hält durch regelmäßige Background Requests den Context warm. Bei kurzen Intervallen entstehen Token Kosten, auch wenn du gar nicht aktiv bist.

Diese sechs Kostentreiber sind der Grund, warum viele Nutzer ihre OpenClaw Token Kosten senken wollen. Die gute Nachricht: An jeder dieser Stellen kannst du optimieren.

Quick Wins: OpenClaw Token Kosten senken in 15 Minuten

Diese Änderungen kannst du sofort umsetzen und sehen direkten Impact.

Session Resets nach abgeschlossenen Aufgaben

Der /clear Befehl setzt den Gesprächsverlauf zurück. Klingt banal, oder? War für mich auch, bis ich gemerkt habe, dass eine meiner Sessions 73.000 Tokens Verlauf hatte. Für eine Aufgabe, die nach zwei Stunden erledigt war.

Seit ich Sessions nach jeder abgeschlossenen Aufgabe zurücksetze (Code Review fertig? /clear. Recherche abgeschlossen? /clear.), sind meine durchschnittlichen Kosten pro Request um 47% gesunken. Nicht weil ich weniger arbeite. Weil ich nicht mehr den Verlauf von gestern mitbezahle.

Allein das spart laut der APIYI Case Study 40-60% der Token Kosten. Die meisten Nutzer lassen Sessions tagelang laufen. Jede neue Nachricht schickt dann den gesamten Verlauf mit. Mach es dir zur Gewohnheit: Aufgabe erledigt, Session resetten.

Context Window begrenzen

Die Standardeinstellung ist großzügig. Reduziere contextTokens auf 50.000-100.000 statt der maximalen 400.000. Nach meiner Erfahrung reichen 80.000 Tokens für die allermeisten Anwendungsfälle (meinen Tests nach: 85-90%). Das Framework compactiert ältere Nachrichten automatisch, wenn das Limit erreicht wird.

In der Praxis bedeutet das: OpenClaw behält die letzten X Nachrichten im vollen Detail und fasst ältere zusammen. Du verlierst keinen Kontext, nur die Wort-für-Wort-Speicherung alter Nachrichten.

Workspace File Injection reduzieren

Setze bootstrapMaxChars auf 10.000 (Standard: 20.000) und bootstrapTotalMaxChars auf 75.000 (Standard: 150.000). Aus Community Berichten geht hervor, dass diese Halbierung selten die Funktionalität beeinträchtigt, aber den Basis-Token-Verbrauch pro Request deutlich senkt.

Ich habe diese Settings bei drei Produktionsinstanzen getestet: In zwei Fällen war kein Unterschied merkbar. Im dritten Fall musste ich auf 12.000/90.000 gehen, weil bestimmte Skills mehr Kontext brauchten. Aber selbst das war eine 40% Reduktion gegenüber dem Default.

Model Selection: OpenClaw Token Kosten senken durch intelligente Model Selection

Nicht jede Anfrage braucht ein Flaggschiff-Modell. Klingt offensichtlich? War es für mich nicht.

Ich habe die ersten zwei Monate alles mit Claude Sonnet laufen lassen. Warum auch nicht? "Better quality, better results." Dann kam die Rechnung und ich habe tatsächlich nachgerechnet: Claude Haiku 4.5 kostet $1 pro Million Input Tokens, Sonnet kostet $3, Opus kostet $5 (laut Anthropic's offizieller Preisliste). Faktor 5 zwischen dem günstigsten und teuersten Modell.

Bei OpenAI ist die Spreizung noch größer: GPT-4o-mini kostet $0.15 pro Million Input Tokens, GPT-4o kostet $2.50. Faktor 16.

Hier ist, was ich nach drei Wochen A/B Testing gelernt habe:

Haiku / GPT-4o-mini (90% der Anfragen):
Dateisuche, Formatierung, einfache Q&A, Zusammenfassungen, Übersetzungen. Diese Modelle leisten hier vergleichbar gute Arbeit. Ich nutze Haiku für 90% meiner Anfragen ("Was steht in dieser Config?", "Formatiere diesen Text", "Suche nach XY in den Logs"), und ehrlich gesagt merke ich den Unterschied zu Sonnet nicht.

Sonnet / GPT-4o (9% der Anfragen):
Code Generation, technische Analysen, komplexe Reasoning Tasks. Bei Code Reviews oder Architekturfragen nehme ich Sonnet. Da sehe ich den Qualitätsunterschied.

Opus (1% der Anfragen):
Architekturentscheidungen, mehrstufige Problemlösung, Aufgaben, bei denen Qualität absolut kritisch ist. Bei "Soll ich dieses Framework verwenden?" nehme ich Opus. Aber das sind vielleicht 10 Anfragen pro Woche.

Die 50-80% Ersparnis durch intelligentes Model Switching kommen nicht davon, dass du auf Qualität verzichtest. Sie kommen davon, dass du aufhörst, für einfache Aufgaben das teuerste Modell zu verwenden. Model Selection ist einer der größten Hebel, um OpenClaw Token Kosten zu senken.

Prompt Caching: OpenClaw Token Kosten senken mit Prompt Caching

Anthropics Prompt Caching Feature ist wahrscheinlich die einzelne Technik mit dem höchsten ROI. Die Mechanik: Cache Writes kosten 1.25x des normalen Input Preises. Cache Reads kosten nur 0.1x. Bei einem stabilen System Prompt, der sich zwischen Requests kaum ändert, werden 90% der Kosten für diesen Teil eingespart.

Ein Entwickler auf Medium dokumentierte eine Reduktion von $720 auf $72 monatlich, hauptsächlich durch Prompt Caching. Sein Trick: Heartbeat Intervalle auf 55 Minuten setzen bei einer Cache TTL von 60 Minuten. So bleibt der Cache warm, und die teureren Cache Writes fallen nur einmal an.

Ein Fehler, den ich am Anfang gemacht habe: Heartbeat Intervall auf 5 Minuten gesetzt, weil "dann ist der Cache immer warm." Stimmt. Hat nur leider die Cache Write Kosten vervierfacht, weil ich den Cache alle fünf Minuten neu geschrieben habe statt einmal pro Stunde.

Wann lohnt sich Prompt Caching besonders?

Wenn dein System Prompt groß und stabil ist. Also genau dann, wenn OpenClaw mit vielen Skills und Workspace Files konfiguriert ist. Je mehr Tokens dein System Prompt hat, desto mehr spart Caching. Bei meinen Instanzen mit 15.000-20.000 Token System Prompts sehe ich 60-70% Reduktion auf die Prompt-Kosten durch Caching.

Noch ein Aspekt, der oft übersehen wird: Niedrige Temperature Settings (0.2-0.4) verbessern die Cache Hit Rate, weil die Modell Outputs deterministischer und damit besser cachebar werden.

Output Token Kontrolle ist entscheidend

Da Output Tokens 3-8x teurer sind als Input Tokens, lohnt sich hier jede Optimierung besonders. Output Token Kontrolle ist eine oft übersehene Methode, um OpenClaw Token Kosten zu senken.

max_tokens begrenzen.

Ich habe eine Woche lang geloggt, wie lange meine Antworten tatsächlich sind. Median: 850 Tokens. Maximum (außer Code Generation): 2.400 Tokens. Aber das Standardlimit? 4.096. Ich habe also für 1.600-3.200 Tokens bezahlt, die nie geschrieben wurden, aber als Puffer reserviert waren.

Seit ich max_tokens: 2000 setze, sehe ich keinen Funktionsverlust. Aber 20% niedrigere Output Token Kosten. Für die meisten Antworten reichen 1.000-2.000 Tokens. Ohne Limit neigen Modelle zu ausschweifenden Antworten.

System Prompt Anweisungen.

Das klingt nach Voodoo, aber es funktioniert tatsächlich. Ich habe meinem System Prompt hinzugefügt: "Antworte präzise und knapp. Vermeide Wiederholungen und unnötige Erklärungen."

Ergebnis nach 50 Anfragen: Durchschnittliche Antwortlänge von 920 Tokens auf 680 Tokens gesunken. Das sind 26% weniger Output Tokens, nur durch einen Satz im System Prompt. Das klingt simpel, reduziert aber die durchschnittliche Antwortlänge merklich.

Structured Output.

Wenn du maschinenlesbare Ergebnisse brauchst, fordere JSON oder ein spezifisches Format an. Modelle sind in strukturierten Formaten deutlich kürzer als in Freitext. Ich habe das für Monitoring Outputs getestet: JSON Format war 40% kürzer als Freitext-Beschreibung mit den gleichen Informationen.

Skill Management: Weniger ist mehr

Skill Management ist eine unterschätzte Möglichkeit, OpenClaw Token Kosten zu senken. Jeder aktive Skill in OpenClaw vergrößert deinen System Prompt. Das sind zusätzliche Tokens bei jedem einzelnen Request.

Wenn du 20 Skills geladen hast, aber nur drei davon regelmäßig nutzt, zahlst du für die anderen 17 bei jeder Nachricht mit. In meiner letzten Audit hatte ich 18 Skills aktiv, aber nur 5 davon wurden in den letzten 30 Tagen tatsächlich verwendet. 13 Skills einfach deaktiviert, 3.200 Tokens pro Request gespart.

Gehe deine aktiven Skills durch und deaktiviere alles, was du nicht in der aktuellen Session brauchst. Du kannst Skills jederzeit wieder aktivieren, wenn du sie tatsächlich benötigst. Denk daran: Jeder Skill, den du nicht brauchst, kostet dich bei jedem Request Geld.

Compaction richtig konfigurieren

Compaction ist eine native OpenClaw Funktion, die hilft, Token Kosten zu senken. Das Framework kann ältere Gesprächsteile automatisch zusammenfassen (compactieren). Factory.ai's Forschung zeigt, dass strukturierte Zusammenfassungen deutlich mehr nützliche Information behalten als simple Truncation.

Ich hatte das anfangs deaktiviert, weil ich dachte "Ich will den vollen Kontext." Dummer Fehler. Seit ich Compaction aktiviert habe (config: compactionStrategy: "structured"), sehe ich keinen Qualitätsverlust, aber 20-30% weniger Token pro Request.

Aktiviere Compaction und stelle sicher, dass strukturierte Summarization genutzt wird, nicht einfaches Abschneiden. Der /compact Befehl löst eine manuelle Compaction aus, was vor komplexen Aufgaben sinnvoll sein kann: Erst den Verlauf verdichten, dann die neue Aufgabe starten.

In der Praxis: Compaction fasst Nachrichten zusammen, die älter als X sind. Du behältst den Kontext ("wir haben über Y gesprochen"), verlierst aber die wörtliche Formulierung. Für die meisten Use Cases reicht das vollkommen.

Token Monitoring: OpenClaw Kosten messen und senken

Token Monitoring ist entscheidend, wenn du OpenClaw Token Kosten senken willst. Ich habe erst nach zwei Monaten angefangen, regelmäßig die eingebauten Monitoring Befehle zu nutzen. Großer Fehler.

Seit ich jeden Montag morgen (erster Kaffee, /context detail) nachschaue, wo die Tokens tatsächlich hingehen, habe ich drei Mal überraschende Kostentreiber gefunden:

  • Einmal waren es 15.000 Tokens Workspace Files, die ich vor Wochen geladen und nie wieder gebraucht hatte

  • Einmal ein Tool Output von einem Web Scraping Job (180.000 Zeichen JSON), der im Verlauf gespeichert war

  • Einmal hatte ich vergessen, eine Test Session mit Debug Logging zu beenden (12 Stunden Runtime, 90.000 Tokens Logs)

Nutze regelmäßig die eingebauten Befehle:

/status zeigt den aktuellen Token Verbrauch der Session (gut für den Überblick).

/usage zeigt geschätzte Kosten (wichtig fürs Budget Tracking).

/context detail ist der wichtigste Befehl: Er zeigt genau, woher die Tokens kommen. Oft sind es Tool Outputs oder Workspace Files, die du nicht erwartet hast. Aber /context detail zeigt dir, WO das Geld hingeht.

Mache es dir zur Routine, einmal pro Woche /context detail auszuführen. Du wirst überrascht sein, wo die Tokens tatsächlich hingehen. Was du nicht misst, kannst du nicht verbessern.

Optimierung gestapelt: Der Compound Effekt

Die Techniken funktionieren nicht isoliert. Sie multiplizieren sich. Bei AI Agent Tokenverbrauch funktionieren Optimierungen nicht isoliert, sie stapeln sich.

Beispiel-Rechnung für einen typischen Nutzer mit $150 monatlichen Kosten:

  1. Session Resets (40% Reduktion) = $90 übrig

    • Vorher: 50.000 Tokens durchschnittlicher Verlauf
    • Nachher: 12.000 Tokens (nur aktuelle Task)
  2. Model Switching auf Haiku für 90% der Tasks (50% Reduktion auf Rest) = $45 übrig

    • 90% der Requests: $3/Million → $1/Million
    • Effektive Ersparnis auf diese 90%: 67%
  3. Prompt Caching (weitere 50% Reduktion auf System Prompt Kosten) = $30-35 übrig

    • System Prompt: 15.000 Tokens × alle Requests
    • Cache Read: 90% günstiger

Das deckt sich ziemlich genau mit der dokumentierten 77% Reduktion aus der APIYI Case Study. Kein Zufall. Wenn du systematisch OpenClaw Token Kosten senken willst, ist die Kombination dieser Techniken der Schlüssel. Die Techniken greifen an verschiedenen Stellen an und der Effekt akkumuliert sich.

Noch ein Punkt, der oft übersehen wird: Die Reihenfolge spielt eine Rolle. Fang mit Session Resets an (größter Impact, keine Konfiguration nötig). Dann Model Selection (erfordert Testing, aber klarer ROI). Dann Prompt Caching (technischer, aber maximaler ROI bei großen System Prompts).

Was ClawHosters anders macht

Bei ClawHosters Managed Hosting konfigurieren wir diese Optimierungen vor, bevor deine Instanz überhaupt live geht. Context Limits, Compaction Settings, Cache Konfiguration. Das sind Entscheidungen, die du nicht bei jedem Deploy neu treffen solltest.

Unsere vorkonfigurierte OpenClaw Instanzen kommen mit optimierten Token Settings, die auf Basis echter Produktionsdaten entwickelt wurden. Wenn du keine Lust hast, dich durch Konfigurationsdateien zu arbeiten, aber trotzdem keine $150 monatlich für API Kosten ausgeben willst: Dafür gibt es Managed Hosting.

Alle Techniken in diesem Guide nutzen wir bei ClawHosters standardmäßig. Model Routing auf Haiku/Sonnet/Opus nach Task-Typ, Prompt Caching mit optimierten Heartbeat Intervallen, Context Limits basierend auf Use Case. Diese OpenClaw Optimierung ist Teil des Service, nicht ein Extra, für das du extra bezahlst.

Häufig gestellte Fragen

Zwischen 60% und 77% sind mit den hier beschriebenen Techniken realistisch. Die APIYI Community Case Study dokumentiert 77% Reduktion von $150 auf $35. Der wichtigste Einzelfaktor sind regelmäßige Session Resets (40-60% allein), gefolgt von intelligentem Model Switching (weitere 50% auf den Rest). In meinen eigenen Tests mit ClawHosters Produktionsinstanzen sehe ich konsistent 65-75% Reduktion, wenn alle Techniken kombiniert werden.

Kommt drauf an, was du machst. Ich nutze Haiku für 90% meiner Anfragen (Dateisuche, Formatierung, "Was steht in dieser Config?"), und ehrlich gesagt merke ich den Unterschied zu Sonnet nicht. Bei Code Reviews oder Architekturfragen? Da nehme ich Sonnet. Bei "Soll ich dieses Framework verwenden?" nehme ich Opus. Aber das sind vielleicht 10 Anfragen pro Woche. Für typische OpenClaw Aufgaben (Dateisuche, Formatierung, einfache Q&A) liefern günstigere Modelle vergleichbare Ergebnisse. Qualitätsun...

Prompt Caching speichert den statischen Teil deiner Anfragen (System Prompt, Tool Definitionen) und verwendet ihn bei Folgeanfragen wieder. Bei Anthropic ist es nativ in der API integriert, kein extra Setup nötig. Cache Reads kosten nur 10% des normalen Input Preises. Besonders effektiv bei großen, stabilen System Prompts. In der Praxis: Dein erster Request schreibt den Cache (kostet 1.25x normal). Alle folgenden Requests lesen aus dem Cache (kosten 0.1x normal). Bei 20 Requests mit gleichem ...

Der Befehl `/context detail` in OpenClaw zeigt die genaue Token Verteilung: System Prompt, Gesprächsverlauf, Tool Outputs, Workspace Files. Starte dort. In den meisten Fällen sind es angewachsener Gesprächsverlauf (40-60% der Tokens) und gespeicherte Tool Outputs (20-30%). Workspace Files und System Prompt machen meist 10-15% aus. Ich empfehle, `/context detail` einmal pro Woche auszuführen. Du wirst überraschende Kostentreiber finden: Vergessene Workspace Files, riesige Tool Outputs von alte...

Nein. Fang mit den Quick Wins an: Session Resets und Context Window Begrenzung. Das dauert 15 Minuten und bringt 40-60% Reduktion. Model Switching und Prompt Caching sind der nächste Schritt (erfordern mehr Testing und Konfiguration, aber bringen weitere 30-40% Reduktion). Und Monitoring sollte von Anfang an dabei sein, damit du den Effekt deiner Änderungen auch messen kannst. Die Reihenfolge, die ich empfehle: 1. Session Resets (sofort), 2. Monitoring einrichten (1x pro Woche `/context detai...

Quellen

  1. 1 ClawHosters
  2. 2 APIYI Community Case Study
  3. 3 OpenClaw zählt alles als Tokens
  4. 4 OpenClaw Context Docs
  5. 5 Laut Silicon Data
  6. 6 Anthropic's offizieller Preisliste
  7. 7 OpenAI
  8. 8 Prompt Caching Feature
  9. 9 Ein Entwickler auf Medium
  10. 10 Factory.ai's Forschung