Keine API-Kosten. Deine Daten verlassen nie deinen Rechner. Und seit Ollama 0.17 im Februar 2026 erschienen ist, reicht ein einziger Befehl für das komplette Setup. So lautet das Versprechen von OpenClaw mit einem lokalen LLM. Und es stimmt auch. Größtenteils.
Es gibt zwei Stolperfallen, die dir einen ganzen Nachmittag kosten, wenn dich niemand vorwarnt.
Ein Befehl, fertig
Ollama 0.17 brachte native OpenClaw-Unterstützung. Wenn du Ollama bereits installiert hast, ist das hier alles:
ollama launch openclaw --model qwen3-coder:32b
Der Befehl lädt das Modell herunter, konfiguriert die Verbindung und startet OpenClaw mit deiner lokalen Ollama-Instanz. Kein API Key. Kein Account. Keine Cloud.
Wer mehr Kontrolle braucht, findet in der Ollama-Integrationsdokumentation die manuelle Konfiguration mit JSON-Dateien und Docker-Setups.
Das richtige Modell wählen
Nicht jedes Modell in der Ollama-Bibliothek funktioniert mit OpenClaw. Der Grund? Tool Calling. OpenClaw-Agents chatten nicht nur. Sie lesen Dateien, führen Shell-Befehle aus und rufen APIs auf. Modelle ohne zuverlässiges Tool Calling machen aus deinem Agent einen Chatbot, der nichts kann.
Was tatsächlich funktioniert, laut Community-Benchmarks von clawctl:
| VRAM | Modell | Was du erwarten kannst |
|---|---|---|
| 8 GB | qwen3:8b | Kaum brauchbar. Nur einfache Aufgaben. |
| 16 GB | qwen2.5-coder:14b | Solide für Routinearbeit |
| 24 GB | qwen3-coder:32b | Der Sweet Spot. Empfehlung. |
| 48 GB+ | llama3.3:70b | Fast wie Cloud-Qualität |
| Mac 32 GB unified | qwen3-coder:32b | Läuft hervorragend auf Apple Silicon |
Die 8B-Modelle kannst du dir sparen, es sei denn du möchtest nur kurz reinschnuppern. Fang bei 14B an. Und wenn du 32B laufen lassen kannst, tu es.
Stolperfalle Nr. 1: Das Context Window
Diese Falle erwischt fast jeden.
Ollama verwendet standardmäßig ein Context Window von 4.096 Tokens. OpenClaw braucht mindestens 16.000, und die offizielle Dokumentation empfiehlt 64.000. Ohne Anpassung verliert dein Agent still und leise seinen Kontext. Er sieht aus als würde er funktionieren, antwortet auf deine Nachrichten, hat aber keine Erinnerung an das, was vor zehn Minuten passiert ist.
Der Fix: Erstelle ein Modelfile.
FROM qwen3-coder:32b
PARAMETER num_ctx 32768
Dann baust du es:
ollama create qwen3-coder-32k -f Modelfile
Alternativ kannst du die native Ollama-API ("api": "ollama") verwenden statt des OpenAI-kompatiblen Endpunkts. Die native API verarbeitet Context-Einstellungen korrekt. Der OpenAI-kompatible Endpunkt unter /v1 hat dokumentierte Probleme mit Context-Truncation.
Stolperfalle Nr. 2: Tool Calls verschwinden
OpenClaw sendet standardmäßig stream: true an alle Modelle. Die Streaming-Implementierung von Ollama gibt Tool-Call-Chunks nicht korrekt zurück. Das Modell entscheidet sich also, eine Datei zu lesen oder einen Befehl auszuführen, aber diese Entscheidung verschwindet einfach. Du bekommst eine Textantwort und nichts passiert.
Neuere OpenClaw-Versionen erkennen Ollama automatisch und deaktivieren Streaming für Tool Calls. Bei älteren Versionen hilft diese Ergänzung in der Modell-Config:
"params": { "streaming": false }
Problem gelöst. In GitHub Issue #5769 findest du die technischen Details, warum Streaming und Tool Calling bei Ollama nicht zusammenspielen.
Performance: Was du realistisch erwarten kannst
Eine RTX 4090 mit einem 32B-Modell erzeugt etwa 55 Tokens pro Sekunde. Ein Mac M3 Max mit 32 GB Unified Memory schafft rund 35 Tokens pro Sekunde, gemäß unabhängiger Benchmarks von Till Freitag. Das reicht für die meisten Agent-Aufgaben aus, ist aber spürbar langsamer als Cloud-Modelle bei langen, komplexen Operationen.
Ab wann rechnet sich die Hardware gegenüber Cloud-API-Kosten? Irgendwo zwischen 7 und 15 Monaten, je nach Setup und Nutzung. Wenn du intensiv mit Agents arbeitest, lohnt sich lokal. Nutzt du OpenClaw nur ein paar Mal pro Woche, sind Cloud-APIs über kostenlose LLM-Tiers oder ein Managed Host wahrscheinlich günstiger.
Der hybride Ansatz
Das klügste Setup, das ich bisher gesehen habe? Lokal für die 80 % der Aufgaben, die Routine sind. Cloud für die 20 %, die echtes Reasoning brauchen. OpenClaw unterstützt Model-Routing in der Config:
{
"model": {
"primary": "ollama/qwen3-coder:32b",
"fallbacks": ["anthropic/claude-sonnet-4-20250514"]
}
}
Eine Analyse von LaoZhang AI zeigt, dass dieser hybride Ansatz die Kosten um 55 bis 67 % senkt im Vergleich zu reiner Cloud-Nutzung. Das ist echtes Geld, wenn du viel mit Agents arbeitest.
Weitere Tipps zum Sparen findest du in unserem Token-Kosten-Optimierung Guide.
Oder einfach überspringen
All das setzt voraus, dass du Modelle selbst verwalten, Context Windows konfigurieren und Tool-Calling-Probleme debuggen möchtest. Manche Leute machen das gern. Andere möchten, dass ihr KI-Agent einfach funktioniert.
Genau dafür gibt es ClawHosters. Wir kümmern uns um Hosting, Modellauswahl und Konfiguration. Preise starten ab 19 $/Monat. Keine eigene Hardware nötig, kein Context-Window-Debugging, und du kannst jederzeit deine eigene Ollama-Instanz anbinden, wenn du den hybriden Ansatz möchtest. Schau dir den Self-Hosted vs Managed Vergleich an, wenn du die Optionen abwägst.