Abo -30% SUB30
OpenClaw + Ollama: Dein KI-Agent mit kostenlosen lokalen LLMs
$ ./blog/guides
Anleitungen

OpenClaw + Ollama: Dein KI-Agent mit kostenlosen lokalen LLMs

ClawHosters
ClawHosters von Daniel Samer
6 Min. Lesezeit

Keine API-Kosten. Deine Daten verlassen nie deinen Rechner. Und seit Ollama 0.17 im Februar 2026 erschienen ist, reicht ein einziger Befehl für das komplette Setup. So lautet das Versprechen von OpenClaw mit einem lokalen LLM. Und es stimmt auch. Größtenteils.

Es gibt zwei Stolperfallen, die dir einen ganzen Nachmittag kosten, wenn dich niemand vorwarnt.

Ein Befehl, fertig

Ollama 0.17 brachte native OpenClaw-Unterstützung. Wenn du Ollama bereits installiert hast, ist das hier alles:

ollama launch openclaw --model qwen3-coder:32b

Der Befehl lädt das Modell herunter, konfiguriert die Verbindung und startet OpenClaw mit deiner lokalen Ollama-Instanz. Kein API Key. Kein Account. Keine Cloud.

Wer mehr Kontrolle braucht, findet in der Ollama-Integrationsdokumentation die manuelle Konfiguration mit JSON-Dateien und Docker-Setups.

Das richtige Modell wählen

Nicht jedes Modell in der Ollama-Bibliothek funktioniert mit OpenClaw. Der Grund? Tool Calling. OpenClaw-Agents chatten nicht nur. Sie lesen Dateien, führen Shell-Befehle aus und rufen APIs auf. Modelle ohne zuverlässiges Tool Calling machen aus deinem Agent einen Chatbot, der nichts kann.

Was tatsächlich funktioniert, laut Community-Benchmarks von clawctl:

VRAM Modell Was du erwarten kannst
8 GB qwen3:8b Kaum brauchbar. Nur einfache Aufgaben.
16 GB qwen2.5-coder:14b Solide für Routinearbeit
24 GB qwen3-coder:32b Der Sweet Spot. Empfehlung.
48 GB+ llama3.3:70b Fast wie Cloud-Qualität
Mac 32 GB unified qwen3-coder:32b Läuft hervorragend auf Apple Silicon

Die 8B-Modelle kannst du dir sparen, es sei denn du möchtest nur kurz reinschnuppern. Fang bei 14B an. Und wenn du 32B laufen lassen kannst, tu es.

Stolperfalle Nr. 1: Das Context Window

Diese Falle erwischt fast jeden.

Ollama verwendet standardmäßig ein Context Window von 4.096 Tokens. OpenClaw braucht mindestens 16.000, und die offizielle Dokumentation empfiehlt 64.000. Ohne Anpassung verliert dein Agent still und leise seinen Kontext. Er sieht aus als würde er funktionieren, antwortet auf deine Nachrichten, hat aber keine Erinnerung an das, was vor zehn Minuten passiert ist.

Der Fix: Erstelle ein Modelfile.

FROM qwen3-coder:32b
PARAMETER num_ctx 32768

Dann baust du es:

ollama create qwen3-coder-32k -f Modelfile

Alternativ kannst du die native Ollama-API ("api": "ollama") verwenden statt des OpenAI-kompatiblen Endpunkts. Die native API verarbeitet Context-Einstellungen korrekt. Der OpenAI-kompatible Endpunkt unter /v1 hat dokumentierte Probleme mit Context-Truncation.

Stolperfalle Nr. 2: Tool Calls verschwinden

OpenClaw sendet standardmäßig stream: true an alle Modelle. Die Streaming-Implementierung von Ollama gibt Tool-Call-Chunks nicht korrekt zurück. Das Modell entscheidet sich also, eine Datei zu lesen oder einen Befehl auszuführen, aber diese Entscheidung verschwindet einfach. Du bekommst eine Textantwort und nichts passiert.

Neuere OpenClaw-Versionen erkennen Ollama automatisch und deaktivieren Streaming für Tool Calls. Bei älteren Versionen hilft diese Ergänzung in der Modell-Config:

"params": { "streaming": false }

Problem gelöst. In GitHub Issue #5769 findest du die technischen Details, warum Streaming und Tool Calling bei Ollama nicht zusammenspielen.

Performance: Was du realistisch erwarten kannst

Eine RTX 4090 mit einem 32B-Modell erzeugt etwa 55 Tokens pro Sekunde. Ein Mac M3 Max mit 32 GB Unified Memory schafft rund 35 Tokens pro Sekunde, gemäß unabhängiger Benchmarks von Till Freitag. Das reicht für die meisten Agent-Aufgaben aus, ist aber spürbar langsamer als Cloud-Modelle bei langen, komplexen Operationen.

Ab wann rechnet sich die Hardware gegenüber Cloud-API-Kosten? Irgendwo zwischen 7 und 15 Monaten, je nach Setup und Nutzung. Wenn du intensiv mit Agents arbeitest, lohnt sich lokal. Nutzt du OpenClaw nur ein paar Mal pro Woche, sind Cloud-APIs über kostenlose LLM-Tiers oder ein Managed Host wahrscheinlich günstiger.

Der hybride Ansatz

Das klügste Setup, das ich bisher gesehen habe? Lokal für die 80 % der Aufgaben, die Routine sind. Cloud für die 20 %, die echtes Reasoning brauchen. OpenClaw unterstützt Model-Routing in der Config:

{
  "model": {
    "primary": "ollama/qwen3-coder:32b",
    "fallbacks": ["anthropic/claude-sonnet-4-20250514"]
  }
}

Eine Analyse von LaoZhang AI zeigt, dass dieser hybride Ansatz die Kosten um 55 bis 67 % senkt im Vergleich zu reiner Cloud-Nutzung. Das ist echtes Geld, wenn du viel mit Agents arbeitest.

Weitere Tipps zum Sparen findest du in unserem Token-Kosten-Optimierung Guide.

Oder einfach überspringen

All das setzt voraus, dass du Modelle selbst verwalten, Context Windows konfigurieren und Tool-Calling-Probleme debuggen möchtest. Manche Leute machen das gern. Andere möchten, dass ihr KI-Agent einfach funktioniert.

Genau dafür gibt es ClawHosters. Wir kümmern uns um Hosting, Modellauswahl und Konfiguration. Preise starten ab 19 $/Monat. Keine eigene Hardware nötig, kein Context-Window-Debugging, und du kannst jederzeit deine eigene Ollama-Instanz anbinden, wenn du den hybriden Ansatz möchtest. Schau dir den Self-Hosted vs Managed Vergleich an, wenn du die Optionen abwägst.

Häufig gestellte Fragen

Ja. Ollama ist kostenlos, OpenClaw ist Open Source, und lokale Modelle haben keine Token-Gebühren. Deine einzigen Kosten sind die Hardware, die du bereits besitzt. Der Befehl `ollama launch openclaw` erledigt das komplette Setup.

qwen3-coder:32b, wenn du 24 GB+ VRAM oder 32 GB Unified Memory auf einem Mac hast. Das Modell liefert zuverlässiges Tool Calling und erreicht etwa 92 % auf dem HumanEval-Benchmark. Bei weniger Hardware ist qwen2.5-coder:14b das Minimum, das ich empfehlen würde.

Ollama verwendet standardmäßig ein Context Window von 4.096 Tokens. OpenClaw braucht mindestens 16.000 Tokens. Erstelle ein Modelfile mit `PARAMETER num_ctx 32768` oder wechsle zur nativen Ollama-API (`"api": "ollama"`) statt des OpenAI-kompatiblen Endpunkts.

Für Routineaufgaben wie Dateioperationen, Nachrichtenverarbeitung und einfaches Coding sind 32B-Modelle erstaunlich leistungsfähig. Für komplexes Reasoning, mehrstufiges Debugging oder Architekturentscheidungen gewinnen Cloud-Modelle nach wie vor. Der hybride Ansatz gibt dir beides.

8 GB ist das absolute Minimum (mit einem 8B-Modell), aber du bekommst kein zuverlässiges Tool Calling. Ab 24 GB wird es mit 32B-Modellen wirklich brauchbar. Mac-Nutzer mit 32 GB Unified Memory sind in einer hervorragenden Position, weil Apple Silicon diese Modelle besonders effizient verarbeitet.
*Zuletzt aktualisiert: März 2026*

Quellen

  1. 1 Ollama-Integrationsdokumentation
  2. 2 Community-Benchmarks von clawctl
  3. 3 dokumentierte Probleme mit Context-Truncation
  4. 4 GitHub Issue #5769
  5. 5 unabhängiger Benchmarks von Till Freitag
  6. 6 kostenlose LLM-Tiers
  7. 7 Analyse von LaoZhang AI
  8. 8 Token-Kosten-Optimierung Guide
  9. 9 ClawHosters
  10. 10 Self-Hosted vs Managed Vergleich