Abo -30% SUB30
OpenClaw RAG Wissensdatenbank: Dein KI-Agent als Suchmaschine für eigene Dokumente
$ ./blog/guides
Anleitungen

OpenClaw RAG Wissensdatenbank: Dein KI-Agent als Suchmaschine für eigene Dokumente

ClawHosters
ClawHosters von Daniel Samer
5 Min. Lesezeit

KI-Agenten wissen viel über die Welt. Über deine Firma wissen sie nichts. Nicht die Rückgaberichtlinie, nicht die API-Dokumentation, nicht was im Meeting letzte Woche beschlossen wurde. Genau diese Lücke schließt Retrieval Augmented Generation.

OpenClaw hat eine eingebaute Knowledge-Skill, die deinen Agenten in eine Suchmaschine für deine eigenen Dokumente verwandelt. Dateien hochladen, Fragen stellen, Antworten mit Quellenangabe bekommen. Kein externer Vector-Store nötig. Kein Infrastruktur-Aufwand. Dieses RAG Tutorial zeigt dir, wie du das einrichtest.

Was RAG in OpenClaw konkret macht

RAG steht für Retrieval Augmented Generation. In der Praxis heißt das: Dein Agent durchsucht zuerst deine Dokumente, bevor er eine Antwort generiert.

Ohne RAG fragst du "Wie lang ist unsere Rückgabefrist?" und der Agent rät auf Basis allgemeiner Trainingsdaten. Mit aktivierter OpenClaw Knowledge Base durchsucht er deine hochgeladenen Dokumente, findet den Absatz über Rückgaben, zitiert ihn und nennt dir die Quelldatei.

Der Unterschied ist enorm. Statt "wahrscheinlich 30 Tage" bekommst du "14 Tage gemäß Abschnitt 3.2 deiner AGB, hochgeladen am 8. März." Mit Quellenangabe.

Knowledge Skill einrichten

Die Knowledge-Skill in OpenClaw arbeitet mit Workspace-Dateien. Du legst Dokumente in einen Ordner, der Agent indexiert sie, und sie werden durchsuchbar. Hier ist die Konfiguration.

In deiner openclaw.json aktivierst du die Knowledge-Skill:

{
  "skills": {
    "knowledge": {
      "enabled": true,
      "workspacePath": "./knowledge",
      "chunkSize": 512,
      "chunkOverlap": 64,
      "citeSources": true
    }
  }
}

Dann erstellst du das Verzeichnis knowledge/ in deinem Workspace und legst Dateien ab. Unterstützte Formate: .md, .txt, .pdf, .csv und .json. Der Agent indexiert neu beim Neustart oder wenn du openclaw knowledge reindex ausführst.

Das war es schon. Kein Vector-Store aufsetzen. Kein Embeddings-API-Key konfigurieren (OpenClaw erledigt das intern). Die Indexierung läuft lokal auf deiner Instanz.

Was du einspeisen solltest

Die Wissensdatenbank funktioniert am besten mit strukturierten, faktischen Inhalten. Referenzmaterial, keine Gedankenströme.

Gute Kandidaten:

  • Produktdokumentation und API-Referenzen

  • FAQ-Listen und Support-Playbooks

  • Meeting-Notizen mit Entscheidungen und Action Items

  • Obsidian- oder Notion-Exporte (als Markdown exportieren)

  • HR-Richtlinien, Onboarding-Dokumente, Compliance-Checklisten

  • Vertriebsmaterialien und Preislisten

Schlechte Kandidaten: unbearbeitete Chat-Logs, Video-Transkripte ohne Cleanup, riesige Datenbank-Dumps.

Ein praktischer Tipp. Teile große Dokumente in thematisch fokussierte Dateien auf, statt ein einzelnes 200-Seiten-PDF einzuspeisen. Der Chunking-Algorithmus arbeitet besser mit kleineren, gut strukturierten Inputs. Ein Ordner mit 40 Markdown-Dateien schlägt ein riesiges PDF. Jedes Mal.

So beantwortet der Agent Fragen

Wenn du deinem Agenten eine Frage stellst, führt die Knowledge-Skill eine Ähnlichkeitssuche über deine indexierten Dokumente aus. Sie zieht die relevantesten Chunks, fügt sie in den Prompt-Kontext ein und generiert eine Antwort mit Quellenangaben.

Du kannst das sofort nach der Indexierung testen:

Du: Wie ist das SLA für kritische Bugs?
Agent: Laut deiner support-tiers.md (Zeilen 45-52) haben
       kritische Bugs ein 4-Stunden-Antwort-SLA im Enterprise-Plan
       und ein 24-Stunden-Lösungsziel. Standard-Plan: 24 Stunden
       Antwortzeit, Lösung nach bestem Bemühen.

Das citeSources: true Flag in der Konfiguration sorgt dafür, dass der Agent die exakte Datei und Position referenziert. Du kannst es ausschalten, wenn du sauberere Antworten ohne Quellenangabe willst. Aber bei internen Wissensdatenbanken sind Quellenangaben genau das, was dafür sorgt, dass Leute dem Output tatsächlich vertrauen.

Warum das auf ClawHosters besser funktioniert

Du könntest das auch auf einem selbst verwalteten VPS einrichten. Aber dann verwaltest du auch: Speicherplatz für den Index, Backups damit die Wissensdatenbank nicht verloren geht wenn ein Server stirbt, und Updates wenn OpenClaw neue Verbesserungen am Retrieval veröffentlicht.

Auf ClawHosters bleiben deine Workspace-Dateien über Neustarts und Updates hinweg erhalten. Auto-Backups sichern dein Knowledge-Verzeichnis. Wenn OpenClaw eine neue Version mit besserem Chunking oder Retrieval veröffentlicht, wird deine Instanz automatisch aktualisiert. Du kümmerst dich nur um die Dokumente.

Wenn du die Optionen abwägst, hilft der Vergleich Self-Hosted vs. Managed bei der Entscheidung.

Und falls dich die Wahl des richtigen KI-Modells für deinen Agenten interessiert: Das gewählte Modell beeinflusst auch die Retrieval-Qualität. Größere Context Windows lassen den Agenten mehr Chunks gleichzeitig berücksichtigen, was bei komplexen Anfragen bessere Antworten liefert.

Nächste Schritte

Leg deine ersten Dokumente in den knowledge/-Ordner und probiere es aus. Starte mit etwas Kleinem. Vielleicht dein Produkt-FAQ oder ein einzelnes Runbook. Stelle Fragen, deren Antworten du kennst, und schau wie der Agent damit umgeht.

Wenn du noch keine OpenClaw-Instanz hast, kannst du auf ClawHosters deinen ersten Agenten deployen und die Knowledge-Skill in unter zwei Minuten laufen haben.

Häufig gestellte Fragen

Retrieval Augmented Generation (RAG) ist eine Technik, bei der dein OpenClaw-Agent deine hochgeladenen Dokumente durchsucht, bevor er eine Antwort generiert. Statt sich nur auf Trainingsdaten zu verlassen, zieht er relevante Passagen aus deinen Dateien und nennt die Quelle. Das macht Antworten überprüfbar.

OpenClaws Knowledge-Skill unterstützt Markdown (.md), Plaintext (.txt), PDF (.pdf), CSV (.csv) und JSON (.json). Für die besten Ergebnisse nutze gut strukturierte Markdown-Dateien, aufgeteilt in thematisch fokussierte Dokumente statt einer großen Datei.

Nein. OpenClaw übernimmt die Dokumenten-Indexierung intern. Du legst Dateien in das Knowledge-Verzeichnis deines Workspace, und die Skill indexiert sie ohne externe Vektordatenbank, Embeddings-API oder zusätzliche Infrastruktur.

Es gibt kein festes Dokumenten-Limit. Praktische Grenzen hängen vom Speicherplatz deiner Instanz und dem Context Window des Modells ab. Auf ClawHosters sorgen persistenter Speicher und Auto-Backups für die Infrastruktur-Seite. Für die meisten Anwendungsfälle funktionieren Hunderte von Dokumenten problemlos.

Ja. Exportiere deine Notion-Seiten oder dein Obsidian-Vault als Markdown-Dateien und lege sie in das Knowledge-Verzeichnis. Markdown ist das am besten unterstützte Format für die Knowledge-Skill. Bereinige nach dem Export eventuell defekte interne Links für bessere Ergebnisse.
*Zuletzt aktualisiert: März 2026*

Quellen

  1. 1 OpenClaw Knowledge Base
  2. 2 neue Verbesserungen am Retrieval
  3. 3 ClawHosters
  4. 4 Vergleich Self-Hosted vs. Managed
  5. 5 Wahl des richtigen KI-Modells
  6. 6 deinen ersten Agenten deployen