Wie aktiviere ich den OpenClaw Voice Mode auf Discord?

Stelle sicher, dass Native Commands in deiner Config aktiviert sind (`commands.native: auto`), dann nutze `/vc join` in einem Discord Voice Channel. Der Agent tritt bei, hört per VAD zu und antwortet per TTS. Auf ClawHosters übernimmt das Voice Add-on die Provider-Konfiguration automatisch.

Funktioniert der OpenClaw Voice Mode auf Telegram?

Ja. Telegram unterstützt bidirektionale Sprache direkt. Nutzer senden Sprachnachricht-Anhänge, OpenClaw transkribiert sie und antwortet als runde Voice-Note-Bubbles im Opus-Format. Details findest du in der Telegram-Setup-Dokumentation.

Kann ich den OpenClaw Voice Mode komplett kostenlos nutzen?

Ja, das geht. Nutze lokales Whisper für STT und Edge TTS oder Kokoro für TTS. Keine API-Keys, keine Minutenkosten. Der Trade-off: höhere Latenz und Hardware, die das Whisper-Modell betreiben kann. Für die meisten ist das managed Voice Add-on ab EUR 2/Monat einfacher.

Was ist der Unterschied zwischen Talk Mode und Discord Voice?

Discord Voice ist für Gruppeneinstellungen. Der Agent tritt einem gemeinsamen Channel serverseitig bei. Talk Mode ist für persönliche Einzelgespräche. Dafür brauchst du ein lokales "Node"-Gerät (Handy, Laptop) mit Mikrofon und Lautsprecher, während das Gateway auf dem Server läuft.

Welchen STT-Anbieter sollte ich für Echtzeitgespräche wählen?

Deepgram Streaming. Kostet etwas mehr als Whisper ($0,0077 vs. $0,006 pro Minute), liefert aber ungefähr eine Sekunde weniger Latenz. In einem Live-Gespräch ist dieser Unterschied spürbar. Für asynchrone Sprachnachrichten reicht Standard-Whisper aus. *Zuletzt aktualisiert: Februar 2026*

OpenClaw Voice Mode: Sprache für deinen KI-Agenten

Stell dir vor: 15 Leute sitzen im Discord Voice Channel, mitten im Raid, und jemand fragt "wie lang ist der Cooldown auf der Fähigkeit?" Niemand will Alt-Tab drücken und tippen. Dein OpenClaw Agent springt rein, hört zu und antwortet laut. Genau das macht der openclaw voice mode.

Seit v2026.2.21 kann OpenClaw nativ Discord Voice Channels nutzen. Aber Discord ist nur ein Teil. Sprache funktioniert auch über Telegram, WhatsApp und sogar als Standalone-Assistent auf deinem Handy.

Wie die Sprach-Schleife funktioniert

Der openclaw voice mode läuft über fünf Schritte. Das Ganze geht schnell genug, dass sich Gespräche natürlich anfühlen.

Schritt 1: Voice Activity Detection (VAD) erkennt, wann jemand spricht. Hintergrundgeräusche werden gefiltert, damit dein Agent nicht versucht, deine mechanische Tastatur zu transkribieren.

Schritt 2: Das Audio geht an einen Speech-to-Text Provider. OpenAI Whisper, Deepgram Streaming oder ein lokales Whisper-Modell auf eigener Hardware.

Schritt 3: Das Transkript landet beim LLM deines Agenten. Gleiches Gehirn, anderer Eingangskanal.

Schritt 4: Die Antwort des LLM wird per Text-to-Speech in Audio umgewandelt. ElevenLabs, OpenAI TTS, Edge TTS (kostenlos) oder Kokoro (kostenlos, lokal).

Schritt 5: Barge-in. Wenn ein Nutzer anfängt zu reden, während der Agent noch spricht, stoppt der Agent sofort. Das unterscheidet einen echten Gesprächspartner von einem Roboter, der einen Absatz vorliest.

Der gesamte Zyklus dauert je nach Provider-Kombination etwa zwei bis vier Sekunden.

Discord Voice Channels

Der /vc-Befehl kam mit v2026.2.21. Dein Agent kann einem Voice Channel beitreten, ihn verlassen und den Status abfragen.

Die Discord-Voice Skill-Dokumentation empfiehlt Deepgram Streaming für ungefähr eine Sekunde weniger Latenz im Vergleich zu Batch-Transkription. In einem echten Gespräch ist diese eine Sekunde der Unterschied zwischen "flüssig" und "seltsam".

Ein Punkt, den du im Auge behalten solltest: Native Commands müssen in deiner Config aktiviert sein (commands.native: auto oder enable). Wenn /vc nicht auftaucht, liegt es wahrscheinlich daran.

Und setz messages.tts.auto nicht auf always. Klingt erstmal nach einer guten Idee, bis dein Agent versucht, einen 47-zeiligen Codeblock vorzulesen. Fang mit inbound an. Das bedeutet, der Agent spricht nur dann, wenn der Nutzer zuerst per Sprache kommuniziert hat.

Talk Mode vs. Discord Voice

Zwei Modi, zwei Anwendungsfälle.

Discord Voice ist für Communities. Der Agent tritt einem gemeinsamen Channel bei und nimmt neben allen anderen teil. Läuft komplett serverseitig.

Talk Mode ist für die persönliche Nutzung. Du betreibst einen "Node" auf deinem Handy oder Laptop (das Gerät mit Mikrofon und Lautsprecher), während das Gateway auf dem Server bleibt. Ein privates, bidirektionales Gespräch. Eher Sprachassistent als Gruppenchat.

Wenn dein Agent Fragen im Discord-Server beantworten soll, nimm den Discord Voice Skill. Wenn du beim Kochen freihändig mit deinem Agenten reden willst, ist Talk Mode auf dem Handy das Richtige.

STT-Anbieter: Was sie kosten

Anbieter	Kosten	Latenz	Hinweise
OpenAI Whisper	$0,006/Min	Mittel	Pauschale, keine Mengenrabatte
Deepgram Streaming	$0,0077/Min	Niedrig (~1s schneller)	$200 Startguthaben bei Anmeldung
Local Whisper	Kostenlos	Höher (2-5x Cloud)	Braucht leistungsfähige Hardware, komplett offline

Deepgram kostet etwas mehr pro Minute, aber der Latenz-Unterschied zählt bei Gesprächen in Echtzeit. Für Batch-Verarbeitung oder asynchrone Sprachnachrichten auf Telegram reicht Whisper wahrscheinlich aus.

TTS-Anbieter: Was sie kosten

Anbieter	Kosten	Qualität	Hinweise
ElevenLabs	~$0,24/1K Zeichen (Pro-Überschreitung)	Hoch	Natürlichste Stimmen, 1 Mio. Zeichen im $99/Mo-Paket
OpenAI TTS-1	$15/1 Mio. Zeichen	Gut	Sechs Stimmoptionen, zuverlässig
Edge TTS	Kostenlos	Ordentlich	Microsoft Neural Voices, kein API-Key nötig
Kokoro	Kostenlos	Gut	Nur lokal, keine Netzwerkabhängigkeit

Ein Community-Build namens Jupiter Voice kombiniert lokales Whisper mit Kokoro für eine komplett offline Voice-Pipeline. Null API-Kosten, null Netzwerkabhängigkeit. Gute Option, wenn Datenschutz Priorität hat.

Das ClawHosters Voice Add-on

Wenn dir das Verwalten von API-Keys und Provider-Configs zu aufwendig ist: Das ClawHosters Voice Add-on bündelt alles in einem Abo.

Plan	Monatliche Kosten	Was du bekommst
Starter	EUR 2/Mo	Basis-Sprachminuten
Standard	EUR 8/Mo	Mehr Minuten für aktive Nutzung
Pro	EUR 25/Mo	Hohes Sprachvolumen

Keine separaten Deepgram- oder ElevenLabs-Accounts. Keine API-Keys konfigurieren. Die Nutzung wird in Verarbeitungsminuten erfasst und deckt STT und TTS ab. Wenn du bereits auf ClawHosters bist, ist das der schnellste Weg zu Voice. Du kannst eine kostenlose Testphase starten und Voice später hinzufügen.

Wer die Token-Kosten insgesamt besser verstehen möchte, findet dazu einen separaten Beitrag.

OpenClaw Voice Mode: So gibst du deinem KI-Agenten eine Stimme

Wie die Sprach-Schleife funktioniert

Discord Voice Channels

Talk Mode vs. Discord Voice

STT-Anbieter: Was sie kosten

TTS-Anbieter: Was sie kosten

Das ClawHosters Voice Add-on

Häufig gestellte Fragen

Quellen

OpenClaw vs NanoClaw vs ZeroClaw: Welches Open-Source KI-Agent Framework passt zu dir 2026

OpenClaw Talk Mode: Sprache einrichten mit ElevenLabs, Whisper und Echtzeit-Audio

OpenClaw Tailscale einrichten: Sicherer Fernzugriff ohne Port Forwarding

ClawHosters Demo

Wie die Sprach-Schleife funktioniert

Discord Voice Channels

Talk Mode vs. Discord Voice

STT-Anbieter: Was sie kosten

TTS-Anbieter: Was sie kosten

Das ClawHosters Voice Add-on

Häufig gestellte Fragen

Quellen

OpenClaw vs NanoClaw vs ZeroClaw: Welches Open-Source KI-Agent Framework passt zu dir 2026

OpenClaw Talk Mode: Sprache einrichten mit ElevenLabs, Whisper und Echtzeit-Audio

OpenClaw Tailscale einrichten: Sicherer Fernzugriff ohne Port Forwarding

Cookie-Hinweis

ClawHosters Demo