Stell dir vor: 15 Leute sitzen im Discord Voice Channel, mitten im Raid, und jemand fragt "wie lang ist der Cooldown auf der Fähigkeit?" Niemand will Alt-Tab drücken und tippen. Dein OpenClaw Agent springt rein, hört zu und antwortet laut. Genau das macht der openclaw voice mode.
Seit v2026.2.21 kann OpenClaw nativ Discord Voice Channels nutzen. Aber Discord ist nur ein Teil. Sprache funktioniert auch über Telegram, WhatsApp und sogar als Standalone-Assistent auf deinem Handy.
Wie die Sprach-Schleife funktioniert
Der openclaw voice mode läuft über fünf Schritte. Das Ganze geht schnell genug, dass sich Gespräche natürlich anfühlen.
Schritt 1: Voice Activity Detection (VAD) erkennt, wann jemand spricht. Hintergrundgeräusche werden gefiltert, damit dein Agent nicht versucht, deine mechanische Tastatur zu transkribieren.
Schritt 2: Das Audio geht an einen Speech-to-Text Provider. OpenAI Whisper, Deepgram Streaming oder ein lokales Whisper-Modell auf eigener Hardware.
Schritt 3: Das Transkript landet beim LLM deines Agenten. Gleiches Gehirn, anderer Eingangskanal.
Schritt 4: Die Antwort des LLM wird per Text-to-Speech in Audio umgewandelt. ElevenLabs, OpenAI TTS, Edge TTS (kostenlos) oder Kokoro (kostenlos, lokal).
Schritt 5: Barge-in. Wenn ein Nutzer anfängt zu reden, während der Agent noch spricht, stoppt der Agent sofort. Das unterscheidet einen echten Gesprächspartner von einem Roboter, der einen Absatz vorliest.
Der gesamte Zyklus dauert je nach Provider-Kombination etwa zwei bis vier Sekunden.
Discord Voice Channels
Der /vc-Befehl kam mit v2026.2.21. Dein Agent kann einem Voice Channel beitreten, ihn verlassen und den Status abfragen.
Die Discord-Voice Skill-Dokumentation empfiehlt Deepgram Streaming für ungefähr eine Sekunde weniger Latenz im Vergleich zu Batch-Transkription. In einem echten Gespräch ist diese eine Sekunde der Unterschied zwischen "flüssig" und "seltsam".
Ein Punkt, den du im Auge behalten solltest: Native Commands müssen in deiner Config aktiviert sein (commands.native: auto oder enable). Wenn /vc nicht auftaucht, liegt es wahrscheinlich daran.
Und setz messages.tts.auto nicht auf always. Klingt erstmal nach einer guten Idee, bis dein Agent versucht, einen 47-zeiligen Codeblock vorzulesen. Fang mit inbound an. Das bedeutet, der Agent spricht nur dann, wenn der Nutzer zuerst per Sprache kommuniziert hat.
Talk Mode vs. Discord Voice
Zwei Modi, zwei Anwendungsfälle.
Discord Voice ist für Communities. Der Agent tritt einem gemeinsamen Channel bei und nimmt neben allen anderen teil. Läuft komplett serverseitig.
Talk Mode ist für die persönliche Nutzung. Du betreibst einen "Node" auf deinem Handy oder Laptop (das Gerät mit Mikrofon und Lautsprecher), während das Gateway auf dem Server bleibt. Ein privates, bidirektionales Gespräch. Eher Sprachassistent als Gruppenchat.
Wenn dein Agent Fragen im Discord-Server beantworten soll, nimm den Discord Voice Skill. Wenn du beim Kochen freihändig mit deinem Agenten reden willst, ist Talk Mode auf dem Handy das Richtige.
STT-Anbieter: Was sie kosten
| Anbieter | Kosten | Latenz | Hinweise |
|---|---|---|---|
| OpenAI Whisper | $0,006/Min | Mittel | Pauschale, keine Mengenrabatte |
| Deepgram Streaming | $0,0077/Min | Niedrig (~1s schneller) | $200 Startguthaben bei Anmeldung |
| Local Whisper | Kostenlos | Höher (2-5x Cloud) | Braucht leistungsfähige Hardware, komplett offline |
Deepgram kostet etwas mehr pro Minute, aber der Latenz-Unterschied zählt bei Gesprächen in Echtzeit. Für Batch-Verarbeitung oder asynchrone Sprachnachrichten auf Telegram reicht Whisper wahrscheinlich aus.
TTS-Anbieter: Was sie kosten
| Anbieter | Kosten | Qualität | Hinweise |
|---|---|---|---|
| ElevenLabs | ~$0,24/1K Zeichen (Pro-Überschreitung) | Hoch | Natürlichste Stimmen, 1 Mio. Zeichen im $99/Mo-Paket |
| OpenAI TTS-1 | $15/1 Mio. Zeichen | Gut | Sechs Stimmoptionen, zuverlässig |
| Edge TTS | Kostenlos | Ordentlich | Microsoft Neural Voices, kein API-Key nötig |
| Kokoro | Kostenlos | Gut | Nur lokal, keine Netzwerkabhängigkeit |
Ein Community-Build namens Jupiter Voice kombiniert lokales Whisper mit Kokoro für eine komplett offline Voice-Pipeline. Null API-Kosten, null Netzwerkabhängigkeit. Gute Option, wenn Datenschutz Priorität hat.
Das ClawHosters Voice Add-on
Wenn dir das Verwalten von API-Keys und Provider-Configs zu aufwendig ist: Das ClawHosters Voice Add-on bündelt alles in einem Abo.
| Plan | Monatliche Kosten | Was du bekommst |
|---|---|---|
| Starter | EUR 2/Mo | Basis-Sprachminuten |
| Standard | EUR 8/Mo | Mehr Minuten für aktive Nutzung |
| Pro | EUR 25/Mo | Hohes Sprachvolumen |
Keine separaten Deepgram- oder ElevenLabs-Accounts. Keine API-Keys konfigurieren. Die Nutzung wird in Verarbeitungsminuten erfasst und deckt STT und TTS ab. Wenn du bereits auf ClawHosters bist, ist das der schnellste Weg zu Voice. Du kannst eine kostenlose Testphase starten und Voice später hinzufügen.
Wer die Token-Kosten insgesamt besser verstehen möchte, findet dazu einen separaten Beitrag.