Dein OpenClaw Agent liest, schreibt, sucht im Web, ruft Tools auf. Aber er kann dich nicht hören. Und antworten kann er auch nur per Text. Mit Sprache ändert sich das, und die Einrichtung ist ehrlich gesagt einfacher als gedacht.
Ein OpenClaw Sprachassistent macht aus einem Text-Chatbot so etwas wie einen freihändigen Assistenten. Frag Sachen beim Kochen. Lass dir Briefings auf dem Weg zur Arbeit vorlesen. Oder wirf deiner Telegram-Gruppe Sprachnachrichten an den Bot statt zu tippen. Die ganze Konfiguration dauert vielleicht 10 Minuten, wenn du weißt, welche Teile wohin gehören.
Drei Schichten, drei Entscheidungen
Sprache in OpenClaw ist kein einzelner Schalter. Es sind drei unabhängige Schichten, und du konfigurierst nur, was du brauchst.
STT (Speech-to-Text) wandelt eingehendes Audio in Text um, den dein Agent verarbeiten kann. Jemand schickt eine Sprachnachricht auf Telegram, STT transkribiert sie.
TTS (Text-to-Speech) macht aus den Textantworten deines Agents gesprochenes Audio. Der Agent schreibt "Meeting um 15 Uhr", TTS spricht es aus.
Talk Mode verbindet beides zu einer durchgehenden, bidirektionalen Sprachschleife. VAD (Voice Activity Detection) lauscht auf Sprache, transkribiert, schickt den Text durchs LLM, spricht die Antwort vor, und dann wieder von vorn. Stell dir Siri oder Alexa vor, nur auf deinem eigenen Server mit deinem eigenen Modell.
Du kannst STT allein nutzen (Sprachnachrichten transkribieren, per Text antworten). Oder TTS allein (du tippst, der Agent spricht). Oder du verkabelst die volle Schleife mit Talk Mode.
STT einrichten
Drei Optionen, sortiert danach, wie viel du ausgeben willst.
| Anbieter | Kosten | Latenz | Am besten für |
|---|---|---|---|
| OpenAI Whisper | $0,006/Min | ca. 2s | Allgemein, beste Genauigkeit |
| Deepgram | $0,0077/Min ($200 Startguthaben) | ca. 1s | Echtzeit-Gespräche |
| Lokales Whisper | $0 | 4-8s (CPU-abhängig) | Datenschutz, null laufende Kosten |
Whisper ist die sichere Standardwahl. Wenn du einen Echtzeit-Sprachassistenten für Discord oder Talk Mode baust, spart Deepgrams Streaming-Endpoint ungefähr eine Sekunde pro Durchlauf.
Lokales Whisper kostet nichts, braucht aber ordentliche Hardware. Eine 4-GB-GPU packt das Base-Modell gut. Das large-v3-Modell braucht 10 GB+ VRAM und Geduld.
# config.yaml - STT mit Whisper
stt:
provider: openai
model: whisper-1
TTS mit ElevenLabs einrichten
ElevenLabs ist aus gutem Grund der Community-Standard. Die Stimmen klingen so natürlich, dass Leute in einem Discord-Call manchmal nicht merken, dass sie mit einem Agent reden.
Welches Modell?
eleven_turbo_v2.5 ist die erste Wahl. Schnell, ungefähr $0,05 pro 1.000 Zeichen, reicht für 90 % der Fälle.
eleven_multilingual_v2 falls dein Agent Deutsch, Spanisch oder eine der 29 unterstützten Sprachen spricht.
eleven_v3 bringt emotionale Bandbreite. Nur im Premium-Tier.
Beliebte Stimmen: Rachel (warm, professionell), Adam (klar, neutral).
Der kostenlose Tarif gibt dir 10.000 Zeichen pro Monat. Das sind grob geschätzt acht Minuten gesprochene Ausgabe. Zum Testen reicht es vielleicht gerade so.
# config.yaml - TTS mit ElevenLabs
tts:
provider: elevenlabs
model: eleven_turbo_v2.5
voice: Rachel
Zwei kostenlose Alternativen: Microsoft Edge TTS (kein API Key nötig) und OpenAI TTS ($15 pro Million Zeichen).
Streaming oder Realtime? Eine Entscheidung.
Die klingen ähnlich, funktionieren aber komplett anders. Und sie schließen sich gegenseitig aus.
Streaming Mode ist der Pipeline-Ansatz. Audio geht rein, STT transkribiert, LLM antwortet, TTS spricht, Audio geht raus. Latenz 1,7 bis 4,9 Sekunden. Dafür voller Zugriff auf Tools.
Realtime Mode nutzt einen einzigen Full-Duplex-WebSocket (OpenAI Realtime API oder Gemini Live). 300 bis 800 ms Latenz. Aber der Agent verliert den Zugriff auf Tools und Skills. Kein Web-Search, keine MCP-Calls.
Ich denke, für die meisten Leute ist Streaming aktuell die bessere Wahl. Die Latenz nervt, klar. Aber der Tool-Zugriff wiegt schwerer.
Plattform-Unterstützung
| Plattform | Wie Sprache funktioniert | Aufwand |
|---|---|---|
| Telegram | Sprachnachrichten werden automatisch transkribiert, Antworten als Audio | Niedrig |
| Discord | Agent tritt Voice-Channels bei via /vc join |
Mittel |
| Web (WebRTC) | Talk Mode im Browser | Mittel |
| Telefon (Twilio/Telnyx) | Telefonanrufe via Plugin | Höher |
Wenn du erst mal ausprobieren willst, fang mit Telegram an. Sprachnachricht schicken, Antwort als Audio zurückbekommen. Das funktioniert in 5 Minuten. Falls du nach dem besten KI-Modell für deinen Agent suchst, haben wir dazu auch einen Guide.
Was es wirklich kostet
| Setup | Monatliche Schätzung | Anmerkungen |
|---|---|---|
| Nur STT (Whisper) | ca. $3,60 | 10 Std. Spracheingabe |
| STT + TTS (Whisper + ElevenLabs Starter) | $5-22 | Je nach Output |
| Realtime (OpenAI) | $5-8 | Pro Minute, keine Tools |
| Zero-Cost (lokales Whisper + Edge TTS) | $0 | Braucht Hardware |
Auf ClawHosters liegt die Sprachkonfiguration direkt in deinem Dashboard. Kein ffmpeg installieren, keine Docker-Volume-Mounts. Einfach konfigurieren und loslegen. Wenn du deine Token-Kosten im Griff behalten willst, schau dir auch unseren Kosten-Guide an.
Vielleicht überrascht dich das: Die teuerste Komponente ist meistens nicht STT oder TTS, sondern das LLM selbst. Die Sprachschicht ist vergleichsweise günstig.