OpenClaw Talk Mode: Sprache einrichten mit ElevenLabs, Whisper und Echtzeit-Audio
$ ./blog/guides
Anleitungen

OpenClaw Talk Mode: Sprache einrichten mit ElevenLabs, Whisper und Echtzeit-Audio

ClawHosters
ClawHosters von Daniel Samer
5 Min. Lesezeit

Dein OpenClaw Agent liest, schreibt, sucht im Web, ruft Tools auf. Aber er kann dich nicht hören. Und antworten kann er auch nur per Text. Mit Sprache ändert sich das, und die Einrichtung ist ehrlich gesagt einfacher als gedacht.

Ein OpenClaw Sprachassistent macht aus einem Text-Chatbot so etwas wie einen freihändigen Assistenten. Frag Sachen beim Kochen. Lass dir Briefings auf dem Weg zur Arbeit vorlesen. Oder wirf deiner Telegram-Gruppe Sprachnachrichten an den Bot statt zu tippen. Die ganze Konfiguration dauert vielleicht 10 Minuten, wenn du weißt, welche Teile wohin gehören.

Drei Schichten, drei Entscheidungen

Sprache in OpenClaw ist kein einzelner Schalter. Es sind drei unabhängige Schichten, und du konfigurierst nur, was du brauchst.

STT (Speech-to-Text) wandelt eingehendes Audio in Text um, den dein Agent verarbeiten kann. Jemand schickt eine Sprachnachricht auf Telegram, STT transkribiert sie.

TTS (Text-to-Speech) macht aus den Textantworten deines Agents gesprochenes Audio. Der Agent schreibt "Meeting um 15 Uhr", TTS spricht es aus.

Talk Mode verbindet beides zu einer durchgehenden, bidirektionalen Sprachschleife. VAD (Voice Activity Detection) lauscht auf Sprache, transkribiert, schickt den Text durchs LLM, spricht die Antwort vor, und dann wieder von vorn. Stell dir Siri oder Alexa vor, nur auf deinem eigenen Server mit deinem eigenen Modell.

Du kannst STT allein nutzen (Sprachnachrichten transkribieren, per Text antworten). Oder TTS allein (du tippst, der Agent spricht). Oder du verkabelst die volle Schleife mit Talk Mode.

STT einrichten

Drei Optionen, sortiert danach, wie viel du ausgeben willst.

Anbieter Kosten Latenz Am besten für
OpenAI Whisper $0,006/Min ca. 2s Allgemein, beste Genauigkeit
Deepgram $0,0077/Min ($200 Startguthaben) ca. 1s Echtzeit-Gespräche
Lokales Whisper $0 4-8s (CPU-abhängig) Datenschutz, null laufende Kosten

Whisper ist die sichere Standardwahl. Wenn du einen Echtzeit-Sprachassistenten für Discord oder Talk Mode baust, spart Deepgrams Streaming-Endpoint ungefähr eine Sekunde pro Durchlauf.

Lokales Whisper kostet nichts, braucht aber ordentliche Hardware. Eine 4-GB-GPU packt das Base-Modell gut. Das large-v3-Modell braucht 10 GB+ VRAM und Geduld.

# config.yaml - STT mit Whisper
stt:
  provider: openai
  model: whisper-1

TTS mit ElevenLabs einrichten

ElevenLabs ist aus gutem Grund der Community-Standard. Die Stimmen klingen so natürlich, dass Leute in einem Discord-Call manchmal nicht merken, dass sie mit einem Agent reden.

Welches Modell?

  • eleven_turbo_v2.5 ist die erste Wahl. Schnell, ungefähr $0,05 pro 1.000 Zeichen, reicht für 90 % der Fälle.

  • eleven_multilingual_v2 falls dein Agent Deutsch, Spanisch oder eine der 29 unterstützten Sprachen spricht.

  • eleven_v3 bringt emotionale Bandbreite. Nur im Premium-Tier.

Beliebte Stimmen: Rachel (warm, professionell), Adam (klar, neutral).

Der kostenlose Tarif gibt dir 10.000 Zeichen pro Monat. Das sind grob geschätzt acht Minuten gesprochene Ausgabe. Zum Testen reicht es vielleicht gerade so.

# config.yaml - TTS mit ElevenLabs
tts:
  provider: elevenlabs
  model: eleven_turbo_v2.5
  voice: Rachel

Zwei kostenlose Alternativen: Microsoft Edge TTS (kein API Key nötig) und OpenAI TTS ($15 pro Million Zeichen).

Streaming oder Realtime? Eine Entscheidung.

Die klingen ähnlich, funktionieren aber komplett anders. Und sie schließen sich gegenseitig aus.

Streaming Mode ist der Pipeline-Ansatz. Audio geht rein, STT transkribiert, LLM antwortet, TTS spricht, Audio geht raus. Latenz 1,7 bis 4,9 Sekunden. Dafür voller Zugriff auf Tools.

Realtime Mode nutzt einen einzigen Full-Duplex-WebSocket (OpenAI Realtime API oder Gemini Live). 300 bis 800 ms Latenz. Aber der Agent verliert den Zugriff auf Tools und Skills. Kein Web-Search, keine MCP-Calls.

Ich denke, für die meisten Leute ist Streaming aktuell die bessere Wahl. Die Latenz nervt, klar. Aber der Tool-Zugriff wiegt schwerer.

Plattform-Unterstützung

Plattform Wie Sprache funktioniert Aufwand
Telegram Sprachnachrichten werden automatisch transkribiert, Antworten als Audio Niedrig
Discord Agent tritt Voice-Channels bei via /vc join Mittel
Web (WebRTC) Talk Mode im Browser Mittel
Telefon (Twilio/Telnyx) Telefonanrufe via Plugin Höher

Wenn du erst mal ausprobieren willst, fang mit Telegram an. Sprachnachricht schicken, Antwort als Audio zurückbekommen. Das funktioniert in 5 Minuten. Falls du nach dem besten KI-Modell für deinen Agent suchst, haben wir dazu auch einen Guide.

Was es wirklich kostet

Setup Monatliche Schätzung Anmerkungen
Nur STT (Whisper) ca. $3,60 10 Std. Spracheingabe
STT + TTS (Whisper + ElevenLabs Starter) $5-22 Je nach Output
Realtime (OpenAI) $5-8 Pro Minute, keine Tools
Zero-Cost (lokales Whisper + Edge TTS) $0 Braucht Hardware

Auf ClawHosters liegt die Sprachkonfiguration direkt in deinem Dashboard. Kein ffmpeg installieren, keine Docker-Volume-Mounts. Einfach konfigurieren und loslegen. Wenn du deine Token-Kosten im Griff behalten willst, schau dir auch unseren Kosten-Guide an.

Vielleicht überrascht dich das: Die teuerste Komponente ist meistens nicht STT oder TTS, sondern das LLM selbst. Die Sprachschicht ist vergleichsweise günstig.

Häufig gestellte Fragen

Ja. Lokales Whisper für STT, Edge TTS oder Kokoro für die Sprachausgabe. Der Nachteil ist Latenz, rechne mit 5 bis 10 Sekunden pro Durchlauf. Aber es kostet null.

Starte mit eleven_turbo_v2.5. Falls dein Agent nicht nur Englisch spricht, nimm multilingual_v2. eleven_v3 lohnt sich nur, wenn du emotionale Nuancen brauchst.

Ja. WebRTC direkt im Browser oder als PWA. Kein App-Download nötig.

Streaming liegt bei 1,7 bis 4,9 Sekunden. Realtime bei 300 bis 800 Millisekunden. Aber Realtime kann keine Tools nutzen, keine Web-Suche, kein MCP. Für die meisten Anwendungsfälle wiegt der Tool-Zugriff mehr als die Geschwindigkeit.

Telegram. Sprachnachrichten werden automatisch transkribiert, Antworten kommen als Audio zurück. In der OpenClaw TTS-Dokumentation findest du die vollständige Konfigurationsreferenz.
*Zuletzt aktualisiert: Juni 2026*

Quellen

  1. 1 ElevenLabs
  2. 2 besten KI-Modell für deinen Agent
  3. 3 ClawHosters
  4. 4 Token-Kosten im Griff behalten
  5. 5 OpenClaw TTS-Dokumentation