Skip to content
Abo -25% LAUNCH-SUB
Claws -25% LAUNCH-CLAWS

Voice-Add-on

3 min Lesezeit Addons Zuletzt aktualisiert 10. February 2026

Was das Voice-Add-on macht

Das Voice-Add-on gibt deiner OpenClaw-Instanz die Fähigkeit, Sprachnachrichten zu verarbeiten. Wenn aktiviert, kann deine Instanz Audio-Nachrichten über verbundene Messenger empfangen, sie in Text umwandeln und darauf antworten. Es unterstützt auch Text-to-Speech, um Sprachantworten an Nutzer zurückzusenden.

Ohne dieses Add-on werden Sprachnachrichten an deine Instanz ignoriert.

Wie es funktioniert

Die Sprachverarbeitung läuft in zwei Richtungen:

  • Speech-to-Text (STT) — Eingehende Sprachnachrichten werden in Text transkribiert, damit das LLM sie verstehen und beantworten kann
  • Text-to-Speech (TTS) — Die Textantwort des LLMs wird in Audio umgewandelt und als Sprachnachricht zurückgesendet

Beide Richtungen werden automatisch verarbeitet, sobald das Add-on aktiv ist. Du musst STT und TTS nicht separat konfigurieren.

Preise

Das Voice-Add-on wird monatlich basierend auf der gewählten Paketgröße abgerechnet. Der Preis deckt sowohl Speech-to-Text als auch Text-to-Speech ab.

Paket Monatspreis Am besten für
Starter 2 € Geringe Nutzung, Voice-Features testen
Standard 8 € Regelmäßige Sprachgespräche
Pro 25 € Hohe Sprachverarbeitungsvolumen

Die Nutzung wird anhand der Verarbeitungsminuten erfasst. Jedes Paket enthält ein monatliches Kontingent an Sprachverarbeitungszeit.

Voice-Add-on einrichten

  1. Öffne deine Instanz im ClawHosters-Dashboard
  2. Gehe zu Add-ons > Voice
  3. Wähle eine Paketgröße (Starter, Standard oder Pro)
  4. Bestätige dein Abonnement

Die Sprachverarbeitung ist sofort nach der Buchung verfügbar. Alle Sprachnachrichten, die über verbundene Messenger eingehen, werden transkribiert und verarbeitet.

Voraussetzungen

Das Voice-Add-on erfordert:

  • Ein aktives LLM-Abonnement (BYOK oder verwaltetes Paket) — der transkribierte Text braucht ein LLM, um eine Antwort zu generieren
  • Mindestens einen verbundenen Messenger-Kanal, der Sprachnachrichten unterstützt (Telegram, WhatsApp)

Discord- und Slack-Sprachnachrichtenunterstützung hängt von den Fähigkeiten des Messengers ab.

Unterstützte Messenger

Messenger Spracheingabe (STT) Sprachausgabe (TTS)
Telegram Ja Ja
WhatsApp Ja Ja
Discord Abhängig vom Bot-Setup Abhängig vom Bot-Setup
Slack Eingeschränkt Eingeschränkt

Telegram und WhatsApp bieten volle Sprachnachrichtenunterstützung. Bei Discord und Slack variiert der Support je nach Bot-Integration.

Nutzungsübersicht

Die Sprachverarbeitungsminuten werden in Echtzeit auf der Add-ons-Seite erfasst:

  • Verbrauchte Minuten — Wie viele Verarbeitungsminuten du in diesem Zeitraum genutzt hast
  • Verbleibende Minuten — Wie viele dir noch zur Verfügung stehen
  • Nutzungsanteil — Eine visuelle Anzeige des Verbrauchs

Was passiert, wenn dein Kontingent aufgebraucht ist

Wenn dein Voice-Paket keine Verarbeitungsminuten mehr hat:

  • Eingehende Sprachnachrichten werden nicht mehr transkribiert
  • Text-to-Speech-Antworten werden nicht mehr generiert
  • Deine Instanz funktioniert für Textnachrichten normal weiter
  • Die Sprachverarbeitung wird fortgesetzt, wenn dein Paket am nächsten Abrechnungszeitraum zurückgesetzt wird oder du auf ein größeres Paket wechselst

Abonnement verwalten

Upgrade

Du kannst dein Paket jederzeit über die Add-ons-Seite upgraden. Das neue Paket wird sofort aktiv. Verbleibende Minuten aus dem alten Paket werden für den aktuellen Zeitraum übernommen.

Downgrade

Downgrades werden zu Beginn des nächsten Abrechnungszeitraums wirksam. Du behältst das Kontingent deines aktuellen Pakets bis dahin.

Kündigung

Kündige das Voice-Add-on über die Add-ons-Seite. Die Sprachverarbeitung endet zum Ende des aktuellen Abrechnungszeitraums. Deine Instanz funktioniert für Textnachrichten weiterhin.

Fehlerbehebung

Sprachnachrichten werden nicht transkribiert

  • Überprüfe, ob das Voice-Add-on auf der Add-ons-Seite aktiv ist
  • Prüfe, ob dein Voice-Paket noch Minuten übrig hat
  • Stelle sicher, dass dein Messenger-Kanal richtig verbunden ist
  • Das LLM-Add-on muss ebenfalls aktiv sein — Sprachtranskription ohne LLM kann keine Antworten generieren

Audioqualität der TTS-Antworten ist schlecht

  • Die TTS-Qualität hängt vom verwendeten Sprachmodell der Plattform ab
  • Kurze, klare Sätze erzeugen in der Regel bessere Audioausgaben
  • Sehr lange Antworten können in Sprachform gekürzt werden

Fehler „Voice-Add-on nicht verfügbar"

  • Das Voice-Add-on erfordert eine aktive Instanz im Status „Laufend"
  • Instanzen im Fehler-, Gestoppt- oder Pausiert-Status können keine Sprachnachrichten verarbeiten

Verwandte Dokumentation

Verwandte Dokumentation