Talk-Modus
Der Talk-Modus ist eine kontinuierliche Sprachgesprächsschleife:- Sprache hören
- Transkript an das Modell senden (Hauptsitzung, chat.send)
- Auf die Antwort warten
- Wiedergabe über ElevenLabs (Streaming-Wiedergabe)
Verhalten (macOS)
- Always-on-Overlay, solange der Talk-Modus aktiviert ist.
- Phasenübergänge Zuhören → Denken → Sprechen.
- Bei einer kurzen Pause (Stillefenster) wird das aktuelle Transkript gesendet.
- Antworten werden in WebChat geschrieben (wie beim Tippen).
- Unterbrechen bei Sprache (standardmäßig aktiviert): Beginnt der Benutzer zu sprechen, während der Assistent spricht, stoppen wir die Wiedergabe und vermerken den Zeitstempel der Unterbrechung für den nächsten Prompt.
Sprachdirektiven in Antworten
Der Assistent kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:- Nur die erste nicht-leere Zeile.
- Unbekannte Schlüssel werden ignoriert.
once: truegilt nur für die aktuelle Antwort.- Ohne
oncewird die Stimme zur neuen Standardstimme für den Talk-Modus. - Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfiguration (~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId: fällt zurück aufELEVENLABS_VOICE_ID/SAG_VOICE_ID(oder die erste ElevenLabs-Stimme, wenn ein API-Schlüssel verfügbar ist)modelId: standardmäßigeleven_v3, wenn nicht gesetztapiKey: fällt zurück aufELEVENLABS_API_KEY(oder das Gateway-Shell-Profil, falls verfügbar)outputFormat: standardmäßigpcm_44100auf macOS/iOS undpcm_24000auf Android (setzen Siemp3_*, um MP3-Streaming zu erzwingen)
macOS-UI
- Menüleisten-Schalter: Talk
- Konfigurations-Tab: Gruppe Talk-Modus (Voice-ID + Unterbrechungs-Schalter)
- Überlagerung:
- Zuhören: Wolkenpulse mit Mikrofonpegel
- Denken: absenkende Animation
- Sprechen: ausstrahlende Ringe
- Wolke klicken: Sprechen stoppen
- X klicken: Talk-Modus beenden
Hinweise
- Erfordert Sprach- und Mikrofonberechtigungen.
- Verwendet
chat.sendgegen den Sitzungsschlüsselmain. - TTS nutzt die ElevenLabs-Streaming-API mit
ELEVENLABS_API_KEYund inkrementeller Wiedergabe auf macOS/iOS/Android für geringere Latenz. stabilityfüreleven_v3wird auf0.0,0.5oder1.0validiert; andere Modelle akzeptieren0..1.latency_tierwird bei Setzung auf0..4validiert.- Android unterstützt die Ausgabeformate
pcm_16000,pcm_22050,pcm_24000undpcm_44100für AudioTrack-Streaming mit niedriger Latenz.