Mode Talk
Le mode Talk est une boucle de conversation vocale continue :- Écouter la parole
- Envoyer la transcription au modèle (session principale, chat.send)
- Attendre la réponse
- La prononcer via ElevenLabs (lecture en streaming)
Comportement (macOS)
- Superposition toujours active tant que le mode Talk est activé.
- Transitions de phase Écoute → Réflexion → Parole.
- Lors d’une courte pause (fenêtre de silence), la transcription courante est envoyée.
- Les réponses sont écrites dans WebChat (comme lors de la saisie).
- Interruption à la parole (activée par défaut) : si l’utilisateur commence à parler pendant que l’assistant parle, nous arrêtons la lecture et notons l’horodatage d’interruption pour la prochaine invite.
Directives vocales dans les réponses
L’assistant peut préfixer sa réponse par une seule ligne JSON pour contrôler la voix :- Première ligne non vide uniquement.
- Les clés inconnues sont ignorées.
once: trues’applique uniquement à la réponse courante.- Sans
once, la voix devient la nouvelle valeur par défaut pour le mode Talk. - La ligne JSON est supprimée avant la lecture TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuration (~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId: revient àELEVENLABS_VOICE_ID/SAG_VOICE_ID(ou à la première voix ElevenLabs lorsque la clé API est disponible)modelId: par défauteleven_v3lorsqu’il n’est pas définiapiKey: revient àELEVENLABS_API_KEY(ou au profil shell de la passerelle s’il est disponible)outputFormat: par défautpcm_44100sur macOS/iOS etpcm_24000sur Android (définirmp3_*pour forcer le streaming MP3)
Interface macOS
- Bouton de la barre de menus : Talk
- Onglet de configuration : groupe Mode Talk (ID de voix + bascule d’interruption)
- Superposition :
- Écoute : nuage pulsant avec le niveau du micro
- Réflexion : animation d’enfoncement
- Parole : anneaux rayonnants
- Cliquer sur le nuage : arrêter la parole
- Cliquer sur X : quitter le mode Talk
Notes
- Nécessite les autorisations Parole + Microphone.
- Utilise
chat.sendavec la clé de sessionmain. - La TTS utilise l’API de streaming ElevenLabs avec
ELEVENLABS_API_KEYet une lecture incrémentale sur macOS/iOS/Android pour une latence réduite. stabilitypoureleven_v3est validé sur0.0,0.5ou1.0; les autres modèles acceptent0..1.latency_tierest validé sur0..4lorsqu’il est défini.- Android prend en charge les formats de sortie
pcm_16000,pcm_22050,pcm_24000etpcm_44100pour le streaming AudioTrack à faible latence.