Modo Talk
El modo Talk es un bucle continuo de conversación por voz:- Escuchar el habla
- Enviar la transcripción al modelo (sesión principal, chat.send)
- Esperar la respuesta
- Reproducirla mediante ElevenLabs (reproducción en streaming)
Comportamiento (macOS)
- Overlay siempre activo mientras el modo Talk está habilitado.
- Transiciones de fase Escuchando → Pensando → Hablando.
- En una pausa corta (ventana de silencio), se envía la transcripción actual.
- Las respuestas se escriben en WebChat (igual que al teclear).
- Interrumpir al hablar (activado por defecto): si el usuario empieza a hablar mientras el asistente está hablando, se detiene la reproducción y se anota la marca de tiempo de la interrupción para el siguiente prompt.
Directivas de voz en las respuestas
El asistente puede anteponer su respuesta con una sola línea JSON para controlar la voz:- Solo la primera línea no vacía.
- Las claves desconocidas se ignoran.
once: truese aplica solo a la respuesta actual.- Sin
once, la voz pasa a ser el nuevo valor predeterminado para el modo Talk. - La línea JSON se elimina antes de la reproducción TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuración (~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId: recurre aELEVENLABS_VOICE_ID/SAG_VOICE_ID(o a la primera voz de ElevenLabs cuando la clave de API está disponible)modelId: por defectoeleven_v3cuando no se estableceapiKey: recurre aELEVENLABS_API_KEY(o al perfil de shell del gateway si está disponible)outputFormat: por defectopcm_44100en macOS/iOS ypcm_24000en Android (establezcamp3_*para forzar streaming MP3)
UI de macOS
- Alternador en la barra de menús: Talk
- Pestaña de configuración: grupo Modo Talk (ID de voz + alternador de interrupción)
- Superposición:
- Escuchando: pulsos de nube con nivel de micrófono
- Pensando: animación descendente
- Hablando: anillos radiantes
- Clic en la nube: detener el habla
- Clic en X: salir del modo Talk
Notas
- Requiere permisos de Voz + Micrófono.
- Usa
chat.sendcontra la clave de sesiónmain. - El TTS utiliza la API de streaming de ElevenLabs con
ELEVENLABS_API_KEYy reproducción incremental en macOS/iOS/Android para menor latencia. stabilityparaeleven_v3se valida a0.0,0.5o1.0; otros modelos aceptan0..1.latency_tierse valida a0..4cuando se establece.- Android admite los formatos de salida
pcm_16000,pcm_22050,pcm_24000ypcm_44100para streaming AudioTrack de baja latencia.