Режим Talk
Режим Talk — это непрерывный цикл голосового диалога:- Прослушивание речи
- Отправка транскрипта модели (основной сеанс, chat.send)
- Ожидание ответа
- Озвучивание через ElevenLabs (потоковое воспроизведение)
Поведение (macOS)
- Постоянно активный оверлей, пока включён режим Talk.
- Переходы фаз Прослушивание → Обдумывание → Озвучивание.
- При короткой паузе (окне тишины) текущий транскрипт отправляется.
- Ответы записываются в WebChat (как при наборе текста).
- Прерывание по речи (включено по умолчанию): если пользователь начинает говорить, пока ассистент озвучивает ответ, воспроизведение останавливается и отметка времени прерывания учитывается в следующем запросе.
Голосовые директивы в ответах
Ассистент может предварять свой ответ одной строкой JSON для управления голосом:- Только первая непустая строка.
- Неизвестные ключи игнорируются.
once: trueприменяется только к текущему ответу.- Без
onceголос становится новым значением по умолчанию для режима Talk. - Строка JSON удаляется перед воспроизведением TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Конфигурация (~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId: с откатом кELEVENLABS_VOICE_ID/SAG_VOICE_ID(или к первому голосу ElevenLabs при наличии ключа API)modelId: по умолчаниюeleven_v3, если не заданоapiKey: с откатом кELEVENLABS_API_KEY(или к профилю оболочки Gateway (шлюз), если доступен)outputFormat: по умолчаниюpcm_44100на macOS/iOS иpcm_24000на Android (установитеmp3_*для принудительной потоковой передачи MP3)
Интерфейс macOS
- Переключатель в строке меню: Talk
- Вкладка конфигурации: группа Talk Mode (идентификатор голоса + переключатель прерываний)
- Оверлей:
- Прослушивание: пульсации облака с уровнем микрофона
- Обдумывание: анимация погружения
- Озвучивание: расходящиеся кольца
- Клик по облаку: остановить озвучивание
- Клик по X: выйти из режима Talk
Примечания
- Требуются разрешения на доступ к распознаванию речи и микрофону.
- Использует
chat.sendс ключом сеансаmain. - TTS использует потоковый API ElevenLabs с
ELEVENLABS_API_KEYи инкрементальным воспроизведением на macOS/iOS/Android для меньшей задержки. stabilityдляeleven_v3проверяется на соответствие0.0,0.5или1.0; другие модели принимают0..1.latency_tierпроверяется на соответствие0..4при задании.- Android поддерживает форматы вывода
pcm_16000,pcm_22050,pcm_24000иpcm_44100для низколатентного потокового воспроизведения через AudioTrack.