Chế độ Talk
Chế độ Talk là một vòng lặp hội thoại giọng nói liên tục:- Lắng nghe giọng nói
- Gửi bản chép lời đến mô hình (phiên chính, chat.send)
- Chờ phản hồi
- Phát lời nói qua ElevenLabs (phát trực tuyến)
Hành vi (macOS)
- Lớp phủ luôn bật khi chế độ Talk được kích hoạt.
- Chuyển pha Lắng nghe → Suy nghĩ → Nói.
- Khi có khoảng dừng ngắn (cửa sổ im lặng), bản chép lời hiện tại sẽ được gửi đi.
- Phản hồi được ghi vào WebChat (giống như khi gõ).
- Ngắt khi có giọng nói (mặc định bật): nếu người dùng bắt đầu nói khi trợ lý đang nói, chúng tôi dừng phát và ghi nhận mốc thời gian ngắt để dùng cho prompt tiếp theo.
Chỉ dẫn giọng nói trong phản hồi
Trợ lý có thể thêm tiền tố cho phản hồi bằng một dòng JSON duy nhất để điều khiển giọng nói:- Chỉ dòng không rỗng đầu tiên.
- Khóa không xác định sẽ bị bỏ qua.
once: truechỉ áp dụng cho phản hồi hiện tại.- Nếu không có
once, giọng nói sẽ trở thành mặc định mới cho chế độ Talk. - Dòng JSON sẽ bị loại bỏ trước khi phát TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Cấu hình (~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId: dự phòng sangELEVENLABS_VOICE_ID/SAG_VOICE_ID(hoặc giọng ElevenLabs đầu tiên khi có khóa API)modelId: mặc định làeleven_v3khi không được đặtapiKey: dự phòng sangELEVENLABS_API_KEY(hoặc hồ sơ shell của gateway nếu có)outputFormat: mặc định làpcm_44100trên macOS/iOS vàpcm_24000trên Android (đặtmp3_*để buộc phát trực tuyến MP3)
Giao diện macOS
- Công tắc thanh menu: Talk
- Tab cấu hình: nhóm Talk Mode (ID giọng nói + công tắc ngắt)
- Lớp phủ:
- Listening: đám mây nhịp theo mức mic
- Thinking: hiệu ứng chìm xuống
- Speaking: các vòng tròn lan tỏa
- Nhấp đám mây: dừng nói
- Nhấp X: thoát chế độ Talk
Ghi chú
- Yêu cầu quyền Speech + Microphone.
- Sử dụng
chat.sendvới khóa phiênmain. - TTS dùng API phát trực tuyến của ElevenLabs với
ELEVENLABS_API_KEYvà phát tăng dần trên macOS/iOS/Android để giảm độ trễ. stabilitychoeleven_v3được xác thực thành0.0,0.5, hoặc1.0; các mô hình khác chấp nhận0..1.latency_tierđược xác thực thành0..4khi được đặt.- Android hỗ trợ các định dạng đầu ra
pcm_16000,pcm_22050,pcm_24000vàpcm_44100cho phát AudioTrack độ trễ thấp.