Talk モード
Talk モードは、継続的な音声会話ループです。- 音声をリッスン
- 文字起こしをモデル(メイン セッション、chat.send)に送信
- 応答を待機
- ElevenLabs 経由で発話(ストリーミング再生)
挙動(macOS)
- Talk モードが有効な間、常時表示オーバーレイ。
- Listening → Thinking → Speaking のフェーズ遷移。
- 短いポーズ(無音ウィンドウ)で、現在の文字起こしが送信されます。
- 応答は WebChat に書き込まれます(入力と同じ扱い)。
- 音声による割り込み(デフォルト有効):アシスタントの発話中にユーザーが話し始めた場合、再生を停止し、次のプロンプト用に割り込みのタイムスタンプを記録します。
応答内の音声ディレクティブ
アシスタントは、音声を制御するために 単一の JSON 行 を応答の先頭に付与できます。- 最初の非空行のみが対象です。
- 不明なキーは無視されます。
once: trueは現在の応答のみに適用されます。onceがない場合、その音声が Talk モードの新しいデフォルトになります。- JSON 行は TTS 再生前に取り除かれます。
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
設定(~/.openclaw/openclaw.json)
interruptOnSpeech: truevoiceId:ELEVENLABS_VOICE_ID/SAG_VOICE_IDにフォールバック(または API キーが利用可能な場合は最初の ElevenLabs 音声)modelId: 未設定時はeleven_v3がデフォルトapiKey:ELEVENLABS_API_KEYにフォールバック(または利用可能な場合は ゲートウェイ のシェル プロファイル)outputFormat: macOS / iOS ではpcm_44100、Android ではpcm_24000がデフォルト(mp3_*を設定すると MP3 ストリーミングを強制)
macOSのUI
- メニューバー トグル:Talk
- 設定タブ:Talk Mode グループ(音声 ID + 割り込みトグル)
- オーバーレイ:
- Listening:マイク レベルに応じて雲がパルス表示
- Thinking:沈み込むアニメーション
- Speaking:放射状のリング
- 雲をクリック:発話を停止
- X をクリック:Talk モードを終了
注記
- Speech および Microphone の権限が必要です。
- セッション キー
mainに対してchat.sendを使用します。 - TTS は ElevenLabs のストリーミング API を使用し、
ELEVENLABS_API_KEYと macOS / iOS / Android でのインクリメンタル再生により低レイテンシを実現します。 eleven_v3用のstabilityは0.0、0.5、または1.0に検証されます。その他のモデルは0..1を受け入れます。latency_tierは、設定時に0..4に検証されます。- Android は、低レイテンシの AudioTrack ストリーミング向けに
pcm_16000、pcm_22050、pcm_24000、およびpcm_44100の出力フォーマットをサポートします。