Ses / Sesli Notlar — 2026-01-17
Neler çalışır
- Medya anlama (ses): Ses anlama etkinse (veya otomatik algılanıyorsa), OpenClaw:
- İlk ses ekini (yerel yol veya URL) bulur ve gerekirse indirir.
- Her model girdisine göndermeden önce
maxBytesuygular. - Uygun ilk model girdisini sırayla çalıştırır (sağlayıcı veya CLI).
- Başarısız olursa veya atlanırsa (boyut/zaman aşımı), bir sonraki girdiyi dener.
- Başarı durumunda
Bodyöğesini bir[Audio]bloğu ile değiştirir ve{{Transcript}}ayarlar.
- Komut ayrıştırma: Yazıya döküm başarılı olduğunda, eğik çizgi komutları çalışmaya devam etsin diye
CommandBody/RawBodytranskript olarak ayarlanır. - Ayrıntılı günlükleme:
--verboseiçinde, yazıya dökümün ne zaman çalıştığını ve gövdeyi ne zaman değiştirdiğini günlüğe kaydederiz.
Otomatik algılama (varsayılan)
Modelleri yapılandırmazsanız vetools.media.audio.enabled false olarak ayarlı değilse,OpenClaw aşağıdaki sırayla otomatik algılar ve çalışan ilk seçenekte durur:
- Yerel CLIs (kuruluysa)
sherpa-onnx-offline(kodlayıcı/kod çözücü/birleştirici/tokenlar ileSHERPA_ONNX_MODEL_DIRgerektirir)whisper-cli(whisper-cppkaynağından;WHISPER_CPP_MODELveya paketlenmiş tiny modeli kullanır)whisper(Python CLI; modelleri otomatik indirir)
- Gemini CLI (
gemini) kullanılarakread_many_files - Sağlayıcı anahtarları (OpenAI → Groq → Deepgram → Google)
tools.media.audio.enabled: false ayarlayın.
Özelleştirmek için tools.media.audio.models ayarlayın.
Not: İkili dosya algılama macOS/Linux/Windows genelinde en iyi çaba ile yapılır; CLI’nin PATH üzerinde olduğundan emin olun (~ genişletilir) veya tam komut yoluyla açık bir CLI modeli ayarlayın.
Yapılandırma örnekleri
Sağlayıcı + CLI geri dönüşü (OpenAI + Whisper CLI)
Kapsam geçitli yalnızca sağlayıcı
Yalnızca sağlayıcı (Deepgram)
Notlar ve sınırlar
- Sağlayıcı kimlik doğrulaması, standart model kimlik doğrulama sırasını izler (kimlik doğrulama profilleri, ortam değişkenleri,
models.providers.*.apiKey). provider: "deepgram"kullanıldığında Deepgram,DEEPGRAM_API_KEYdeğerini alır.- Deepgram kurulum ayrıntıları: Deepgram (ses yazıya dökümü).
- Ses sağlayıcıları,
tools.media.audioaracılığıylabaseUrl,headersveproviderOptionsdeğerlerini geçersiz kılabilir. - Varsayılan boyut üst sınırı 20MB’dir (
tools.media.audio.maxBytes). Aşırı büyük ses, o model için atlanır ve bir sonraki girdi denenir. - Ses için varsayılan
maxCharsayarlı değildir (tam transkript). Çıktıyı kırpmak içintools.media.audio.maxCharsveya girdi başınamaxCharsayarlayın. - OpenAI otomatik varsayılanı
gpt-4o-mini-transcribe’tir; daha yüksek doğruluk içinmodel: "gpt-4o-transcribe"ayarlayın. - Birden fazla sesli notu işlemek için
tools.media.audio.attachmentskullanın (mode: "all"+maxAttachments). - Transkript, şablonlara
{{Transcript}}olarak sunulur. - CLI stdout çıktısı sınırlandırılmıştır (5MB); CLI çıktısını kısa tutun.
Gruplarda Mention Algılama
Bir grup sohbeti içinrequireMention: true ayarlandığında, OpenClaw artık mention kontrolü yapmadan önce sesi metne dönüştürür. Bu, mention içeren sesli notların işlenebilmesini sağlar.
Nasıl çalışır:
- Bir sesli mesajın metin içeriği yoksa ve grup mention gerektiriyorsa, OpenClaw bir “ön kontrol” transkripsiyonu gerçekleştirir.
- Transkript, mention kalıpları (örn.
@BotName, emoji tetikleyicileri) açısından kontrol edilir. - Bir mention bulunursa, mesaj tam yanıt işleme hattına devam eder.
- Sesli notların mention engelini geçebilmesi için mention algılama transkript üzerinden yapılır.
- Ön kontrol sırasında transkripsiyon başarısız olursa (zaman aşımı, API hatası vb.), mesaj yalnızca metin tabanlı mention algılamasına göre işlenir.
- Bu, karışık mesajların (metin + ses) asla yanlışlıkla düşürülmemesini sağlar.
requireMention: true olan bir Telegram grubunda “Hey @Claude, hava nasıl?” diyen bir sesli not gönderir. Sesli not yazıya dökülür, mention tespit edilir ve ajan yanıt verir.
Gotchas
- Kapsam kuralları ilk eşleşme kazanır.
chatType,direct,groupveyaroomolarak normalize edilir. - CLI’nizin 0 koduyla çıkmasını ve düz metin yazdırmasını sağlayın; JSON çıktısı
jq -r .textile uyarlanmalıdır. - Yanıt kuyruğunu engellememek için zaman aşımlarını makul tutun (
timeoutSeconds, varsayılan 60 sn). - Ön kontrol transkripsiyonu, mention tespiti için yalnızca ilk ses ekini işler. Ek sesler ana medya anlama aşamasında işlenir.