Lokale modellen
Lokaal is mogelijk, maar OpenClaw verwacht een grote context + sterke verdediging tegen prompt-injectie. Kleine kaarten kappen de context af en laten veiligheidslekken ontstaan. Streef hoog: ≥2 volledig uitgeruste Mac Studios of een gelijkwaardige GPU-rig (~$30k+). Een enkele 24 GB GPU werkt alleen voor lichtere prompts met hogere latentie. Gebruik de grootste / full-size modelvariant die je kunt draaien; sterk gequantiseerde of “kleine” checkpoints verhogen het risico op prompt-injectie (zie Security).Aanbevolen: LM Studio + MiniMax M2.1 (Responses API, full-size)
Beste huidige lokale stack. Laad MiniMax M2.1 in LM Studio, schakel de lokale server in (standaardhttp://127.0.0.1:1234), en gebruik de Responses API om redenering gescheiden te houden van de uiteindelijke tekst.
- Installeer LM Studio: https://lmstudio.ai
- Download in LM Studio de grootste beschikbare MiniMax M2.1-build (vermijd “small”/sterk gequantiseerde varianten), start de server en bevestig dat
http://127.0.0.1:1234/v1/modelsdeze vermeldt. - Houd het model geladen; cold-load voegt opstartlatentie toe.
- Pas
contextWindow/maxTokensaan als je LM Studio-build afwijkt. - Voor WhatsApp: houd vast aan de Responses API zodat alleen de definitieve tekst wordt verzonden.
models.mode: "merge" zodat terugvalopties beschikbaar blijven.
Hybride config: gehoste primaire, lokale fallback
Lokaal-eerst met gehoste veiligheidsnet
Wissel de volgorde van primaire en fallback; behoud hetzelfde providerblok enmodels.mode: "merge" zodat je kunt terugvallen op Sonnet of Opus wanneer de lokale box uitvalt.
Regionale hosting / datarouting
- Gehoste MiniMax/Kimi/GLM-varianten bestaan ook op OpenRouter met regio-gebonden endpoints (bijv. in de VS gehost). Kies daar de regionale variant om verkeer binnen je gekozen jurisdictie te houden, terwijl je
models.mode: "merge"blijft gebruiken voor Anthropic/OpenAI-fallbacks. - Alleen lokaal blijft het sterkste privacy-pad; gehoste regionale routing is de middenweg wanneer je providerfeatures nodig hebt maar controle over datastromen wilt.
Andere OpenAI-compatibele lokale proxies
vLLM, LiteLLM, OAI-proxy of aangepaste gateways werken als ze een OpenAI-achtige/v1-endpoint blootstellen. Vervang het providerblok hierboven door je endpoint en model-ID:
models.mode: "merge" zodat gehoste modellen beschikbaar blijven als fallbacks.
Problemen oplossen
- Kan de Gateway de proxy bereiken?
curl http://127.0.0.1:1234/v1/models. - LM Studio-model ontladen? Opnieuw laden; cold start is een veelvoorkomende oorzaak van “hangen”.
- Contextfouten? Verlaag
contextWindowof verhoog je serverlimiet. - Veiligheid: lokale modellen slaan provider-side filters over; houd agents smal en compaction ingeschakeld om de impact van prompt-injectie te beperken.