Modeles locaux
Le local est possible, mais OpenClaw attend un grand contexte et de solides defenses contre l’injection de prompt. Les petites cartes tronquent le contexte et laissent fuiter la securite. Visez haut : ≥2 Mac Studio au maximum ou une configuration GPU equivalente (~30 k$+). Un seul GPU de 24 Go ne fonctionne que pour des invites plus legeres avec une latence plus elevee. Utilisez la plus grande / version complete du modele que vous pouvez executer ; les checkpoints fortement quantifies ou « petits » augmentent le risque d’injection de prompt (voir Security).Recommande : LM Studio + MiniMax M2.1 (Responses API, version complete)
Meilleure pile locale actuelle. Chargez MiniMax M2.1 dans LM Studio, activez le serveur local (par defauthttp://127.0.0.1:1234), et utilisez la Responses API pour garder le raisonnement separe du texte final.
- Installez LM Studio : https://lmstudio.ai
- Dans LM Studio, telechargez la plus grande version MiniMax M2.1 disponible (evitez les variantes « small » / fortement quantifiees), demarrez le serveur et confirmez que
http://127.0.0.1:1234/v1/modelsla liste. - Gardez le modele charge ; le chargement a froid ajoute une latence de demarrage.
- Ajustez
contextWindow/maxTokenssi votre version de LM Studio differe. - Pour WhatsApp, restez sur la Responses API afin que seul le texte final soit envoye.
models.mode: "merge" pour que les solutions de repli restent disponibles.
Configuration hybride : heberge en principal, local en repli
Priorite au local avec filet de securite heberge
Inversez l’ordre principal / repli ; conservez le meme bloc de fournisseurs etmodels.mode: "merge" afin de pouvoir revenir a Sonnet ou Opus lorsque la machine locale est indisponible.
Hebergement regional / routage des donnees
- Des variantes hebergees MiniMax/Kimi/GLM existent aussi sur OpenRouter avec des points de terminaison ancrés par region (p. ex. heberges aux Etats-Unis). Choisissez la variante regionale pour garder le trafic dans la juridiction souhaitee tout en utilisant
models.mode: "merge"pour les solutions de repli Anthropic/OpenAI. - Le local uniquement reste la voie la plus protectrice pour la confidentialite ; le routage regional heberge est un compromis lorsque vous avez besoin de fonctionnalites de fournisseur tout en gardant le controle des flux de donnees.
Autres proxys locaux compatibles OpenAI
vLLM, LiteLLM, OAI-proxy ou des passerelles personnalisees fonctionnent s’ils exposent un point de terminaison/v1 de type OpenAI. Remplacez le bloc de fournisseur ci-dessus par votre point de terminaison et l’ID du modele :
models.mode: "merge" afin que les modeles heberges restent disponibles comme solutions de repli.
Problemes courants
- La Gateway (passerelle) peut atteindre le proxy ?
curl http://127.0.0.1:1234/v1/models. - Modele LM Studio decharge ? Rechargez-le ; le demarrage a froid est une cause frequente de « blocage ».
- Erreurs de contexte ? Diminuez
contextWindowou augmentez la limite de votre serveur. - Securite : les modeles locaux contournent les filtres cote fournisseur ; gardez des agents restreints et la compaction activee pour limiter le rayon d’explosion des injections de prompt.