Modelos locales
Lo local es viable, pero OpenClaw espera un contexto grande y defensas sólidas contra la inyección de prompts. Las tarjetas pequeñas truncan el contexto y filtran seguridad. Apunte alto: ≥2 Mac Studios al máximo o un equipo de GPU equivalente (~USD $30k+). Una sola GPU de 24 GB funciona solo para prompts más ligeros con mayor latencia. Use la variante de modelo más grande / de tamaño completo que pueda ejecutar; los checkpoints agresivamente cuantizados o “pequeños” elevan el riesgo de inyección de prompts (ver Security).Recomendado: LM Studio + MiniMax M2.1 (Responses API, tamaño completo)
El mejor stack local actual. Cargue MiniMax M2.1 en LM Studio, habilite el servidor local (predeterminadohttp://127.0.0.1:1234), y use Responses API para mantener el razonamiento separado del texto final.
- Instale LM Studio: https://lmstudio.ai
- En LM Studio, descargue la compilación más grande de MiniMax M2.1 disponible (evite variantes “small”/fuertemente cuantizadas), inicie el servidor y confirme que
http://127.0.0.1:1234/v1/modelslo lista. - Mantenga el modelo cargado; la carga en frío agrega latencia de arranque.
- Ajuste
contextWindow/maxTokenssi su compilación de LM Studio difiere. - Para WhatsApp, manténgase en Responses API para que solo se envíe el texto final.
models.mode: "merge" para que los fallbacks sigan disponibles.
Configuración híbrida: principal alojado, fallback local
Prioridad local con red de seguridad alojada
Intercambie el orden de principal y fallback; mantenga el mismo bloque de proveedores ymodels.mode: "merge" para poder volver a Sonnet u Opus cuando el equipo local esté fuera de servicio.
Alojamiento regional / enrutamiento de datos
- También existen variantes alojadas de MiniMax/Kimi/GLM en OpenRouter con endpoints fijados por región (p. ej., alojados en EE. Elija allí la variante regional para mantener el tráfico en su jurisdicción elegida mientras sigue usando
models.mode: "merge"como fallback de Anthropic/OpenAI. - Solo local sigue siendo la vía de mayor privacidad; el enrutamiento regional alojado es el punto intermedio cuando necesita funciones del proveedor pero quiere controlar el flujo de datos.
Otros proxies locales compatibles con OpenAI
vLLM, LiteLLM, OAI-proxy o Gateways personalizados funcionan si exponen un endpoint/v1 al estilo OpenAI. Reemplace el bloque de proveedor anterior con su endpoint y el ID del modelo:
models.mode: "merge" para que los modelos alojados sigan disponibles como fallbacks.
Solución de problemas
- ¿El Gateway puede alcanzar el proxy?
curl http://127.0.0.1:1234/v1/models. - ¿Modelo de LM Studio descargado de memoria? Vuelva a cargarlo; el inicio en frío es una causa común de “bloqueo”.
- ¿Errores de contexto? Baje
contextWindowo aumente el límite de su servidor. - Seguridad: los modelos locales omiten los filtros del proveedor; mantenga los agentes acotados y la compactación activada para limitar el radio de impacto de la inyección de prompts.