Локальные модели
Локальный запуск возможен, но OpenClaw ожидает большой контекст и сильные защиты от prompt injection. Малые видеокарты обрезают контекст и «протекают» по безопасности. Цельтесь высоко: ≥2 полностью укомплектованных Mac Studio или эквивалентный GPU-риг (~$30k+). Одна GPU на 24 ГБ подходит только для более лёгких запросов с повышенной задержкой. Используйте самый большой / полноразмерный вариант модели, который вы можете запустить; агрессивно квантованные или «малые» чекпойнты повышают риск prompt injection (см. Безопасность).Рекомендуется: LM Studio + MiniMax M2.1 (Responses API, полноразмерная)
Лучший текущий локальный стек. Загрузите MiniMax M2.1 в LM Studio, включите локальный сервер (по умолчаниюhttp://127.0.0.1:1234) и используйте Responses API, чтобы отделять рассуждения от финального текста.
- Установите LM Studio: https://lmstudio.ai
- В LM Studio скачайте самую большую доступную сборку MiniMax M2.1 (избегайте «small»/сильно квантованных вариантов), запустите сервер и убедитесь, что
http://127.0.0.1:1234/v1/modelsотображает её. - Держите модель загруженной; «холодная» загрузка добавляет задержку старта.
- При необходимости скорректируйте
contextWindow/maxTokens, если ваша сборка LM Studio отличается. - Для WhatsApp используйте Responses API, чтобы отправлялся только финальный текст.
models.mode: "merge", чтобы резервные варианты оставались доступными.
Гибридная конфигурация: хостинг — основной, локальный — резервный
Локальный приоритет с хостинговой «страховкой»
Поменяйте порядок основного и резервного; оставьте тот же блок провайдеров иmodels.mode: "merge", чтобы можно было откатиться к Sonnet или Opus, когда локальный сервер недоступен.
Региональный хостинг / маршрутизация данных
- Хостинговые варианты MiniMax/Kimi/GLM также доступны на OpenRouter с эндпоинтами, закреплёнными за регионом (например, размещённые в США). Выберите региональный вариант там, чтобы трафик оставался в выбранной юрисдикции, продолжая использовать
models.mode: "merge"для резервов Anthropic/OpenAI. - «Только локально» — самый сильный путь по приватности; региональная маршрутизация хостинга — компромисс, когда нужны возможности провайдера, но требуется контроль над потоками данных.
Другие OpenAI-совместимые локальные прокси
vLLM, LiteLLM, OAI-proxy или пользовательские шлюзы подходят, если они предоставляют OpenAI-стиль/v1 эндпоинт. Замените блок провайдера выше на ваш эндпоинт и ID модели:
models.mode: "merge", чтобы хостинговые модели оставались доступными как резервные.
Устранение неполадок
- Gateway (шлюз) может связаться с прокси?
curl http://127.0.0.1:1234/v1/models. - Модель в LM Studio выгружена? Перезагрузите; «холодный» старт — частая причина «зависаний».
- Ошибки контекста? Понизьте
contextWindowили увеличьте лимит сервера. - Безопасность: локальные модели обходят фильтры провайдера; держите агентов узкими и включайте уплотнение, чтобы ограничить радиус поражения prompt injection.