Modele lokalne
Lokalnie da się to zrobić, ale OpenClaw oczekuje dużego kontekstu oraz silnych zabezpieczeń przed prompt injection. Małe karty obcinają kontekst i powodują wycieki bezpieczeństwa. Celuj wysoko: **≥2 w pełni wyposażone Mac Studio lub równoważny zestaw GPU (~30 tys. Pojedynczy GPU 24 GB działa tylko dla lżejszych promptów i z wyższymi opóźnieniami. Używaj największego / pełnowymiarowego wariantu modelu, jaki możesz uruchomić; agresywnie kwantyzowane lub „małe” checkpointy zwiększają ryzyko prompt injection (zob. Security).Zalecane: LM Studio + MiniMax M2.1 (Responses API, pełny rozmiar)
Najlepszy obecnie lokalny stos. Załaduj MiniMax M2.1 w LM Studio, włącz lokalny serwer (domyślniehttp://127.0.0.1:1234) i użyj Responses API, aby oddzielić rozumowanie od tekstu końcowego.
- Zainstaluj LM Studio: https://lmstudio.ai
- W LM Studio pobierz największą dostępną wersję MiniMax M2.1 (unikaj wariantów „small”/mocno kwantyzowanych), uruchom serwer i potwierdź, że
http://127.0.0.1:1234/v1/modelsgo wyświetla. - Trzymaj model załadowany; zimne ładowanie zwiększa opóźnienie startu.
- Dostosuj
contextWindow/maxTokens, jeśli Twoja wersja LM Studio się różni. - Dla WhatsApp trzymaj się Responses API, aby wysyłany był wyłącznie tekst końcowy.
models.mode: "merge", aby mechanizmy zapasowe pozostały dostępne.
Konfiguracja hybrydowa: hostowany jako główny, lokalny jako zapasowy
Najpierw lokalnie z siatką bezpieczeństwa hostowaną
Zamień kolejność głównego i zapasowego; zachowaj ten sam blok dostawców orazmodels.mode: "merge", aby móc przełączyć się na Sonnet lub Opus, gdy lokalna maszyna jest niedostępna.
Hosting regionalny / routowanie danych
- Hostowane warianty MiniMax/Kimi/GLM są także dostępne w OpenRouter z endpointami przypiętymi do regionu (np. hostowane w USA). Wybierz tam wariant regionalny, aby utrzymać ruch w wybranej jurysdykcji, jednocześnie używając
models.mode: "merge"jako zapasów Anthropic/OpenAI. - Tryb wyłącznie lokalny pozostaje najsilniejszą ścieżką prywatności; hostowane routowanie regionalne to rozwiązanie pośrednie, gdy potrzebujesz funkcji dostawcy, ale chcesz mieć kontrolę nad przepływem danych.
Inne lokalne proxy zgodne z OpenAI
vLLM, LiteLLM, OAI-proxy lub niestandardowe gatewaye działają, jeśli wystawiają endpoint w stylu OpenAI/v1. Zastąp powyższy blok dostawcy swoim endpointem i identyfikatorem modelu:
models.mode: "merge", aby modele hostowane pozostały dostępne jako zapasowe.
Rozwiązywanie problemów
- Gateway ma dostęp do proxy?
curl http://127.0.0.1:1234/v1/models. - Model LM Studio rozładowany? Załaduj ponownie; zimny start to częsta przyczyna „zawieszania”.
- Błędy kontekstu? Obniż
contextWindowlub zwiększ limit po stronie serwera. - Bezpieczeństwo: modele lokalne pomijają filtry po stronie dostawcy; utrzymuj wąski zakres agentów i włączoną kompakcję, aby ograniczyć promień rażenia prompt injection.