Lokale Modelle
Lokal ist machbar, aber OpenClaw erwartet großen Kontext und starke Abwehrmechanismen gegen Prompt Injection. Kleine Karten kürzen den Kontext und leaken Sicherheitsmechanismen. Zielen Sie hoch: ≥2 voll ausgestattete Mac Studios oder ein vergleichbares GPU-Rig (~30.000 $+). Eine einzelne 24‑GB‑GPU funktioniert nur für leichtere Prompts mit höherer Latenz. Verwenden Sie die größte/Vollversion des Modells, die Sie betreiben können; stark quantisierte oder „kleine“ Checkpoints erhöhen das Risiko von Prompt Injection (siehe Security).Empfohlen: LM Studio + MiniMax M2.1 (Responses API, Vollversion)
Der aktuell beste lokale Stack. Laden Sie MiniMax M2.1 in LM Studio, aktivieren Sie den lokalen Server (Standard:http://127.0.0.1:1234) und verwenden Sie die Responses API, um das Reasoning vom finalen Text zu trennen.
- Installieren Sie LM Studio: https://lmstudio.ai
- Laden Sie in LM Studio den größten verfügbaren MiniMax‑M2.1‑Build (vermeiden Sie „small“/stark quantisierte Varianten), starten Sie den Server und bestätigen Sie, dass
http://127.0.0.1:1234/v1/modelsihn auflistet. - Halten Sie das Modell geladen; ein Kaltstart erhöht die Startlatenz.
- Passen Sie
contextWindow/maxTokensan, falls sich Ihr LM‑Studio‑Build unterscheidet. - Für WhatsApp bleiben Sie bei der Responses API, damit nur der finale Text gesendet wird.
models.mode: "merge", damit Fallbacks verfügbar bleiben.
Hybrid‑Konfiguration: gehostet primär, lokal als Fallback
Lokal zuerst mit gehostetem Sicherheitsnetz
Tauschen Sie die Reihenfolge von Primär und Fallback; behalten Sie denselben Provider‑Block undmodels.mode: "merge", damit Sie auf Sonnet oder Opus zurückfallen können, wenn die lokale Box ausfällt.
Regionale Bereitstellung / Datenrouting
- Gehostete MiniMax/Kimi/GLM‑Varianten sind auch auf OpenRouter mit regionsgebundenen Endpunkten (z. B. US‑gehostet) verfügbar. Wählen Sie dort die regionale Variante, um den Datenverkehr in Ihrer gewünschten Jurisdiktion zu halten, und nutzen Sie weiterhin
models.mode: "merge"für Anthropic/OpenAI‑Fallbacks. - Rein lokal bleibt der stärkste Datenschutzpfad; gehostetes, regionales Routing ist der Mittelweg, wenn Sie Provider‑Features benötigen, aber die Datenflüsse kontrollieren möchten.
Weitere OpenAI‑kompatible lokale Proxys
vLLM, LiteLLM, OAI‑Proxy oder benutzerdefinierte Gateways funktionieren, wenn sie einen OpenAI‑ähnlichen/v1‑Endpunkt bereitstellen. Ersetzen Sie den obigen Provider‑Block durch Ihren Endpunkt und Ihre Modell‑ID:
models.mode: "merge" bei, damit gehostete Modelle als Fallbacks verfügbar bleiben.
Fehlerbehebung
- Kann das Gateway den Proxy erreichen?
curl http://127.0.0.1:1234/v1/models. - LM‑Studio‑Modell entladen? Neu laden; Kaltstarts sind eine häufige Ursache für „Hängenbleiben“.
- Kontextfehler? Senken Sie
contextWindowoder erhöhen Sie das Server‑Limit. - Sicherheit: Lokale Modelle umgehen providerseitige Filter; halten Sie Agents eng gefasst und lassen Sie die Kompaktierung aktiviert, um die Auswirkungsreichweite von Prompt Injection zu begrenzen.