Token-Nutzung & Kosten

OpenClaw verfolgt Tokens, nicht Zeichen. Tokens sind modellspezifisch, aber die meisten OpenAI‑ähnlichen Modelle liegen im Durchschnitt bei ca. 4 Zeichen pro Token für englischen Text.

Wie der System-Prompt aufgebaut wird

OpenClaw setzt bei jedem Lauf seinen eigenen System-Prompt zusammen. Er enthält:

Werkzeugliste + kurze Beschreibungen
Skills-Liste (nur Metadaten; Anweisungen werden bei Bedarf mit read geladen)
Selbstaktualisierungsanweisungen
Workspace- + Bootstrap-Dateien (AGENTS.md, SOUL.md, TOOLS.md, IDENTITY.md, USER.md, HEARTBEAT.md, BOOTSTRAP.md bei neuen Sitzungen). Große Dateien werden durch agents.defaults.bootstrapMaxChars gekürzt (Standard: 20000). memory/*.md-Dateien werden bei Bedarf über Memory-Tools geladen und nicht automatisch eingefügt.
Zeit (UTC + Benutzerzeitzone)
Antwort-Tags + Heartbeat-Verhalten
Laufzeit-Metadaten (Host/OS/Modell/Thinking)

Die vollständige Aufschlüsselung finden Sie unter System Prompt.

Was im Kontextfenster zählt

Alles, was das Modell erhält, zählt zum Kontextlimit:

System-Prompt (alle oben aufgeführten Abschnitte)
Konversationsverlauf (Nachrichten von Benutzer und Assistent)
Tool-Aufrufe und Tool-Ergebnisse
Anhänge/Transkripte (Bilder, Audio, Dateien)
Kompaktierungszusammenfassungen und Pruning-Artefakte
Provider-Wrapper oder Sicherheits-Header (nicht sichtbar, werden aber mitgezählt)

Für eine praktische Aufschlüsselung (pro injizierter Datei, Tools, Skills und Größe des System-Prompts) verwenden Sie /context list oder /context detail. Siehe Context.

Aktuelle Token-Nutzung anzeigen

Verwenden Sie dies im Chat:

/status → emoji‑reiche Statuskarte mit Sitzungsmodell, Kontextnutzung, Input-/Output-Tokens der letzten Antwort und geschätzten Kosten (nur API‑Schlüssel).
/usage off|tokens|full → fügt jeder Antwort eine pro-Antwort-Nutzungsfußzeile hinzu.
- Bleibt pro Sitzung bestehen (gespeichert als responseUsage).
- OAuth‑Authentifizierung blendet Kosten aus (nur Tokens).
/usage cost → zeigt eine lokale Kostenübersicht aus OpenClaw Session-Logs.

Weitere Oberflächen:

TUI/Web‑TUI: /status + /usage werden unterstützt.
CLI: openclaw status --usage und openclaw channels list zeigen Provider‑Kontingentfenster (keine Kosten pro Antwort).

Kostenschätzung (falls angezeigt)

Kosten werden anhand Ihrer Modell‑Preis-Konfiguration geschätzt:

models.providers.<provider>.models[].cost

Dies sind USD pro 1 Mio. Tokens für input, output, cacheRead und cacheWrite. Wenn Preise fehlen, zeigt OpenClaw nur Tokens an. OAuth‑Tokens zeigen niemals Dollar‑Kosten an.

Cache‑TTL und Auswirkungen von Pruning

Provider‑Prompt‑Caching gilt nur innerhalb des Cache‑TTL‑Fensters. OpenClaw kann optional Cache‑TTL‑Pruning ausführen: Die Sitzung wird bereinigt, sobald der Cache‑TTL abgelaufen ist, und anschließend wird das Cache‑Fenster zurückgesetzt, sodass nachfolgende Anfragen den frisch gecachten Kontext wiederverwenden können, anstatt den gesamten Verlauf erneut zu cachen. Dies hält die Cache‑Schreibkosten niedrig, wenn eine Sitzung über den TTL hinaus inaktiv ist. Konfigurieren Sie dies in der Gateway‑Konfiguration und sehen Sie die Verhaltensdetails unter Session pruning. Der Heartbeat kann den Cache über Leerlaufphasen hinweg warm halten. Wenn Ihr Modell‑Cache‑TTL 1h beträgt, kann das Setzen des Heartbeat‑Intervalls knapp darunter (z. B. 55m) das erneute Cachen des gesamten Prompts vermeiden und so Cache‑Schreibkosten reduzieren. Für Anthropic‑API‑Preise sind Cache‑Lesevorgänge deutlich günstiger als Input‑Tokens, während Cache‑Schreibvorgänge mit einem höheren Multiplikator berechnet werden. Die aktuellen Sätze und TTL‑Multiplikatoren finden Sie in Anthropics Prompt‑Caching‑Preisen: https://docs.anthropic.com/docs/build-with-claude/prompt-caching

Beispiel: 1‑h‑Cache mit Heartbeat warm halten

agents:
  defaults:
    model:
      primary: "anthropic/claude-opus-4-6"
    models:
      "anthropic/claude-opus-4-6":
        params:
          cacheRetention: "long"
    heartbeat:
      every: "55m"

Tipps zur Reduzierung des Token‑Drucks

Verwenden Sie /compact, um lange Sitzungen zusammenzufassen.
Kürzen Sie große Tool‑Ausgaben in Ihren Workflows.
Halten Sie Skill‑Beschreibungen kurz (die Skill‑Liste wird in den Prompt injiziert).
Bevorzugen Sie kleinere Modelle für ausführliche, explorative Arbeit.

Siehe Skills für die exakte Formel zum Overhead der Skill‑Liste.

CLI-Befehle

RPC und API

Vorlagen

Technische Referenz

Konzept-Interna

Project

Versionshinweise

Experimente

„Token-Nutzung und Kosten“

Token-Nutzung & Kosten

Wie der System-Prompt aufgebaut wird

Was im Kontextfenster zählt

Aktuelle Token-Nutzung anzeigen

Kostenschätzung (falls angezeigt)

Cache‑TTL und Auswirkungen von Pruning

Beispiel: 1‑h‑Cache mit Heartbeat warm halten

Tipps zur Reduzierung des Token‑Drucks

CLI-Befehle

RPC und API

Vorlagen

Technische Referenz

Konzept-Interna

Project

Versionshinweise

Experimente

​Token-Nutzung & Kosten

​Wie der System-Prompt aufgebaut wird

​Was im Kontextfenster zählt

​Aktuelle Token-Nutzung anzeigen

​Kostenschätzung (falls angezeigt)

​Cache‑TTL und Auswirkungen von Pruning

​Beispiel: 1‑h‑Cache mit Heartbeat warm halten

​Tipps zur Reduzierung des Token‑Drucks

Token-Nutzung & Kosten

Wie der System-Prompt aufgebaut wird

Was im Kontextfenster zählt

Aktuelle Token-Nutzung anzeigen

Kostenschätzung (falls angezeigt)

Cache‑TTL und Auswirkungen von Pruning

Beispiel: 1‑h‑Cache mit Heartbeat warm halten

Tipps zur Reduzierung des Token‑Drucks