DeepSeek-V4: Ein Millionen-Token-Kontext, den Agenten wirklich nutzen können

DeepSeek hat V4 veröffentlicht – zwei MoE-Checkpoints auf dem Hugging Face Hub: DeepSeek-V4-Pro mit 1,6 Billionen Gesamtparametern (49B aktiv) und DeepSeek-V4-Flash mit 284B Gesamt-/13B aktiv. Beide verfügen über ein 1-Million-Token-Kontextfenster und sind speziell für effiziente Long-Context-Agent-Aufgaben optimiert.

Das KV-Cache-Problem für Agenten

Ein 1M-Kontextfenster ist nur Kapazität – die Leistung hängt von den Kosten jedes Forward-Passes ab. DeepSeek-V4-Pro benötigt bei 1M Tokens nur 27 % der Single-Token-Inference-FLOPs im Vergleich zu V3.2 und nur 10 % des KV-Cache-Speichers. V4-Flash geht noch weiter: 10 % der FLOPs und 7 % des Cache.

Hybrid Attention: CSA und HCA

Die Effizienzgewinne stammen aus der Aufteilung der Attention in zwei Mechanismen, die abwechselnd über die Schichten verteilt sind. Compressed Sparse Attention (CSA) komprimiert KV-Einträge um den Faktor 4, während Heavily Compressed Attention (HCA) um den Faktor 128 komprimiert. Beide verwenden FP8-Speicherung für die meisten KV-Einträge.

Agent-spezifische Optimierungen

V4 führt drei wichtige Änderungen für Agenten ein: Interleaved Thinking über Tool-Call-Runden hinweg (die Modellbehält den vollständigen Reasoning-History über alle Runden), ein XML-basiertes Tool-Call-Format mit dedizierten Tokens, und DSec – eine auf RL-Rollouts ausgelegte Sandbox-Infrastruktur.

Die Kombination aus effizienter Long-Context-Attention und agentenspezifischem Post-Training macht DeepSeek V4 zu einem der besten Kandidaten für echte Agentic-Aufgaben.

Quelle: huggingface.co/blog/deepseekv4