DeepSeek hat V4 veröffentlicht – zwei MoE-Checkpoints auf dem Hugging Face Hub: DeepSeek-V4-Pro mit 1,6 Billionen Gesamtparametern (49B aktiv) und DeepSeek-V4-Flash mit 284B Gesamt-/13B aktiv. Beide verfügen über ein 1-Million-Token-Kontextfenster und sind speziell für effiziente Long-Context-Agent-Aufgaben optimiert.
Das KV-Cache-Problem für Agenten
Ein 1M-Kontextfenster ist nur Kapazität – die Leistung hängt von den Kosten jedes Forward-Passes ab. DeepSeek-V4-Pro benötigt bei 1M Tokens nur 27 % der Single-Token-Inference-FLOPs im Vergleich zu V3.2 und nur 10 % des KV-Cache-Speichers. V4-Flash geht noch weiter: 10 % der FLOPs und 7 % des Cache.
Hybrid Attention: CSA und HCA
Die Effizienzgewinne stammen aus der Aufteilung der Attention in zwei Mechanismen, die abwechselnd über die Schichten verteilt sind. Compressed Sparse Attention (CSA) komprimiert KV-Einträge um den Faktor 4, während Heavily Compressed Attention (HCA) um den Faktor 128 komprimiert. Beide verwenden FP8-Speicherung für die meisten KV-Einträge.
Agent-spezifische Optimierungen
V4 führt drei wichtige Änderungen für Agenten ein: Interleaved Thinking über Tool-Call-Runden hinweg (die Modellbehält den vollständigen Reasoning-History über alle Runden), ein XML-basiertes Tool-Call-Format mit dedizierten Tokens, und DSec – eine auf RL-Rollouts ausgelegte Sandbox-Infrastruktur.
Die Kombination aus effizienter Long-Context-Attention und agentenspezifischem Post-Training macht DeepSeek V4 zu einem der besten Kandidaten für echte Agentic-Aufgaben.
Quelle: huggingface.co/blog/deepseekv4