Hugging Face hat die neue DeepSeek-V4-Serie vorgestellt: Zwei MoE-Modelle mit unglaublichen 1-Million-Token-Kontextfenstern, die speziell für agentic AI-Workloads optimiert sind. DeepSeek-V4-Pro bietet 1,6 Billionen Parameter mit 49 Milliarden aktiven, während V4-Flash mit 284 Milliarden Parametern und 13 Milliarden aktiven eine leichtere Alternative darstellt.
Der entscheidende Durchbruch liegt nicht in den Benchmark-Zahlen – diese sind wettbewerbsfähig, aber nicht State-of-the-Art – sondern in der Architektur für effiziente Langkontext-Verarbeitung. V4 reduziert den KV-Cache-Speicher auf rund 2 Prozent im Vergleich zu herkömmlichen Architekturen und benötigt nur 27 Prozent der FLOPs von Vorgängermodellen.
Hybrid-Attention: CSA und HCA
Die Effizienzgewinne stammen von zwei aufeinander abgestimmten Aufmerksamkeitsmechanismen: Compressed Sparse Attention (CSA) komprimiert KV-Einträge um das Vierfache, während Heavily Compressed Attention (HCA) mit 128-facher Kompression arbeitet. Diese wechseln sich in den 61 Schichten des V4-Pro-Modells ab.
Für Agenten besonders relevant: V4 behält Reasoning-Inhalte über Tool-Call-Runden hinweg bei – ein entscheidender Vorteil für mehrstufige Agent-Aufgaben. Zudem führt das Modell ein XML-basiertes Tool-Call-Format mit dedizierten Tokens ein, das Parsing-Fehler deutlich reduziert.
Auf Agent-Benchmarks schneidet V4-Pro-Max hervorragend ab: 67,9 auf Terminal Bench 2.0, 80,6 auf SWE Verified und 73,6 auf MCPAtlas Public – nahe am Niveau geschlossener Frontier-Modelle.