DeepSeek V4: KI-Modell mit 1M Token Kontext für Agenten

Hugging Face hat die neue DeepSeek-V4-Serie vorgestellt: Zwei MoE-Modelle mit unglaublichen 1-Million-Token-Kontextfenstern, die speziell für agentic AI-Workloads optimiert sind. DeepSeek-V4-Pro bietet 1,6 Billionen Parameter mit 49 Milliarden aktiven, während V4-Flash mit 284 Milliarden Parametern und 13 Milliarden aktiven eine leichtere Alternative darstellt.

Der entscheidende Durchbruch liegt nicht in den Benchmark-Zahlen – diese sind wettbewerbsfähig, aber nicht State-of-the-Art – sondern in der Architektur für effiziente Langkontext-Verarbeitung. V4 reduziert den KV-Cache-Speicher auf rund 2 Prozent im Vergleich zu herkömmlichen Architekturen und benötigt nur 27 Prozent der FLOPs von Vorgängermodellen.

Hybrid-Attention: CSA und HCA

Die Effizienzgewinne stammen von zwei aufeinander abgestimmten Aufmerksamkeitsmechanismen: Compressed Sparse Attention (CSA) komprimiert KV-Einträge um das Vierfache, während Heavily Compressed Attention (HCA) mit 128-facher Kompression arbeitet. Diese wechseln sich in den 61 Schichten des V4-Pro-Modells ab.

Für Agenten besonders relevant: V4 behält Reasoning-Inhalte über Tool-Call-Runden hinweg bei – ein entscheidender Vorteil für mehrstufige Agent-Aufgaben. Zudem führt das Modell ein XML-basiertes Tool-Call-Format mit dedizierten Tokens ein, das Parsing-Fehler deutlich reduziert.

Auf Agent-Benchmarks schneidet V4-Pro-Max hervorragend ab: 67,9 auf Terminal Bench 2.0, 80,6 auf SWE Verified und 73,6 auf MCPAtlas Public – nahe am Niveau geschlossener Frontier-Modelle.

Quelle: https://huggingface.co/blog/deepseekv4