Decoupled DiLoCo — Neue Ära für resilientes, verteiltes KI-Training

Google DeepMind hat Decoupled DiLoCo vorgestellt – eine neuartige Architektur, die das Training von Large Language Models über verteilte Rechenzentren hinweg robuster und effizienter macht. Das Verfahren kombiniert asynchrone Datenflüsse mit stark reduzierter Bandbreitennutzung und könnte die Zukunft des KI-Trainings grundlegend verändern.

## Was ist Decoupled DiLoCo?

Decoupled DiLoCo steht für Distributed Low-Communication und teilt große Trainingsläufe in entkoppelte »Inseln« von Rechenleistung auf. Zwischen diesen Inseln fließen Daten asynchron – was bedeutet, dass lokale Störungen oder Hardware-Ausfälle nicht das gesamte Training lahmlegen.

Im Gegensatz zu herkömmlichen Ansätzen, bei denen tausende Chips in nahezu perfekter Synchronisation arbeiten müssen, isoliert Decoupled DiLoCo lokale Ausfälle. Die其余 Systemteile können weiterhin effizient lernen.

### Zwei Bausteine, eine neue Architektur

Das Verfahren baut auf zwei früheren Innovationen von Google auf:

Pathways – ein verteiltes KI-System, das auf asynchronem Datenfluss basiert
DiLoCo – ein Verfahren, das den Bandbreitenbedarf zwischen verteilten Rechenzentren drastisch reduziert

Decoupled DiLoCo vereint beide Konzepte und ermöglicht so ein flexibleres und fehlertoleranteres Training im großen Maßstab.

## Selbstheilende Infrastruktur

Ein zentrales Merkmal von Decoupled DiLoCo ist seine Fähigkeit zur Selbstheilung. In Tests mit sogenanntem Chaos Engineering – bei dem gezielt Hardware-Ausfälle simuliert wurden – konnte das System den Trainingsprozess auch nach dem Verlust ganzer Lerneinheiten fortsetzen. Sobald die ausgefallenen Einheiten wieder online waren, integrierte sich das System nahtlos wieder.

### Gemma 4 als Beweis

DeepMind testete Decoupled DiLoCo mit Gemma 4-Modellen und konnte nachweisen, dass das System bei Hardware-Ausfällen eine höhere Verfügbarkeit der Lerncluster aufrechterhält als herkömmliche Trainingsmethoden – und dabei die gleiche ML-Leistung auf Benchmark-Ebene erreicht.

## Praxisreifer Großtraining durch Decoupled DiLoCo

Das Verfahren ist nicht nur theoretisch vielversprechend, sondern bereits einsatzbereit für produktionsreifes, vollständig verteiltes Pre-Training:

Ein Modell mit 12 Milliarden Parametern wurde erfolgreich über vier getrennte US-Regionen hinweg trainiert
Die benötigte Bandbreite lag bei nur 2–5 Gbps – ein Wert, der mit bestehender Internet-Infrastruktur zwischen Rechenzentren erreichbar ist
Das Training war mehr als 20-mal schneller als mit herkömmlichen Synchronisationsmethoden

Der Geschwindigkeitsvorteil entsteht dadurch, dass die notwendige Kommunikation in längere Rechenperioden eingebettet wird – statt das Training durch »Blockierungs-Engpässe« zu unterbrechen, bei denen ein Teil des Systems auf einen anderen warten muss.

## Hardware-Mixing: Ältere und neuere Chips gemeinsam nutzen

Ein weiterer Durchbruch: Decoupled DiLoCo ermöglicht das Training mit verschiedenen Hardware-Generationen in einem einzigen Lauf. DeepMind demonstrierte dies mit einer Kombination aus TPU v6e und TPU v5p.

Das hat zwei wichtige Vorteile:

Die Nutzungsdauer bestehender Hardware wird verlängert
Die gesamte Rechenkapazität für das Modelltraining steigt

In den Experimenten erreichten Chips unterschiedlicher Generationen – die mit verschiedenen Geschwindigkeiten liefen – dieselbe ML-Leistung wie Trainingsläufe mit nur einer Chip-Art.

## Warum das wichtig ist

Decoupled DiLoCo markiert einen Paradigmenwechsel im KI-Training. Statt immer größere, zentralisierte Rechencluster zu bauen, kann das Verfahren verteilte und ungenutzte Rechenkapazitäten weltweit nutzen. Stranded Compute wird zu nutzbarer Kapazität.

Für die Zukunft des KI-Trainings bedeutet das: mehr Resilienz, weniger Abhängigkeit von spezieller Infrastruktur und die Möglichkeit, Training über verschiedene Standorte und Hardware-Generationen hinweg zu verteilen – das ist die eigentliche »new frontier«.

Quelle: DeepMind Blog – Decoupled DiLoCo | Paper auf arXiv