NVIDIA Spectrum-X — the Open, AI-Native Ethernet Fabric — Sets the Standard for Gigascale AI, Now With MRC

Die Entwicklung leistungsstarker KI-Rechenzentren erfordert Netzwerkinfrastrukturen, die mit dem rasanten Tempo der künstlichen Intelligenz mithalten können. NVIDIA Spectrum-X Ethernet etabliert sich dabei als führende AI-Native Networking-Plattform und erhält durch das Multipath Reliable Connection-Protokoll eine entscheidende Weiterentwicklung. Erfahren Sie, wie Branchenführer wie OpenAI, Microsoft und Oracle mit MRC ihre Gigascale-AI-Fabriken auf die nächste Stufe heben.

MRC: Intelligentes Multipath-Routing für maximale GPU-Auslastung

Von der Einbahnstraße zum intelligenten Straßennetz

MRC (Multipath Reliable Connection) ist ein RDMA-Transportprotokoll, das den Datenverkehr einer einzelnen Verbindung über mehrere Netzwerkpfade verteilt. Dies verbessert Durchsatz, Lastverteilung und Verfügbarkeit in großen KI-Trainingsnetzwerken erheblich. Statt einer einzelnen überlasteten Leitung entsteht so ein dynamisches Straßennetz, das Engpässe und Ausfälle in Echtzeit umgeht.

Höchste Auslastung auch unter Last

Durch die Lastverteilung über alle verfügbaren Pfade erhält jede GPU die benötigte Bandbreite während des gesamten Trainings. Selbst bei Überlastung vermeidet MRC blockierte Wege dynamisch und in Echtzeit. Bei Datenverlusten sorgt eine intelligente Retransmission für präzise Wiederherstellung und minimiert die Auswirkungen kurzer Unterbrechungen auf Langzeit-Jobs.

Resilienz in Hardwaregeschwindigkeit

Mikrosekundenschnelle Fehlererkennung

Ein besonderes Merkmal von MRC auf Spectrum-X Ethernet ist die Ausfallsicherheit in massivem Maßstab. Die Fehlerumgehungstechnologie erkennt einen Netzwerkausfall innerhalb von Mikrosekunden und leitet den Verkehr automatisch in der Hardware neu. Für KI-Trainingscluster, in denen tausende GPUs synchronisiert bleiben müssen, ist dies essenziell: Selbst kurze Netzwerkunterbrechungen können ganze Jobs verlangsamen oder unterbrechen.

Multiplanare Architektur für gigascale Skalierung

Ein weiterer Baustein ist das multiplanare Netzwerkdesign, das OpenAI gemeinsam mit Spectrum-X Ethernet und MRC einsetzt. Mehrere unabhängige Netzwerk-Fabrics bieten alternative Kommunikationswege zwischen GPUs. Die Multiplane-Fähigkeit von Spectrum-X Ethernet unterstützt hardwarebeschleunigtes Load Balancing über diese Ebenen hinweg. So bleiben Latenzen vorhersagbar niedrig, während die Infrastruktur auf Hunderttausende GPUs skaliert.

Offene Standards und industrielle Zusammenarbeit

Von der Produktionsreife zur Open Specification

MRC wurde zunächst auf NVIDIA Spectrum-X Ethernet Hardware produktiv erprobt und ist nun als offene Spezifikation über das Open Compute Project verfügbar. Dies zeigt die Stärke der Plattform: Spezialisierte Hardware, tiefe Telemetrie und intelligente Fabric-Steuerung arbeiten zusammen, um neue Protokolle schnell vom Konzept bis zur Gigascale-Produktion zu führen.

Flexibilität durch adaptive Transportmodelle

Spectrum-X Ethernet bietet Unternehmen die Wahl zwischen verschiedenen RDMA-Transportmodellen. Sowohl Adaptive RDMA als auch MRC und weitere benutzerdefinierte Protokolle laufen nativ auf NVIDIA ConnectX SuperNICs und Spectrum-X Ethernet Switches. Diese Flexibilität ermöglicht es Kunden, den optimalen Transport für ihre spezifischen Workloads auszuwählen, ohne die zugrunde liegende Hardware-Infrastruktur wechseln zu müssen.

Fazit: Die Zukunft der AI-Native Networking-Infrastruktur

Das MRC-Protokoll unterstreicht erneut, warum NVIDIA Spectrum-X Ethernet als flexible, komponierbare Plattform für moderne KI-Infrastrukturen führt. Für die nächste Generation AI-Fabriken müssen Netzwerke nicht nur schnell sein, sondern intelligent, resilient und auf offenen Standards basieren. Mit MRC erfüllt Spectrum-X Ethernet all diese Anforderungen und setzt den Maßstab für fortgeschrittenes AI Networking in der Gigascale-Ära.

Quelle

Die vollständigen Details zur Veröffentlichung finden Sie im Originalbeitrag von NVIDIA: https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/