OpenAI: Agentic Workflows bis zu 40 % schneller mit WebSockets

OpenAI hat die Responses API um WebSocket-Unterstützung erweitert — und damit agentic Workflows um bis zu 40 % beschleunigt. Die neue Technologie ermöglicht persistente Verbindungen statt einzelner HTTP-Anfragen und bringt die volle Geschwindigkeit der neuesten Modelle direkt zu den Entwicklern.

Das Latenzproblem bei Agent-Loops

Wenn Codex einen Bug behebt, durchsucht er den Code, liest Dateien, macht Änderungen und führt Tests aus. Dahinter stecken Dutzende von Hin- und Herbewegungen über die Responses API: nächste Aktion bestimmen, Tool ausführen, Ergebnis zurücksenden, wiederholen.

Früher war die Modell-Inferenz auf GPUs der Flaschenhals. Mit immer schnelleren Modellen — von 65 auf nahezu 1.000 Tokens pro Sekunde — wurde der API-Overhead zum neuen Engpass.

Die Lösung: Persistent WebSockets

Statt bei jeder Anfrage eine neue HTTP-Verbindung aufzubauen und den gesamten Konversationsverlauf neu zu verarbeiten, hält WebSocket-Mode eine persistente Verbindung offen und cached den Zustand im Speicher.

So funktioniert es

Der Server speichert den vorherigen Response-Zustand in einem in-memory Cache
Folgeanfragen mit previous_response_id greifen auf diesen Cache zurück
Nur neue Informationen müssen validiert und verarbeitet werden
Tokenisierung, Safety-Checks und Modell-Routing werden wiederverwendet

Die Ergebnisse sprechen für sich

Die Auswirkungen nach dem Launch waren sofort spürbar:

Codex hat den Großteil des Traffics auf WebSockets umgestellt
Vercel AI SDK meldete Latenzreduzierungen von bis zu 40 %
Cline ist bei Multi-File-Workflows 39 % schneller
Cursor berichtet bis zu 30 % schnellere OpenAI-Modelle

Für GPT-5.3-Codex-Spark wurde das Ziel von 1.000 TPS erreicht — mit Spitzenwerten von bis zu 4.000 TPS.

Warum WebSockets und nicht gRPC?

OpenAI prüfte verschiedene Ansätze, einschließlich gRPC bidirectional streaming. WebSockets gewannen, weil sie als einfacher Message-Transport-Protokoll die bestehenden API-Input- und Output-Strukturen unverändert lassen — ein developer-friendly Drop-in.

Ausblick

WebSocket-Mode ist laut OpenAI eine der bedeutendsten neuen Funktionen der Responses API seit dem Launch im März 2025. Von der Idee bis zur Produktion vergingen nur wenige Wochen. Als Modell-Inferenz immer schneller wird, müssen auch die umgebenden Systeme mithalten — und WebSockets sind ein wichtiger Baustein dafür.