OpenAI hat die Responses API um WebSocket-Unterstützung erweitert — und damit agentic Workflows um bis zu 40 % beschleunigt. Die neue Technologie ermöglicht persistente Verbindungen statt einzelner HTTP-Anfragen und bringt die volle Geschwindigkeit der neuesten Modelle direkt zu den Entwicklern.
Das Latenzproblem bei Agent-Loops
Wenn Codex einen Bug behebt, durchsucht er den Code, liest Dateien, macht Änderungen und führt Tests aus. Dahinter stecken Dutzende von Hin- und Herbewegungen über die Responses API: nächste Aktion bestimmen, Tool ausführen, Ergebnis zurücksenden, wiederholen.
Früher war die Modell-Inferenz auf GPUs der Flaschenhals. Mit immer schnelleren Modellen — von 65 auf nahezu 1.000 Tokens pro Sekunde — wurde der API-Overhead zum neuen Engpass.
Die Lösung: Persistent WebSockets
Statt bei jeder Anfrage eine neue HTTP-Verbindung aufzubauen und den gesamten Konversationsverlauf neu zu verarbeiten, hält WebSocket-Mode eine persistente Verbindung offen und cached den Zustand im Speicher.
So funktioniert es
- Der Server speichert den vorherigen Response-Zustand in einem in-memory Cache
- Folgeanfragen mit
previous_response_idgreifen auf diesen Cache zurück - Nur neue Informationen müssen validiert und verarbeitet werden
- Tokenisierung, Safety-Checks und Modell-Routing werden wiederverwendet
Die Ergebnisse sprechen für sich
Die Auswirkungen nach dem Launch waren sofort spürbar:
- Codex hat den Großteil des Traffics auf WebSockets umgestellt
- Vercel AI SDK meldete Latenzreduzierungen von bis zu 40 %
- Cline ist bei Multi-File-Workflows 39 % schneller
- Cursor berichtet bis zu 30 % schnellere OpenAI-Modelle
Für GPT-5.3-Codex-Spark wurde das Ziel von 1.000 TPS erreicht — mit Spitzenwerten von bis zu 4.000 TPS.
Warum WebSockets und nicht gRPC?
OpenAI prüfte verschiedene Ansätze, einschließlich gRPC bidirectional streaming. WebSockets gewannen, weil sie als einfacher Message-Transport-Protokoll die bestehenden API-Input- und Output-Strukturen unverändert lassen — ein developer-friendly Drop-in.
Ausblick
WebSocket-Mode ist laut OpenAI eine der bedeutendsten neuen Funktionen der Responses API seit dem Launch im März 2025. Von der Idee bis zur Produktion vergingen nur wenige Wochen. Als Modell-Inferenz immer schneller wird, müssen auch die umgebenden Systeme mithalten — und WebSockets sind ein wichtiger Baustein dafür.