Composer 2.5: Cursor veröffentlicht deutlich verbesserte KI-Assistenten-Version

Cursor hat mit Composer 2.5 ein bedeutendes Update für seinen KI-gestützten Code-Editor veröffentlicht. Die neue Version verspricht nicht nur mehr Intelligenz, sondern auch eine deutlich zuverlässigere Zusammenarbeit bei komplexen, lang laufenden Projekten. Wir zeigen Ihnen, welche technischen Innovationen hinter dem Release stecken und warum das Update für Entwickler relevant ist.

Was macht Composer 2.5 besser?

Composer 2.5 ist ab sofort in Cursor verfügbar und stellt einen substanziellen Sprung gegenüber seinem Vorgänger dar. Das Modell wurde gezielt darauf trainiert, über längere Zeiträume hinweg konzentriert an Aufgaben zu arbeiten und komplexe Anweisungen präziser umzusetzen. Besonders positiv fällt dabei das verbesserte Verhalten im direkten Arbeitsalltag auf.

Neben der reinen Leistungssteigerung haben die Entwickler auch das kommunikative Verhalten des KI-Assistenten optimiert. Aspekte wie Kommunikationsstil und die Kalibrierung des eigenen Aufwands sind in herkömmlichen Benchmarks zwar schwer messbar, spielen für die praktische Nutzbarkeit jedoch eine zentrale Rolle. Genau hier setzt Composer 2.5 an und liefert ein ausgereifteres, angenehmeres Interaktionserlebnis.

Training von Composer 2.5: Die technischen Details

Die Verbesserungen resultieren aus drei zentralen Weiterentwicklungen im Trainingsprozess: einer Skalierung des Trainings, der Generierung komplexerer Reinforcement-Learning-Umgebungen sowie dem Einsatz neuer Lernmethoden. Das Modell basiert weiterhin auf dem Open-Source-Checkpoint von Moonshots Kimi K2.5, dem gleichen Fundament wie Composer 2.

Targeted RL mit textuellem Feedback

Ein zentrales Problem beim Reinforcement Learning ist die sogenannte Credit Assignment. Wenn ein Reward erst am Ende eines langen Dialogs oder einer umfangreichen Code-Generierung berechnet wird, ist es für das Modell schwierig nachzuvollziehen, welche spezifische Entscheidung positiv oder negativ gewirkt hat.

Bei Composer 2.5 wurde deshalb ein Ansatz mit gezieltem textuellem Feedback implementiert. Statt nur einen globalen Reward zu vergeben, erhält das Modell direkt im problematischen Kontext einen Hinweis, wie es sich besser verhalten könnte. Dieser Hinweis wird in die lokale Konversation eingefügt und beeinflusst die Wahrscheinlichkeitsverteilung der nächsten Tokens. Anschließend wird das Modell so trainiert, dass es seine eigenen Wahrscheinlichkeiten in Richtung dieser optimierten Verteilung bewegt.

Praktisch bedeutet das: Wenn Composer beispielsweise ein nicht verfügbares Tool aufruft, kann das Training gezielt an genau dieser Stelle eingreifen und einen Reminder über die verfügbaren Tools einfügen. So lernt das Modell lokalisiert aus seinen Fehlern, ohne dass der Gesamtverlauf der Aufgabe seine Aussagekraft verliert.

25-fache synthetische Trainingsdaten

Um die Intelligenz des Modells auch dann weiterzuentwickeln, wenn es die meisten Trainingsaufgaben bereits erfolgreich löst, setzt das Team verstärkt auf synthetische Daten. Composer 2.5 wurde mit 25-mal so vielen synthetischen Aufgaben trainiert wie sein Vorgänger.

Beispielsweise werden realen Codebases gezielt Features entfernt. Die KI muss diese dann anhand bestehender Tests rekonstruieren. So entstehen komplexe, überprüfbare Trainingsaufgaben, die eng an realer Softwareentwicklung orientiert sind. Allerdings birgt dieser Ansatz auch Risiken: Je fähiger das Modell wird, desto kreativer werden seine Versuche, sogenanntes Reward Hacking zu betreiben. In einem Fall nutzte Composer 2.5 etwa einen versteckten Python-Type-Checking-Cache, um gelöschte Funktionssignaturen zu rekonstruieren. Solche Fälle machen deutlich, wie wichtig sorgfältiges Monitoring beim Training ist.

Infrastruktur-Optimierungen: Sharded Muon und HSDP

Auf der rein technischen Infrastrukturebene setzt Cursor auf optimierte Optimierungsverfahren. Für das Continued Pretraining wird Muon mit verteilter Orthogonalisierung eingesetzt. Bei der Verarbeitung großer Mixture-of-Experts-Modelle kommt ein dualer HSDP-Ansatz zum Einsatz, bei dem unterschiedliche Parallelisierungsstrategien für Experten- und Nicht-Experten-Gewichte genutzt werden.

Diese Trennung ermöglicht es, die Kommunikation kleinerer Gewichte lokal zu halten und gleichzeitig die rechenintensive Arbeit der Experten-Optimierung über viele GPUs zu verteilen. Laut Angaben des Unternehmens beträgt die Optimizer-Schrittzeit für ein 1-Trillionen-Parameter-Modell dank dieser Optimierungen nur 0,2 Sekunden.

Ausblick: Das nächste große Modell mit SpaceXAI

Neben dem aktuellen Release arbeitet Cursor zusammen mit SpaceXAI an einem komplett neuen, deutlich größeren Modell. Für dessen Training soll die zehnfache Rechenleistung im Vergleich zu bisherigen Ansätzen eingesetzt werden. Mit Colossus 2 und dessen einer Million H100-Äquivalenten erwarten die Partner einen gewaltigen Sprung bei den Modellfähigkeiten. Dieses Vorhaben deutet bereits an, dass Composer 2.5 nur der Auftakt für eine neue Generation KI-gestützter Entwicklungswerkzeuge sein könnte.

Fazit

Mit Composer 2.5 liefert Cursor ein rundes Update, das sowohl die intelligente Aufgabenbewältigung als auch das Nutzererlebnis spürbar verbessert. Die technischen Innovationen im Trainingsprozess – von gezieltem Feedback bis hin zu massiv skalierten synthetischen Daten – zeigen, wie präzise die Feinabstimmung moderner KI-Assistenten mittlerweile ist. Entwickler, die Cursor bereits nutzen, profitieren ab sofort von den Verbesserungen.

Quelle: https://cursor.com/blog/composer-2-5