Google DeepMind hat Gemini Robotics-ER 1.6 vorgestellt – ein signifikantes Upgrade ihres reasoning-first Modells, das Robotern ermöglicht, ihre Umgebung mit beispielloser Präzision zu verstehen. Das Modell verbindet digitale Intelligenz mit physischem Handeln und bringt eine neue Ebene der Autonomie in die nächste Generation physischer KI-Agenten.
Embodied Reasoning: Die Brücke zwischen digital und physisch
Für Roboter, die wirklich hilfreich im Alltag und in der Industrie sein sollen, reicht es nicht aus, Anweisungen zu befolgen – sie müssen über die physische Welt reasoning betreiben. Von der Navigation durch komplexe Einrichtungen bis zum Ablesen von Druckmessgeräten ist das „embodied reasoning“ entscheidend, um die Lücke zwischen digitaler Intelligenz und physischer Aktion zu schließen.
Das Modell spezialisiert sich auf reasoning-Fähigkeiten für die Robotik, darunter visuelles und räumliches Verständnis, Aufgabenplanung und Erfolgserkennung. Es fungiert als High-Level-Reasoning-Modell für Roboter und kann native Tools wie Google Search, vision-language-action models (VLAs) oder benutzerdefinierte Funktionen aufrufen.
Pointing: Fundament des räumlichen Reasonings
Pointing ist eine fundamentale Fähigkeit für embodied reasoning und entwickelt sich mit jeder Modell-Generation weiter. Points können viele Konzepte ausdrücken – von präziser Objekterkennung und Zählung über relationale Logik (z.B. „das kleinste Element in einer Menge“) bis hin zu Bewegungsreasoning und Constraint-Compliance.
Gemini Robotics-ER 1.6 kann Points als Zwischenschritte für komplexere Aufgaben nutzen. In Tests identifizierte das Modell korrekt die Anzahl von Hämmern (2), Scheren (1), Pinseln (1) und Zangen (6), während es gleichzeitig korrekt ignorierte, was nicht vorhanden war – im Gegensatz zu Vorgängerversionen, die Objekte halluzinierten.
Instrumentenablesen: Zusammenarbeit mit Boston Dynamics
Eine besondere Neuerung ist das Instrumentenablesen – entdeckt durch enge Zusammenarbeit mit Partner Boston Dynamics. Industrieanlagen enthalten zahlreiche Messinstrumente wie Thermometer, Druckmessgeräte und Chemikalien-Sichtgläser, die kontinuierlich überwacht werden müssen. Der Boston-Dynamics-Roboter Spot kann so durch die Anlage navigieren und Instrumente autonom ablesen.
Dafür nutzt das Modell Agentic Vision, das visuelles Reasoning mit Code-Ausführung kombiniert: Das Modell zoomt zuerst auf kleine Details, verwendet Pointing und Code zur Proportionsschätzung und wendet dann Weltwissen zur Interpretation an – bis hin zur Sub-Tick-Genauigkeit bei analogen Messgeräten.
Safety First: Sicherster Roboter-Modell-Release
Gemini Robotics-ER 1.6 ist das sicherste Roboter-Modell von Google bisher. Es zeigt überlegene Compliance mit Gemini-Sicherheitsrichtlinien bei adversarialen räumlichen Reasoning-Aufgaben und verbesserte Fähigkeit zur Einhaltung physischer Sicherheitseinschränkungen. Auf Safety-Instruction-Following-Aufgaben improved das Modell substanziell gegenüber der Vorgängerversion.
Das Modell ist ab sofort über die Gemini API und Google AI Studio für Entwickler verfügbar.
Quelle: DeepMind Blog