Gemma 4: Googles leistungsstärkstes Open-Source-KI-Modell

Google hat Gemma 4 vorgestellt – die bisher intelligenteste Familie offener KI-Modelle. Entwickelt für fortschrittliches Reasoning und agentische Workflows, bietet Gemma 4 ein beispielloses Maß an Intelligenz pro Parameter. Das Modell basiert auf derselben Spitzentechnologie wie Gemini 3 und erscheint unter der kommerziell attraktiven Apache 2.0-Lizenz.

Ein Meilenstein für die KI-Community

Die Resonanz auf Gemma war enorm: Seit dem Start der ersten Generation haben Entwickler die Modelle über 400 Millionen Mal heruntergeladen und eine lebendige „Gemmaverse“ mit mehr als 100.000 Varianten geschaffen. Mit Gemma 4 setzt Google diese Erfolgsgeschichte fort und liefert bahnbrechende Funktionen, die bisher nur proprietären Modellen vorbehalten waren.

Auf dem Arena AI Text Leaderboard belegt das 31B-Modell aktuell Platz 3 aller Open-Source-Modelle weltweit. Das 26B-Modell sichert sich Platz 6 – und das, obwohl es Modelle in seiner Größenordnung deutlich übertrifft. Dreiundzwanzig Milliarden Parameter genügen, um Modelle zu übertreffen, die zwanzigmal größer sind.

Vier Varianten für jede Hardware

Gemma 4 ist in vier vielseitigen Größen verfügbar:

E2B – 2 Mrd. (effektiv) für Mobile Geräte, IoT
E4B – 4 Mrd. (effektiv) für Smartphones, Edge-Geräte
26B MoE – 26 Mrd. (3,8 Mrd. aktiv) für niedrige Latenz, Consumer-GPUs
31B Dense – 31 Mrd. für maximale Qualität, Workstations

Die kleineren Modelle (E2B, E4B) wurden speziell für maximale Compute- und Speichereffizienz entwickelt. In enger Zusammenarbeit mit dem Google Pixel-Team, Qualcomm und MediaTek laufen diese multimodalen Modelle vollständig offline auf Smartphones, dem Raspberry Pi und dem NVIDIA Jetson Orin Nano – mit nahezu null Latenz.

Das macht Gemma 4 besonders

Fortschrittliches Reasoning: Mehrstufige Planung und tiefe Logik für mathematische und instruktionsbasierte Aufgaben.
Agentische Workflows: Native Unterstützung für Function-Calling, strukturierte JSON-Ausgabe und System-Anweisungen ermöglichen autonome Agenten.
Code-Generierung: Hochqualitative Offline-Code-Unterstützung verwandelt Workstations in lokale KI-Codeassistenten.
Vision & Audio: Alle Modelle verarbeiten nativ Video und Bilder, die E2B- und E4B-Modelle zusätzlich Audio für Spracherkennung.
Lange Kontextfenster: 128K Token für Edge-Modelle, bis zu 256K für größere Varianten – ideal für ganze Repositories oder lange Dokumente.
140+ Sprachen: Nativ trainiert für eine globale Entwicklergemeinschaft.

Für jede Hardware optimiert

Die größeren Modelle (26B, 31B) passen mit unquantisierten bfloat16-Gewichten effizient auf eine einzelne 80GB NVIDIA H100 GPU. Für lokale Setups laufen quantisierte Versionen nativ auf Consumer-GPUs und powern Coding-Assistenten sowie agentische Workflows.

Der 26B MoE nutzt Mixture-of-Experts, um während der Inferenz nur 3,8 Milliarden seiner Gesamparameter zu aktivieren – für außergewöhnlich schnelle Tokens-pro-Sekunde. Der 31B Dense maximiert die rohe Qualität und bietet eine starke Grundlage für Fine-Tuning.

Offener gehts nicht: Apache 2.0

Auf Basis von Nutzerfeedback erscheint Gemma 4 unter der Apache 2.0-Lizenz. Das bedeutet vollständige Entwicklerfreiheit und digitale Souveränität: volle Kontrolle über Daten, Infrastruktur und Modelle – ohne restrictive Barrieren. Ob on-premise oder in der Cloud, der Einsatz ist frei und kommerziell nutzbar.

Sofort loslegen

Gemma 4 ist ab Tag eins integriert in Google AI Studio (31B, 26B MoE), Hugging Face (Transformers, TRL, Transformers.js, Candle), Ollama, LM Studio, vLLM, llama.cpp, MLX, NVIDIA NIM, NeMo, Unsloth, SGLang und Android AICore Developer Preview.

Modelle können auf Hugging Face, Kaggle und Ollama heruntergeladen werden. Für das Fine-Tuning stehen Google Colab, Vertex AI und eigene Gaming-GPUs zur Verfügung.

Wer die Grenzen des Möglichen ausloten möchte, kann sich außerdem am Gemma 4 Good Challenge auf Kaggle beteiligen und Produkte entwickeln, die positiven Wandel schaffen.

AI News