Google DeepMind hat Gemma 4 vorgestellt – die intelligentesten Open-Source-Modelle des Unternehmens, die speziell für fortgeschrittenes Reasoning und agentic Workflows konzipiert sind. Die neue Modellfamilie bietet ein beispiellostes Intelligence-per-Parameter-Verhältnis und läuft auf Hardware von Android-Smartphones bis zu Server-GPUs.
Vier Modellgrößen für unterschiedlichste Hardware
Gemma 4 wird in vier Varianten released, die gezielt auf verschiedene Hardware-Plattformen zugeschnitten sind:
- Effective 2B (E2B): Für mobile Geräte, Raspberry Pi und NVIDIA Jetson Orin Nano – läuft komplett offline mit Near-Zero-Latenz
- Effective 4B (E4B): Multimodale Modelle für Edge-Geräte wie Smartphones und IoT-Devices
- 26B Mixture of Experts (MoE): Aktiviert nur 3,8 Milliarden Parameter während der Inferenz für schnelle Tokens pro Sekunde
- 31B Dense: Maximale Qualitätsleistung, läuft auf Single-80GB-NVIDIA-H100-GPUs oder Consumer-GPUs in quantisierter Form
Hardware-First-Ansatz: Vom Smartphone bis zum Rechenzentrum
Die Modellarchitektur wurde von Grund auf für maximale Compute- und Speichereffizienz entwickelt. Die Edge-Modelle (E2B, E4B) aktivieren effektiv nur 2 bzw. 4 Milliarden Parameter während der Inferenz, um RAM und Akkulaufzeit zu schonen. In enger Zusammenarbeit mit Google Pixel, Qualcomm Technologies und MediaTek laufen die multimodalen Modelle komplett offline.
Für den Server-Bereich sind die Modelle auf NVIDIA AI-Infrastruktur optimiert – vom Jetson Orin Nano bis zu Blackwell-GPUs. Zusätzlich wird AMD-GPU-Unterstützung via ROCm™ sowie Trillium- und Ironwood-TPUs für massive Skalierung geboten.
Apache 2.0: Kommerziell frei nutzbar
Gemma 4 wird unter einer kommerziell freundlichen Apache-2.0-Lizenz released – ein wichtiger Unterschied zu vielen konkurrierenden Open-Source-Modellen. Das gibt Entwicklern und Unternehmen vollständige Kontrolle über Daten, Infrastruktur und Modelle, ohne restriktive Barrieren.
Seit dem Launch der ersten Generation hat die Community Gemma über 400 Millionen Mal heruntergeladen und mehr als 100.000 Varianten im Gemmaverse gebaut.
Features und Fähigkeiten
Alle Modelle unterstützen nativ Video- und Bildverarbeitung mit variablen Auflösungen, exzellente OCR- und Chart-Verständnisfähigkeiten sowie Audio-Input für die Edge-Modelle. Der Kontextfenster reicht von 128K (Edge) bis 256K (Large Models), und über 140 Sprachen werden nativ unterstützt.
Die Modelle sind über Hugging Face, Kaggle, Ollama und zahlreiche weitere Plattformen verfügbar.
Quelle: Google AI Blog