Gemma 4: Multimodale KI-Intelligence direkt auf dem Endgerät

Google DeepMind hat die Gemma-4-Familie multimodaler Modelle auf Hugging Face veröffentlicht – komplett open source unter Apache 2-Lizenz. Die Modelle unterstützen Bild, Text und Audio und sind in Größen erhältlich, die sich ideal für den Einsatz auf Endgeräten eignen.

Die vier Modellgrößen

Gemma 4 kommt in vier Varianten: Gemma 4 E2B (2,3B effektiv, 128K Kontext), Gemma 4 E4B (4,5B effektiv, 128K Kontext), Gemma 4 31B (dense, 256K Kontext) und Gemma 4 26B A4B (MoE mit 4B aktiven/26B Gesamt). Alle Modelle gibt es als Base- und Instruction-Fine-Tuned-Varianten.

Neue Architektur-Komponenten

Zwei herausragende Neuerungen: Per-Layer Embeddings (PLE) – eine zweite Embedding-Tabelle, die jede Decoder-Schicht mit einem eigenen kontextbewussten Signal versorgt, und Shared KV Cache – die letzten Schichten des Modells teilen sich Key-Value-Zustände früherer Schichten, was Speicher und Rechenleistung spart.

Performance und Einsatz

Das 31B-dichte Modell erreicht einen geschätzten LMArena-Score von 1452, während das 26B-MoE-Modell 1441 Punkte mit nur 4B aktiven Parametern erzielt. Die Modelle sind mit Transformers, llama.cpp, MLX, WebGPU, Mistral.rs und Unsloth kompatibel und lassen sich direkt auf Edge-Geräten wie dem NVIDIA Jetson Orin Nano ausführen.

Quelle: huggingface.co/blog/gemma4