Google DeepMind Gemma4  Bild © GoogleGoogle DeepMind Gemma4 (Bild © Google)

Das 12B-Modell bietet einen deutlichen Effizienzsprung, wobei die Benchmark-Leistung fast an die des größeren 26B-Modells heranreicht. Dies ermöglicht es dir, komplexe mehrstufige Schlussfolgerungen und agentische Workflows lokal auszuführen, ohne umfangreiche Cloud-Computing-Ressourcen zu benötigen.

Google DeepMind Gemma4 BenchmarkGoogle DeepMind Gemma4 Benchmark (Bild © Google)

Um die Zugänglichkeit und Geschwindigkeit weiter zu verbessern, hat Google DeepMind quantisierungsbewusste Trainingsgewichte für die gesamte Gemma-4-Produktpalette veröffentlicht. Während herkömmliche Quantisierung oft zu einem Verlust an Modellgenauigkeit führt, bindet QAT den Quantisierungs-Prozess direkt in die Trainingsphase ein. Dieser Ansatz minimiert den Speicherbedarf und beschleunigt die Token-Generierung, während die Ausgabequalität im Vergleich zu den ursprünglichen Gewichten erhalten bleibt.

Google DeepMind ModelsGoogle DeepMind Models (Bild © Google)

Diese Optimierungen sorgen für eine breitere Hardwarekompatibilität, wobei Leistungssteigerungen bei Chips von NVIDIA, AMD, Intel, Qualcomm und Apple zu beobachten sind. Die QAT-Gewichte sind derzeit für eine breite Palette von Modellgrößen verfügbar, darunter die Versionen E2B, E4B, 12B, 26B und 31B.

Die Integration des neuen Modells und der Gewichte wurde über Ollama optimiert. Nutzer können das 12B-Modell in verschiedenen Entwicklertools und Anwendungen wie Claude Code, Codex App, Hermes Agent und OpenClaw sowie für allgemeine Chat-Zwecke einsetzen.