DiffusionGemma Release  Bild © GoogleDiffusionGemma Release (Bild © Google)

Im Gegensatz zu herkömmlichen Modellen, die das nächste Token in einer linearen Sequenz vorhersagen, generiert DiffusionGemma Text in parallelen Blöcken. Es beginnt mit einer Leinwand aus zufälligen Platzhalter-Tokens und durchläuft mehrere Durchläufe iterativer Verfeinerung. Während dieses Prozesses legt das Modell die richtigen Tokens fest und nutzt sie als Kontext, um den verbleibenden Text zu verfeinern, bis eine endgültige Ausgabe erreicht ist.

Das Modell ist als „Mixture of Experts“-System mit insgesamt 26 Milliarden Parametern aufgebaut, aktiviert jedoch nur 3,8 Milliarden pro Inferenz. Diese Architektur ermöglicht es, das Modell so zu quantisieren, dass es in 18 GB VRAM passt, wodurch es für High-End-Consumer-GPUs zugänglich wird.

DiffusionGemma BenchmarkDiffusionGemma Benchmark (Bild © Google)

Leistungskennzahlen und Hardwareauslastung

DiffusionGemma wurde entwickelt, um die Speicherbandbreiten-Engpässe zu lösen, die bei der lokalen LLM-Inferenz häufig auftreten. Durch die Erhöhung der Rechenlast pro Durchlauf erreicht es auf dedizierten GPUs eine bis zu viermal höhere Generierungsgeschwindigkeit als autoregressive Modelle. Technische Benchmarks zeigen Geschwindigkeiten von über 1.000 Token pro Sekunde auf der NVIDIA H100 und über 700 Token pro Sekunde auf der GeForce RTX 5090.

DiffusionGemma Intelligence vs LatenceDiffusionGemma Intelligence vs Latence (Bild © Google)

Um den Durchsatz weiter zu steigern, unterstützt das Modell NVFP4-Kernel (4-Bit-Gleitkomma), die die Rechengeschwindigkeit auf NVIDIA Hopper- und Blackwell-Architekturen bei minimalem Genauigkeitsverlust beschleunigen.

DiffusionGemma ModelDiffusionGemma Model (Bild © Google)

Anwendungen in nichtlinearen Textbereichen

Der Einsatz von bidirektionaler Aufmerksamkeit – bei der jedes Token in einem 256-Token-Block auf jedes andere Token achten kann – bietet einen technischen Vorteil für nichtlineare Aufgaben. Dadurch eignet sich DiffusionGemma besonders für:

  • Code-Infilling: Vervollständigung fehlender Codeabschnitte basierend auf dem umgebenden Kontext.
  • Inline-Bearbeitung: Schnelle Iteration an bestimmten Abschnitten eines Textblocks.
  • Komplexe Strukturen: Erstellen von mathematischen Graphen, Aminosäuresequenzen und Lösen von Logikrätseln wie Sudoku, bei denen zukünftige Token die aktuellen beeinflussen.

Implementierung und Qualitätsaspekte

DiffusionGemma bietet zwar erhebliche Geschwindigkeitsvorteile, es gibt jedoch einen dokumentierten Kompromiss bei der Ausgabequalität. Das Modell priorisiert Generierungsgeschwindigkeit und paralleles Layout gegenüber der hohen Präzision, die bei Standard-Gemma-4-Modellen zu finden ist. Folglich ist es als Werkzeug für Forscher und Entwickler positioniert, die sich auf interaktive, geschwindigkeitskritische Arbeitsabläufe konzentrieren, anstatt auf endgültige Produktionsergebnisse.

Das Modell ist unter der Apache 2.0-Lizenz über Hugging Face verfügbar. Die Integration wird durch mehrere Frameworks unterstützt, darunter vLLM, MLX und Hugging Face Transformers, wobei zusätzliche Feinabstimmungsoptionen über Unsloth und NVIDIA NeMo verfügbar sind.