DiffusionGemma: Das bringt die parallele Textdiffusion für schnellere lokale Inferenz
Mit der Veröffentlichung von DiffusionGemma wird ein experimenteller Ansatz zur Textgenerierung eingeführt, der sich von der sequenziellen, tokenweisen Verarbeitung abwendet, wie sie für autoregressive Large Language Models (LLMs) typisch ist. Durch den Einsatz von Textdiffusion kann dieses 26-Milliarden-Mixture-of-Experts-Modell (MoE) ganze Textblöcke gleichzeitig generieren, was die Latenz bei lokalen Bereitstellungen deutlich reduziert.

