Auf die Schnelle

Google DeepMind hat am 10. Juni 2026 DiffusionGemma veröffentlicht, ein experimentelles offenes Sprachmodell. Es erzeugt Text per Diffusion und schafft über 1.000 Token pro Sekunde auf einer einzelnen Nvidia H100, vier- bis fünffach schneller. Auf Qualitäts-Benchmarks liegt es aber hinter dem normalen Gemma 4.

Am 10. Juni 2026 hat Google DeepMind ein Modell vorgestellt, das anders funktioniert als fast alles, was im Mittelstand bisher als Künstliche Intelligenz im Einsatz ist. DiffusionGemma erzeugt Text nicht Wort für Wort, sondern in parallel entrauschten Blöcken. Das macht die Ausgabe deutlich schneller. Google nennt das Modell aber im selben Atemzug experimentell und empfiehlt für produktive Fälle weiter Gemma 4. Genau diese Spannung ist der Punkt.

Was discrete diffusion eigentlich macht

Die meisten Sprachmodelle, die du kennst, arbeiten autoregressiv. Sie schreiben ein Token, schauen sich an, was sie gerade geschrieben haben, und hängen das nächste an. So entsteht Text, aber eben sequenziell, ein Schritt nach dem anderen. Ein Token ist dabei grob ein Wortbaustein, ein kurzes Stück Text. Bei langen Antworten summiert sich diese Kette aus Einzelschritten, und genau dort entsteht die spürbare Wartezeit, die du bei einem Chatbot manchmal als langsames Tippen siehst.

DiffusionGemma geht den umgekehrten Weg. Es startet mit einem Block aus 256 Token reinem Rauschen und entrauscht diesen iterativ, bis ein sinnvoller Text übrig bleibt. Mehrere Positionen werden dabei gleichzeitig bearbeitet, nicht nacheinander. Dieses Verfahren heißt discrete diffusion und stammt im Kern aus der Bildgenerierung, wo Diffusionsmodelle seit Jahren der Standard sind. Wer schon einmal gesehen hat, wie ein KI-Bildgenerator aus einem körnigen Rauschbild langsam ein scharfes Motiv herausarbeitet, kennt das Prinzip. DiffusionGemma überträgt genau diese Mechanik auf Text.

Technisch baut DiffusionGemma auf der 26B-A4B-Mixture-of-Experts-Architektur von Gemma 4 auf. Es nutzt also dasselbe Grundgerüst wie das normale Gemma 4, nur mit einem anderen Mechanismus für die Texterzeugung. Mixture of Experts bedeutet, dass nicht das gesamte Modell bei jeder Anfrage rechnet, sondern nur ein Teil davon, eben die jeweils passenden Experten. Das hält die Rechenlast pro Token niedrig, obwohl das Gesamtmodell groß ist.

Der praktische Effekt ist die Geschwindigkeit. Google misst über 1.000 Token pro Sekunde auf einer einzelnen Nvidia H100. Das ist vier- bis fünffach mehr Token-Ausgabe als bei der klassischen Token-für-Token-Methode. Nvidia hat das Modell zusätzlich für die lokale Nutzung beschleunigt, also für den Betrieb auf eigener Hardware statt nur in einem entfernten Rechenzentrum. Wer pro Tag große Textmengen durchschiebt, merkt einen solchen Faktor sofort an Durchsatz und Rechenkosten.

Schnell heißt nicht besser

Hier kommt der ehrliche Teil. DiffusionGemma ist schneller, aber nicht klüger.

Auf etablierten Benchmarks schneidet das Modell schlechter ab als das reguläre Gemma 4. Auf MMLU, dem Standardtest für allgemeines Wissen und Verständnis, und auf Coding-Aufgaben liegt es hinter dem autoregressiven Pendant. Google macht daraus kein Geheimnis. Das Unternehmen positioniert DiffusionGemma ausdrücklich als experimentell und rät bei Anwendungen, in denen Qualität über Geschwindigkeit geht, weiter zu Gemma 4.

Das ist eine bemerkenswert nüchterne Ansage für eine Modell-Veröffentlichung. Die meisten Anbieter verkaufen jedes neue Modell als den nächsten großen Schritt. Google sagt hier offen: das hier ist ein Forschungsobjekt, kein Produktionswerkzeug. Diese Ehrlichkeit ist selten, und sie ist hilfreich, weil sie dir die Einschätzung abnimmt.

Warum ist die Qualität niedriger? Das parallele Entrauschen eines ganzen Blocks ist schwerer zu kontrollieren als das saubere Anhängen eines einzelnen Token. Beim autoregressiven Verfahren steht jeder neue Baustein bereits im Kontext aller vorigen. Beim Diffusionsansatz entstehen viele Bausteine gleichzeitig, und das Modell muss sie im Nachgang stimmig zusammenfügen. Das ist der Preis für die Geschwindigkeit, und genau daran arbeitet die Forschung gerade.

Wer das überliest und DiffusionGemma im echten Betrieb gegen ein etabliertes Modell tauscht, nur weil die Token schneller herauskommen, holt sich die schwächere Qualität als Preis. Bei einer juristischen Recherche oder einer Vertragsklausel zählt nicht, wie schnell der Text kommt, sondern ob er stimmt. Tempo hilft dir nichts, wenn das Ergebnis am Ende eine zweite Prüfschleife braucht.

Offen, lokal, Apache 2.0

Praktisch interessant ist das Modell trotzdem, vor allem wegen seiner Verfügbarkeit. DiffusionGemma steht unter der Apache-2.0-Lizenz und ist auf Hugging Face, Kaggle und Google Cloud Vertex AI zu bekommen.

Apache 2.0 ist eine offene, permissive Lizenz. Du darfst das Modell herunterladen, selbst betreiben, anpassen und auch kommerziell einsetzen. Das ist ein anderer Rahmen als bei geschlossenen Modellen, die nur über eine Programmierschnittstelle eines US-Anbieters laufen. Die Wahl, ob ein Modell offen oder geschlossen ist, klingt nach einem Detail für Entwickler, hat aber direkte Folgen für Datenschutz, Kosten und Abhängigkeit.

Zusammen mit der Nvidia-Beschleunigung für lokale Nutzung ergibt sich daraus ein Szenario, das für bestimmte Aufgaben spannend wird: ein offenes Modell, das auf eigener Hardware läuft und sehr hohe Durchsätze schafft. Für Massen-Textverarbeitung, bei der Tempo wichtiger ist als die letzte Prozentstelle Qualität, kann das ein echter Hebel sein. Denk an das automatische Sortieren großer Mengen von E-Mails, das Verschlagworten von Dokumenten oder das Umschreiben vieler kurzer Texte in einem Schwung.

Wichtig dabei: Selbst-Hosting ist kein Selbstläufer. Du brauchst eine geeignete Grafikkarte und das Wissen, wie man ein solches Modell aufsetzt und betreibt. Für viele kleine Firmen ist das heute eine Hürde, kein Knopfdruck.

Warum Diffusion als Paradigma zählt

Den größeren Wert von DiffusionGemma siehst du nicht im einzelnen Modell, sondern in der Richtung. Seit Jahren laufen Sprachmodelle autoregressiv. Diffusion ist ein alternatives Paradigma, das in der Textwelt bisher kaum eine Rolle gespielt hat. Dass ein Labor wie Google DeepMind das ernsthaft als offenes Modell vorlegt, zeigt: die Branche probiert grundsätzlich neue Wege, wie Text überhaupt entsteht.

Das ist die Art Nachricht, die im Tagesgeschäft eines KMU nichts ändert und trotzdem wichtig ist. Wir sehen in unseren DigiMan-Kursen regelmäßig, dass Teilnehmer jede neue Modellankündigung sofort als Handlungsdruck lesen. Das ist verständlich, aber meistens falsch. Nicht jede Forschungsveröffentlichung ist ein Werkzeug für nächsten Montag. Manche sind ein Hinweis darauf, wohin sich die Werkzeuge in ein, zwei Jahren bewegen.

Diffusion könnte einer dieser Hinweise sein. Schnellere und günstigere Inferenz bei Texten würde bedeuten, dass KI-gestützte Massenverarbeitung billiger wird. Heute ist das noch ein Experiment mit Qualitätsabschlag. Ob es reift, entscheidet sich in den nächsten Generationen, nicht heute.

Was das für KMU bedeutet

Für den Mittelstand ist DiffusionGemma im Moment kein produktives Werkzeug, und Google sagt das selbst. Wenn du gerade KI in Angebote, Buchhaltung oder Kundenkommunikation einführst, bleibt ein etabliertes Modell die richtige Wahl. Geschwindigkeit ohne verlässliche Qualität bringt dich bei einem Mandantenbrief oder einer Rechnung nicht weiter.

Der ehrliche Mehrwert liegt im Horizont. Wer Prozesse mit sehr hohem Textvolumen hat, also tausende Dokumente klassifizieren, zusammenfassen oder umschreiben muss, sollte das Diffusionsthema im Blick behalten. Für solche Massenfälle, in denen ein kleiner Qualitätsabstrich verkraftbar ist, wird schnelle und günstige Inferenz früher oder später relevant. DiffusionGemma ist der erste offene Vorgeschmack darauf, noch unausgereift, aber sichtbar.

Die praktische Konsequenz ist banal und genau deshalb wichtig. Du musst nicht jedes experimentelle Modell ausprobieren. Du musst nur unterscheiden können, was ein fertiges Werkzeug ist und was ein Forschungssignal. Wer in einem DigiMan-Kurs lernt, diese Unterscheidung selbst zu treffen, spart sich viele teure Spielereien mit Modellen, die für seinen Anwendungsfall noch gar nicht gemacht sind.

Häufige Fragen

Was ist DiffusionGemma und was kann es?

Google DeepMind veröffentlichte am 10. Juni 2026 DiffusionGemma, ein experimentelles offenes Sprachmodell. Es erzeugt Text nicht Wort für Wort, sondern entrauscht 256-Token-Blöcke parallel, ein Verfahren namens discrete diffusion. Es baut auf der 26B-A4B-Mixture-of-Experts-Architektur von Gemma 4 auf und schafft über 1.000 Token pro Sekunde auf einer einzelnen Nvidia H100.

Ist DiffusionGemma besser als das normale Gemma 4?

Nein, es ist schneller, aber nicht klüger. Auf etablierten Benchmarks wie MMLU und bei Coding-Aufgaben schneidet DiffusionGemma schlechter ab als das reguläre Gemma 4. Google positioniert das Modell ausdrücklich als experimentell und rät bei Anwendungen, in denen Qualität über Geschwindigkeit geht, weiter zu Gemma 4. Das parallele Entrauschen ist schwerer zu kontrollieren.

Unter welcher Lizenz steht DiffusionGemma?

DiffusionGemma steht unter der Apache-2.0-Lizenz und ist auf Hugging Face, Kaggle und Google Cloud Vertex AI verfügbar. Das ist eine offene, permissive Lizenz: Du darfst das Modell herunterladen, selbst betreiben, anpassen und kommerziell einsetzen. Nvidia hat es zusätzlich für die lokale Nutzung auf eigener Hardware beschleunigt.

Ist DiffusionGemma für den Mittelstand schon nutzbar?

Im Moment kein produktives Werkzeug, und Google sagt das selbst. Wer KI in Angebote, Buchhaltung oder Kundenkommunikation einführt, bleibt bei einem etablierten Modell. Spannend wird es für Prozesse mit sehr hohem Textvolumen, etwa tausende Dokumente klassifizieren oder zusammenfassen, wo ein kleiner Qualitätsabstrich verkraftbar ist. Selbst-Hosting braucht aber GPU und Know-how.

Mehr über KI im Mittelstand lernen?

Im kostenlosen KI-Schnupperkurs zeigen wir in fünf Lektionen, wie kleine und mittlere Firmen KI praktisch einsetzen. Vollkurs Digitalisierungsmanager mit Bildungsgutschein. Förderwege: Bildungsgutschein, QCG und AFBG im Vergleich.


Zuletzt aktualisiert: 14.06.2026. Stand der Recherche: 14.06.2026.