Llama 4 Release im April 2026: Was Mixture-of-Experts für deutsche KMU bedeutet

Am 5. April 2026 hat Meta Llama 4 veröffentlicht. Es ist die erste native multimodale Llama-Generation und bricht mit der bisherigen Architektur. Statt eines monolithischen Modells nutzt Llama 4 ein Mixture-of-Experts-Verfahren, also ein Netzwerk aus Spezialmodellen, von denen pro Anfrage nur ein Bruchteil aktiviert wird. Für die meisten Schlagzeilen sorgt nicht die Technik, sondern eine konkrete Zahl: 10 Millionen Token Kontext bei der Scout-Variante.

Auf einen Blick: Llama 4 ist seit 05.04.2026 verfügbar. Zwei Varianten: Scout (109B Parameter, 10M Token Kontext) und Maverick (400B). Self-Hosting ist DSGVO-konform, aber Hardware-Anforderungen sind hoch. Lizenz Meta Community License erlaubt kommerzielle Nutzung mit Restrictions.

Mixture-of-Experts in einem Satz

Bei klassischen Sprachmodellen wie GPT-4 oder Claude Sonnet wird bei jeder Anfrage das komplette Modell aktiviert. Bei Llama 4 sind die Parameter in Experten-Bereiche aufgeteilt. Pro Query werden nur 17 Milliarden aktive Parameter genutzt, der Rest schläft. Das senkt die Inferenz-Kosten dramatisch und erhöht die Antwortgeschwindigkeit, ohne die Modellgröße zu opfern.

Konkret: Llama 4 Scout hat 109 Milliarden Parameter total, aktiv aber nur 17B pro Query. Maverick hat 400 Milliarden total, ebenfalls 17B aktiv. Der Unterschied liegt in der Tiefe und Breite des Expertennetzes.

Für die Praxis heißt das: Maverick ist klüger, aber nicht teurer im Betrieb pro Anfrage. Allerdings braucht Maverick deutlich mehr GPU-Speicher, weil die Experten irgendwo gespeichert werden müssen, auch wenn sie nicht aktiv sind.

Die zwei Varianten und für wen sie gedacht sind

Scout ist das pragmatische Arbeitstier. 109 Milliarden Parameter total, 17B aktiv, 10 Millionen Token Kontext. Die 10M Token sind der eigentliche Game-Changer. Damit lassen sich ganze Aktenordner, komplette Codebases oder Quartalsberichte am Stück verarbeiten. Bisher musste man bei langen Dokumenten Retrieval-Augmented-Generation aufsetzen, mit Vektor-Datenbank, Chunking, Re-Ranking. Bei Scout reicht oft "alles reinwerfen".

Maverick ist die Premium-Variante. 400 Milliarden Parameter total. Höhere Reasoning-Qualität, bessere Multimodalität, präzisere Code-Generierung. Aber: Maverick läuft nicht auf einer einzelnen High-End-GPU. Wer Maverick in Produktion betreiben will, braucht einen Cluster aus mindestens vier H100 oder vergleichbar.

Für KMU ist die Frage praktisch fast immer: Reicht Scout? In den meisten Fällen lautet die Antwort ja.

Was native Multimodalität bedeutet

Vorgängermodelle (Llama 3.x) konnten Bilder verstehen, wenn man ein zusätzliches Vision-Encoder-Modul anflanschte. Llama 4 ist von Grund auf multimodal trainiert. Text, Bilder und Video gehen direkt in dasselbe Modell. Die Praxisfolge: deutlich konsistentere Ergebnisse bei gemischten Eingaben.

Für KMU wird das interessant in Anwendungsfällen wie:

Schadensanalyse aus Foto und Schadensbeschreibung gleichzeitig
Vertragsdokumente mit eingescannten Anlagen verstehen
Produktkataloge mit Bildern automatisiert kategorisieren
Wartungsprotokolle aus handschriftlichen Notizen plus Maschinenfoto auswerten

Das war alles vorher möglich, aber mit Workarounds. Mit Llama 4 wird es ein einzelner API-Call.

Die Lizenz und ihre Stolperfallen

Llama 4 wird unter der Meta Community License vertrieben. Das ist nicht Open Source im klassischen Sinne, sondern eine "Source Available" Lizenz mit Bedingungen. Die wichtigsten Punkte:

Kommerzielle Nutzung ist erlaubt, aber mit einer Klausel. Unternehmen mit mehr als 700 Millionen Monthly Active Users dürfen Llama 4 nicht einsetzen, ohne mit Meta einen separaten Vertrag abzuschließen. Das richtet sich erkennbar gegen Google, Microsoft, Apple und Amazon. Für deutsche KMU völlig irrelevant.

Wer Llama 4 verwendet, muss einen Hinweis "Built with Llama" anbringen. Bei intern genutzten Tools ist das in der Regel ein Vermerk in der Dokumentation, kein sichtbares Branding.

Modifizierte Versionen müssen weiterhin "Llama" im Namen tragen. Wer also ein eigenes Fine-Tuning macht, kann es nicht "MeinKMU-AI" nennen, sondern "MeinKMU-Llama" oder ähnlich.

Die Lizenz ist kein Showstopper, aber sie ist auch nicht so frei wie eine echte Open-Source-Lizenz. Wer langfristig planen will, sollte sie einmal vom Anwalt einordnen lassen, bevor er Llama 4 in ein eigenes Produkt einbaut.

Self-Hosting und die DSGVO-Frage

Hier ist der Punkt, an dem Llama 4 für deutsche KMU strategisch interessant wird. Wer Llama 4 selbst hostet, baut ein KI-System, bei dem keine einzige Anfrage und keine einzige Antwort einen US-Server erreicht.

Das hat Konsequenzen:

DSGVO-konformes Setup wird trivial. Es gibt keinen Drittlandtransfer, keine Standardvertragsklauseln, keine Diskussion um den US CLOUD Act. Die Daten bleiben in der eigenen Infrastruktur, im eigenen Rechenzentrum oder auf einem deutschen Hosting-Provider.

Mandatsdaten, Patientendaten, Konstruktionsdaten sind unkritisch. Wer unter § 203 StGB fällt oder Geschäftsgeheimnisse hat, die niemals außer Haus dürfen, kann Llama 4 trotzdem einsetzen.

ABER: Self-Hosting bedeutet auch Self-Operating. Modell aktualisieren, GPU-Treiber pflegen, Kontextverwaltung selbst bauen, Inferenz-Server skalieren. Das ist kein Selbstläufer. Wer das ohne Tech-Team versucht, scheitert.

Die DSGVO-Aussage gilt nur fürs Self-Hosting. Wer Llama 4 über Meta-eigene APIs oder über die offiziellen Hosting-Partner nutzt, hat wieder die ganz normale Drittland-Diskussion. Das wird oft falsch dargestellt: "Llama ist DSGVO-konform" ist nur halb wahr.

Was die Hardware tatsächlich kostet

Realistisches Setup für einen mittelständischen Betrieb, der Llama 4 Scout produktiv nutzen will:

Variante eins: Eigene Hardware. Ein Server mit zwei NVIDIA H100 80GB kostet aktuell rund 60.000 Euro netto. Plus Storage, Netzwerk, USV, Klimatisierung. Für den dauerhaften Betrieb kommen Stromkosten von etwa 300 Euro pro Monat dazu. Wartung intern oder über Dienstleister: 5.000 bis 12.000 Euro pro Jahr. Kapazität: ein bis zwei parallele Anfragen mit angemessener Latenz.

Variante zwei: Hosting bei einem deutschen GPU-Anbieter. Hetzner, IONOS, OVH und andere bieten H100-Instanzen ab rund 3 Euro pro Stunde. Wer 8 Stunden am Tag rechnen lässt, landet bei rund 500 Euro pro Monat. DSGVO-konformes Hosting in Frankfurt oder Falkenstein ist verfügbar.

Variante drei: Llama 4 über kommerziellen API-Anbieter. Together AI, Fireworks, Groq bieten Llama 4 als Service an. Pro Million Token deutlich günstiger als GPT-4 oder Claude. Aber: alle drei sind US-Anbieter. Die DSGVO-Vorteile gehen verloren.

Für die meisten KMU ist Variante zwei der pragmatische Mittelweg. Hardware-Investment vermieden, DSGVO-Garantie erhalten, Skalierung möglich.

Maverick lassen wir mal beiseite. Wer Maverick produktiv betreiben will, redet von einem Cluster-Setup mit vier oder acht H100, also Investitionen ab 250.000 Euro oder Mietkosten über 2.000 Euro pro Monat. Das ist Enterprise-Territorium und für die meisten Mittelständler überdimensioniert.

Wo sich das wirklich rechnet

Ein realistisches Beispiel aus unserer Praxis. Ein Maschinenbau-Unternehmen mit 180 Mitarbeitern hatte folgende Ausgangslage. Pro Monat etwa 15.000 ChatGPT-Plus-Anfragen über das Team-Abo (rund 500 Euro). Daneben gelegentliche Nutzung von Claude Pro für lange Dokumente (200 Euro). Hauptanwendungsfall: technische Dokumentation, Übersetzungen, E-Mail-Vorlagen, Recherche.

Drei Probleme: Erstens hatte die Konstruktionsabteilung Bedenken, eigene Bauteildaten in ChatGPT einzugeben. Zweitens schwankte die Latenz bei Claude. Drittens war die monatliche Rechnung über alle Tools zusammen bei 800 Euro plus Mehrwertsteuer.

Die Migration auf Llama 4 Scout via deutschem GPU-Hosting kostet jetzt rund 600 Euro pro Monat fix. Die Datenfrage ist gelöst, weil alles in Falkenstein bleibt. Latenz ist konstant. Die Konstruktionsabteilung nutzt das Tool inzwischen für Bauteilrecherche aus eigenen CAD-Daten und Vorgängerprojekten, was vorher schlicht nicht ging.

Wir sehen in der Praxis: Llama 4 rechnet sich nicht für jeden, aber bei klar definierten Use Cases mit vielen Anfragen oder sensiblen Daten ist die Wirtschaftlichkeit nach drei bis sechs Monaten erreicht.

Nicht jedes KMU braucht Llama 4

Die Vorstellung, jedes Unternehmen müsse jetzt sein eigenes Sprachmodell betreiben, ist falsch. Für viele Mittelständler ist die einfache Lösung weiterhin: Microsoft Copilot in der bestehenden M365-Umgebung, ChatGPT Team mit Datenschutz-Vereinbarung, oder Mistral Le Chat für DSGVO-Sensitives.

Llama 4 lohnt sich, wenn mindestens zwei dieser Punkte zutreffen:

Über 100 Mitarbeiter mit regelmäßiger KI-Nutzung
Datensensibilität (§ 203, Konstruktionsdaten, Mandats- oder Patientendaten)
Eigene IT mit Linux- und GPU-Erfahrung oder Dienstleister-Vertrag
Anwendungsfälle mit langen Kontexten (mehrere 100 Seiten Dokumente am Stück)
Plan, KI in eigene Produkte oder Prozesse fest einzubauen

Wenn keiner dieser Punkte zutrifft, bleibt Llama 4 ein interessantes Forschungsobjekt, aber nicht der nächste praktische Schritt.

Die strategische Lesart

Was Meta mit Llama 4 macht, hat über das einzelne Modell hinaus Bedeutung. Indem Meta ein leistungsfähiges Foundation-Modell unter einer fast-offenen Lizenz veröffentlicht, kommodifiziert es den Markt für proprietäre Modelle. OpenAI und Anthropic stehen unter Druck, ihre Vorteile in Spezialfunktionen, Tooling und Distribution zu suchen, weil das reine Modell-Niveau bald jeder hat.

Für KMU heißt das: Die Bindung an einen einzelnen Anbieter wird unattraktiver. Wer heute eine KI-Strategie aufbaut, sollte sie so gestalten, dass sie zwischen Modellen wechselbar ist. Eine OpenAI-API kann morgen durch eine Llama-API ersetzt werden, wenn die Architektur das vorsieht. Wer das nicht einplant, baut technische Schulden auf.

Im Digitalisierungsmanager-Kurs bei SkillSprinters ist genau diese Modell-Agnostik ein zentrales Thema. Teilnehmer lernen, KI-Workflows so zu bauen, dass sie portierbar sind. Wer im Beruf bei null anfangen muss, kann sich vorher den kostenlosen 5-Lektionen-Schnupperkurs ansehen.

Was wir nicht wissen

Drei offene Punkte, die in den nächsten Monaten geklärt werden.

Wie verhält sich Llama 4 in deutscher Sprache bei sehr fachlichen Texten? Die ersten Tests zeigen gute Ergebnisse, aber im juristischen, medizinischen und steuerrechtlichen Bereich gibt es noch Vorbehalte. Bis belastbare Benchmarks vorliegen, ist Vorsicht angebracht.

Wie entwickelt sich das Ökosystem? Llama 3 hatte nach 12 Monaten ein riesiges Tooling-Ökosystem (Ollama, LM Studio, vLLM, etc.). Llama 4 ist erst drei Wochen alt. Manche Tools werden noch nicht unterstützt.

Wie reagiert die EU-Regulierung? Foundation-Modelle ab einer bestimmten Größe fallen unter den AI Act als General-Purpose-AI mit systemischen Risiken. Llama 4 Maverick könnte unter diese Kategorie fallen. Die Pflichten treffen Meta als Anbieter, nicht den KMU als Anwender. Aber wer Llama 4 in eigene Produkte integriert, sollte das im Blick haben.

Häufige Fragen

Ist Llama 4 wirklich kostenlos?

Das Modell ist unter der Meta Community License kostenlos verfügbar. Was nicht kostenlos ist: die Hardware oder das Hosting, auf dem Llama 4 läuft. Wer kein eigenes Setup hat, zahlt entweder einem deutschen GPU-Anbieter pro Stunde oder einem US-Anbieter wie Together AI pro Token. Die Modelllizenz selbst ist gratis, der Betrieb nicht.

Kann ich Llama 4 statt ChatGPT für DSGVO-Konformität einsetzen?

Nur bei Self-Hosting in der EU. Wer Llama 4 über die Meta-API oder einen US-Hoster nutzt, hat dieselben Drittland-Probleme wie bei ChatGPT. Self-Hosting bei einem deutschen Anbieter wie Hetzner ist die saubere Lösung, aber technisch anspruchsvoller als ein ChatGPT-Abo.

Wie unterscheiden sich Scout und Maverick in der Praxis?

Scout (109B) ist für die meisten KMU-Anwendungsfälle ausreichend und auf einem Server mit zwei H100 betreibbar. Maverick (400B) ist deutlich klüger bei komplexem Reasoning, braucht aber einen Cluster aus mindestens vier GPUs. Wer nicht regelmäßig Maverick-Niveau braucht, sollte mit Scout starten.

Lohnt sich Fine-Tuning für unser Unternehmen?

Selten. Fine-Tuning verbessert ein Modell für spezifische Aufgaben, kostet aber mehrere tausend Euro für Trainingsdaten, GPU-Zeit und Evaluation. Für die meisten KMU sind Retrieval-Augmented-Generation-Setups (RAG, eigene Wissensdatenbank zusätzlich zum Modell) der bessere Weg. Fine-Tuning lohnt sich erst, wenn Tausende von Beispielen vorliegen und Standard-Prompting nicht reicht.

Quellen

Llama 4 Release Analyse (SiliconAngle), Stand April 2026
Llama 4 für Unternehmen (ScaleWise)
Mixture-of-Experts erklärt (ajianaz.dev)

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp

Llama 4 Release im April 2026: Was Mixture-of-Experts für deutsche KMU bedeutet

Mixture-of-Experts in einem Satz

Die zwei Varianten und für wen sie gedacht sind

Was native Multimodalität bedeutet

Die Lizenz und ihre Stolperfallen

Self-Hosting und die DSGVO-Frage

Was die Hardware tatsächlich kostet

Wo sich das wirklich rechnet

Nicht jedes KMU braucht Llama 4

Die strategische Lesart

Was wir nicht wissen

Häufige Fragen

Ist Llama 4 wirklich kostenlos?

Kann ich Llama 4 statt ChatGPT für DSGVO-Konformität einsetzen?

Wie unterscheiden sich Scout und Maverick in der Praxis?

Lohnt sich Fine-Tuning für unser Unternehmen?

Quellen

Bereit für deinen nächsten Karriereschritt?

Das könnte dich auch interessieren

AI Browser Vergleich 2026: Atlas, Comet, Arc und die EU-Lücke

Apple Intelligence in Deutschland 2026: Was der Mittelstand wirklich davon hat

Claude Code im Mittelstand: was im Entwickler-Alltag wirklich zählt

Claude Opus 4.7 Release April 2026: was sich ändert

Digital Omnibus: Verschiebt die EU den AI Act auf 2027? Was Unternehmen jetzt wissen müssen

EU AI Act ab 2. August 2026: Was kleine und mittlere Unternehmen wirklich tun müssen

Wir nutzen Cookies