Llama 4 wird oft als Open-Source-Alternative zu Claude, GPT und Gemini verkauft. Das ist nicht ganz korrekt und für dich als KMU wichtig zu verstehen, bevor du planst, Llama 4 produktiv einzusetzen. Meta nennt das Modell offiziell "open weight". Das bedeutet: Die Modellparameter sind öffentlich, der Trainingscode und die Trainingsdaten sind es nicht. Für den praktischen Einsatz ist das relevant, weil "open weight" einige der Freiheiten verspricht, die du von echter Open-Source-Software kennst, aber eben nicht alle.
Das Wichtigste in Kürze
- Llama 4 veröffentlicht am 05.04.2025, nach wie vor aktuelle Generation im April 2026
- Scout-Variante: 17 Mrd. aktive Parameter, 109 Mrd. Gesamtparameter (Mixture-of-Experts)
- Maverick-Variante: 17 Mrd. aktive Parameter, 400 Mrd. Gesamtparameter
- Pre-Training auf 200 Sprachen, 12 Sprachen direkt für Multilingual-Anwendungen optimiert
- Multimodal: Text- und Bild-Eingabe, Text-Ausgabe
- "Open weight" statt "Open Source": Modellgewichte offen, Code und Trainingsdaten nicht
- Lizenz mit Einschränkungen für Firmen über 700 Mio. monatliche aktive Nutzer
Was "Open Weight" wirklich bedeutet
Der Begriff "Open Source" hat eine klare Definition. Er kommt ursprünglich aus der Softwarewelt und verlangt, dass Quellcode frei verfügbar ist, dass Nutzer ihn modifizieren und weitergeben dürfen, und dass keine diskriminierenden Einschränkungen bestehen. Die Open Source Initiative hat dafür genaue Kriterien.
Llama 4 erfüllt diese Kriterien nicht vollständig. Was Meta veröffentlicht, sind die Modellparameter, also die Milliarden von Gewichten, die im Training gelernt wurden. Du kannst das Modell herunterladen, lokal ausführen, fine-tunen und in deinen eigenen Produkten einsetzen. Was du nicht bekommst, sind der Trainingscode in voller Form, die Trainingsdaten und das Recht, das Modell unter beliebigen Bedingungen zu nutzen.
Die Meta-Lizenz hat zwei praktische Klauseln, die für normale KMU keine Rolle spielen. Erstens: Firmen mit mehr als 700 Millionen monatlich aktiven Nutzern brauchen eine separate Lizenz. Zweitens: Ein Namensnennungsgebot. Beides trifft kaum einen deutschen Mittelständler. Die für dich relevante Einschränkung ist, dass die Lizenz keine unbegrenzte kommerzielle Nutzung im Open-Source-Sinne garantiert und Meta das Recht behält, sie künftig zu ändern.
Die Debatte ist mehr als akademisch. Wer Llama 4 als strategischen Baustein einplant, sollte die Lizenz lesen und die Konsequenzen verstehen. Das Modell ist nützlich. Es ist aber kein Open Source, und wer das Gegenteil glaubt, plant auf einem falschen Fundament.
Scout und Maverick: Zwei Modelle, unterschiedliche Einsatzgebiete
Llama 4 kommt in zwei Hauptvarianten, beide als Mixture-of-Experts-Architektur gebaut.
Scout hat 17 Milliarden aktive Parameter und 109 Milliarden Gesamtparameter. Das Modell ist für den Einsatz auf einer einzelnen modernen GPU optimiert. Für ein typisches KMU-Setup mit einer H100 oder A100 im eigenen Rechenzentrum ist Scout die pragmatische Wahl. Du bekommst solide Allround-Leistung und kannst das Modell ohne großes Cluster betreiben.
Maverick hat ebenfalls 17 Milliarden aktive Parameter, aber 400 Milliarden Gesamtparameter. Der Parameter-Überschuss bedeutet mehr Wissensbreite und bessere Leistung bei komplexen Aufgaben. Dafür brauchst du Multi-GPU-Setup und deutlich mehr Infrastruktur. Maverick ist interessant für Firmen, die eigene Spezialanwendungen auf Basis von Llama 4 bauen und die Investition in Infrastruktur lohnt.
Für die meisten KMU ist Scout der Startpunkt. Wenn Scout einen bestimmten Use Case nicht zuverlässig löst, lohnt der Sprung zu Maverick die Evaluation.
Warum du Llama 4 für dein KMU überhaupt in Betracht ziehen solltest
Drei Gründe sprechen für Llama 4, je nach Situation.
Datenhoheit: Wenn du das Modell auf eigener Hardware laufen lässt, verlassen die Daten nie dein Netzwerk. Für sensible Use Cases ist das eine harte Anforderung, die du mit einer API-Lösung nicht erfüllen kannst. Kanzleien, Arztpraxen-IT-Dienstleister, Verteidigungs-Zulieferer oder Firmen mit Industriespionage-Sorgen haben hier einen klaren Bedarf.
Kostenstruktur: Bei hohem Nutzungsvolumen wird API-Abrechnung teuer. Wer jeden Monat eine Million Anfragen oder mehr hat, kann mit eigener Hardware deutlich günstiger rechnen. Die Einstiegskosten sind hoch, aber die Grenzkosten pro Anfrage sind nach Amortisierung nahe null.
Anpassbarkeit: Du kannst Llama 4 auf deine eigenen Daten fine-tunen. Bei geschlossenen APIs bekommst du entweder keine oder nur eingeschränkte Fine-Tuning-Optionen. Wer ein sehr spezifisches Vokabular, Tonalität oder Fachwissen einbauen will, hat bei Llama 4 mehr Spielraum.
Die praktischen Herausforderungen
Selbst-Hosting von LLMs ist nichts für nebenbei. Du brauchst geeignete Hardware, eine Person, die Modell-Deployment versteht, ein Monitoring-Setup für GPU-Auslastung und Latenz, und ein Update-Konzept, wenn Meta neue Llama-Versionen veröffentlicht.
Eine realistische Minimum-Konfiguration für Llama 4 Scout liegt bei einer H100-GPU oder vergleichbar, typischerweise gemietet bei einem europäischen Anbieter wie Hetzner, IONOS oder einem spezialisierten GPU-Cloud-Hoster. Monatliche Kosten bewegen sich dort im vierstelligen Euro-Bereich, je nach Vertragsmodell.
Dazu kommt, dass Inferenz-Optimierung nicht trivial ist. Modelle wie vLLM, TGI oder Ollama vereinfachen den Einstieg, aber für produktiven Einsatz mit akzeptabler Latenz brauchst du eine Person, die die Stellschrauben versteht. Wenn du niemanden in deinem Team hast, der das nebenbei macht, budgetiere einen externen Dienstleister oder einen internen Teilzeit-Job.
In der Praxis sehen wir, dass KMU die Infrastruktur-Kosten unterschätzen und den Aufwand für Betrieb überschätzen. Wer einmal eingerichtet hat und die Last stabil ist, läuft Llama 4 auf einer einzelnen GPU mit minimaler Betreuung. Die erste Einrichtung dauert aber gern ein bis drei Monate, bis alles zuverlässig steht.
Wann die API-Alternative die bessere Wahl ist
Wenn du pro Monat weniger als ein paar hunderttausend Anfragen hast, keine Datenhoheit-Pflicht und kein Personal für LLM-Betrieb, bist du mit einer API-Lösung besser bedient. OpenAI, Anthropic oder auch Mistral für EU-Hosting sind dann die pragmatischeren Optionen.
Llama 4 gibt es übrigens auch als gehostetes Modell bei einigen Anbietern. AWS Bedrock, Azure und Groq-Inference bieten Llama 4 per API an. Damit verlierst du allerdings den Datenhoheit-Vorteil, denn deine Anfragen gehen durch die Infrastruktur des Anbieters. Der Kosten-Vorteil bleibt je nach Anbieter teilweise erhalten, weil die API-Preise für Llama 4 deutlich unter den Preisen für Claude oder GPT liegen.
Fine-Tuning als eigentlicher Wert
Der strategisch interessanteste Aspekt von Llama 4 für KMU ist nicht das Basis-Modell, sondern die Möglichkeit, es auf eigenen Daten anzupassen. Wer ein Kundensupport-Archiv aus fünf Jahren hat, kann daraus ein Fine-Tuning bauen, das die spezifische Sprache, die häufigen Produkte und die typischen Lösungswege kennt. Das Ergebnis ist oft besser als ein Standardmodell mit Retrieval-Augmented Generation.
Fine-Tuning selbst erfordert Kompetenz. Du brauchst saubere Trainingsdaten, ein Evaluations-Setup und die Geduld, mehrere Runden zu fahren. Für die meisten KMU lohnt es sich erst, wenn der Use Case konkret ist und das Volumen stimmt. Als Experiment für das Technikteam ist es hervorragend geeignet, um Kompetenz aufzubauen.
Eine ehrliche Einordnung
Llama 4 ist das wichtigste offen verfügbare Modell im April 2026. Wer die Infrastruktur und das Know-how hat, bekommt damit eine starke Basis für eigene KI-Anwendungen. Wer die Voraussetzungen nicht mitbringt, ist mit APIs besser aufgehoben und sollte Llama 4 nicht aus ideologischen Gründen wählen.
Die wichtigere Entscheidung ist selten "Llama 4 oder OpenAI", sondern "eigene Infrastruktur oder Managed Service". Beide Wege haben ihre Berechtigung. Wer das falsch entscheidet, zahlt entweder zu viel für Infrastruktur, die nicht ausgelastet ist, oder zu viel für API-Calls, die skaliert nicht mehr rechenbar sind.
FAQ
Ist Llama 4 wirklich kostenlos nutzbar?
Die Modellgewichte sind frei herunterladbar, die Nutzung unterliegt aber der Meta Llama Community License. Für die meisten KMU mit weniger als 700 Millionen monatlich aktiven Nutzern gelten keine Zusatzgebühren an Meta. Infrastrukturkosten für Self-Hosting oder API-Gebühren bei gehosteten Varianten fallen trotzdem an. "Kostenlos" bezieht sich nur auf die Modellgewichte selbst.
Wo liegt der Unterschied zwischen Llama 4 Scout und Maverick?
Scout hat 109 Milliarden Gesamtparameter und ist für den Einsatz auf einer einzelnen GPU optimiert. Maverick hat 400 Milliarden Gesamtparameter und ist leistungsstärker bei komplexen Aufgaben, erfordert aber Multi-GPU-Infrastruktur. Beide nutzen Mixture-of-Experts mit 17 Milliarden aktiven Parametern pro Anfrage. Für die meisten KMU ist Scout der passende Startpunkt.
Kann ich Llama 4 für DSGVO-sensible Daten einsetzen?
Wenn du das Modell auf eigener Hardware oder in einer EU-Cloud unter deiner Kontrolle betreibst, hast du den maximalen Datenschutz-Vorteil, weil keine Daten das eigene Netzwerk verlassen. Das ist der Hauptgrund, warum Berufsgeheimnisträger und sensible Branchen Llama 4 Self-hosted einsetzen. Nutzt du Llama 4 über eine API bei einem US-Anbieter, gelten dieselben DSGVO-Fragen wie bei OpenAI oder Anthropic.
Lohnt sich Self-Hosting von Llama 4 für ein kleines KMU?
Meist nicht. Für KMU mit moderatem Volumen und ohne spezielle Datenhoheit-Anforderungen sind API-Lösungen günstiger und betrieblich einfacher. Self-Hosting lohnt sich ab einem monatlichen Anfragevolumen im sechsstelligen Bereich, bei harten Datenschutz-Anforderungen oder wenn du ein eigenes Team hast, das Fine-Tuning als strategischen Baustein entwickelt. Als Faustregel: Unter 10 Personen im Unternehmen fast immer API, darüber je nach Use Case prüfen.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.