Open-Source-LLM heisst 2026 nicht mehr "selbst hosten oder gar nichts". Es heisst "die Wahl haben zwischen 30 verschiedenen Modellfamilien, davon sieben die wirklich was taugen". Der Mittelstand wird das in den nächsten zwoelf bis 24 Monaten brauchen, weil ChatGPT und Claude gut sind, aber teuer und nicht immer DSGVO-elegant.

Hier ist die ehrliche Einschaetzung der sieben Open-Source-Familien, mit denen wir 2026 selbst arbeiten.

Llama 4 von Meta

Llama 4 ist im April 2026 erschienen, als Familie mit drei Größen: Scout 17B, Maverick 109B und das angekuendigte Behemoth 2T (noch im Training, nicht oeffentlich verfuegbar).

Was geht: Sehr gute Sprachfaehigkeit auf Deutsch, multimodale Verarbeitung von Bild und Text, Tool-Calling stabil. Llama 4 Scout 17B mit Mixture-of-Experts läuft erstaunlich schnell auf moderater Hardware.

Was nicht geht: Die Lizenz ist nicht echt Open Source, sondern Llama Community License. Kommerzielle Nutzung ist erlaubt, aber Unternehmen über 700 Millionen monatlichen Nutzern brauchen eine separate Lizenz. Für den Mittelstand irrelevant, aber juristisch ist es eine Custom-Lizenz, kein Apache 2.

Hardware: Scout 17B läuft in 4-Bit-Quantisierung auf 24 GB VRAM oder 32 GB Apple-Unified-Memory. Maverick braucht 64 GB plus.

Mistral Magistral und Mistral Small 3

Mistral aus Frankreich hat 2026 zwei Linien: Magistral als Reasoning-Modell (denkt sichtbar bevor es antwortet), und Mistral Small 3 als Allrounder.

Was geht: EU-Anbieter mit klarer Datenresidenz in Frankreich, Apache-2-Lizenz für Mistral Small 3 (echt offen). Sehr gute Mehrsprachigkeit, besonders Franzoesisch und Deutsch. Magistral schlaegt OpenAI o1-mini bei vielen Reasoning-Tasks.

Was nicht geht: Mistral Magistral ist 2026 nicht voellig offen, sondern hat eine eingeschraenktere Mistral-Lizenz. Das Mixture-of-Experts-Setup ist schwerer zu fine-tunen als reine Dense-Modelle.

Hardware: Mistral Small 3 (24B) läuft in 4-Bit-Quantisierung auf 16 GB VRAM oder 24 GB Apple-Unified-Memory.

DeepSeek V4 (Flash und Pro)

Aus China, vom Hedgefonds High-Flyer entwickelt. Die Familie ist 2026 in der vierten Generation, mit Flash (12B) als kleiner Variante und Pro (236B Mixture-of-Experts) als großer.

Was geht: DeepSeek hat 2026 bei vielen Benchmarks die Lead-Closed-Source-Modelle eingeholt oder ueberholt, bei einem Bruchteil der Trainings-Kosten. MIT-Lizenz, also voll kommerziell nutzbar. Reasoning ist deutlich gut.

Was nicht geht: Datenherkunft und potentielle Bias sind ein Diskussionsthema in der EU. Wer chinesische Modelle aus Compliance-Sicht nicht einsetzen darf (manche Behoerden, einzelne Branchen), muss DeepSeek auslassen. Hosting in China bei der Cloud-Variante, lokal auf eigener Hardware ohne Datenfluss kein Problem.

Hardware: DeepSeek V4 Flash läuft in 4-Bit auf 16 GB VRAM/Unified Memory. Pro braucht serverseitige Hardware.

Qwen 3 von Alibaba

Qwen ist die Open-Source-Familie von Alibaba, 2026 in der dritten Generation. Verschiedene Größen von 0,5B bis 72B.

Was geht: Sehr stark in der Mehrsprachigkeit (29 Sprachen), gute Coding-Faehigkeiten. Apache-2-Lizenz für die meisten Varianten. Qwen 3 14B ist ein guter Sweet-Spot für Mittelstands-Hardware.

Was nicht geht: Gleiche China-Diskussion wie bei DeepSeek. Bei Auswertung sensibler interner Daten lokal kein Problem, bei externer Nutzung der Alibaba-Cloud-API gilt chinesisches Recht.

Hardware: Qwen 3 14B in 4-Bit auf 12 GB VRAM oder 16 GB Apple Unified Memory.

Gemma 4 von Google

Gemmas vierte Generation kam Anfang 2026, in Größen von 2B bis 27B. Google hat Gemma als Apache-2-ähnliche Lizenz mit kleinen Einschraenkungen veroeffentlicht.

Was geht: Lange Kontextfenster (bis 128k Token) für ein Open-Source-Modell. Gut auf Deutsch. Google liefert sehr gute Begleitwerkzeuge (Tokenizer, Tooling, Beispielcode). Modelle laufen besonders gut auf TPU und Apple Silicon.

Was nicht geht: Gemma ist tendenziell vorsichtiger als die Konkurrenz, lehnt manche Anfragen aus Safety-Gruenden ab, die andere Modelle problemlos beantworten. Für Buero-Use-Cases meistens nicht stoerend.

Hardware: Gemma 4 9B in 4-Bit auf 6 GB VRAM oder 16 GB Apple Unified Memory.

Phi 4 von Microsoft

Microsoft positioniert Phi explizit als kleines, hochperformantes Modell für On-Device-Anwendungen. Phi 4 (14B) ist 2026 die produktive Variante, dazu Phi 4 Mini (3.8B) und Phi 4 Multimodal.

Was geht: MIT-Lizenz, voll kommerziell. Sehr gut bei strukturierten Aufgaben (JSON-Output, Klassifikation, Datenextraktion). Klein genug für Edge-Devices und mobile Anwendungen.

Was nicht geht: Phi 4 ist im freien Smalltalk merkbar schwaecher als Llama oder Mistral. Es ist optimiert für Aufgaben, nicht für Konversation. Wer einen Chatbot bauen will, liegt mit Phi falsch.

Hardware: Phi 4 14B in 4-Bit auf 8 GB VRAM, Phi 4 Mini sogar auf Smartphones.

Cohere Command R 2026

Cohere ist ein kanadischer Anbieter, der mit Command-R sehr gute RAG-Faehigkeiten anbietet. Die Modelle sind über Hugging Face verfuegbar, mit relativ liberaler Lizenz für Forschung und kleinerer kommerzieller Nutzung.

Was geht: Sehr stark bei Retrieval-Augmented-Generation, also wenn das LLM mit einer eigenen Wissensdatenbank arbeitet. Mehrsprachig solide. Cohere bietet auch managed Hosting in EU-Datenresidenz.

Was nicht geht: Reine Open-Source-Mentalitaet ist es nicht, die Lizenz hat für große kommerzielle Nutzung Einschraenkungen. Für mittelständische Eigennutzung in der Regel unproblematisch.

Hardware: Command R+ ist 104B Parameter, braucht serverseitige Hardware.

Welches Modell für welchen Mittelstands-Use-Case

Aufgabe Empfehlung
E-Mail-Klassifikation auf eigenem Server Phi 4 14B oder Llama 3.3 8B
Internes RAG mit Firmen-Wiki Cohere Command R+ (gehostet) oder Mistral Small 3
Mehrsprachiger Chatbot Qwen 3 14B oder Mistral Small 3
Reasoning für Analyse-Aufgaben DeepSeek V4 Flash oder Mistral Magistral
Mac-Mini-Kompatibel als Daily Driver Llama 3.3 8B oder Gemma 4 9B
Coding-Aufgaben lokal Qwen 3 Coder oder DeepSeek Coder V4
Behoerdliche Compliance-Strenge Mistral Small 3 (EU-Anbieter)

Was Mittelständler unterschaetzen

Open-Source heisst nicht kostenlos. Strom, Hardware, Wartung und vor allem Personalzeit summieren sich. Wir rechnen 2026 mit rund 600 bis 1.500 Euro Monatskosten für einen produktiven Open-Source-Stack mit einem Mac Studio oder kleinem Server, plus rund einem halben Tag Personalzeit pro Woche.

Open-Source heisst auch nicht automatisch DSGVO-Elegance. Du musst noch immer Auftragsverarbeitung mit Hostern klaeren, Datenflusspruefung machen, Logging dokumentieren. Was Open Source loest: Du kannst die Modelle technisch komplett im eigenen Netz betreiben, was die rechtliche Beurteilung deutlich einfacher macht.

Open-Source heisst nicht automatisch besser oder schlechter als Cloud-LLMs. Bei Routine-Aufgaben sind Open-Source-Modelle 2026 ebenburtig oder besser. Bei kreativen Aufgaben und langen komplexen Prompts liegen Claude und ChatGPT noch vorn.

Empfehlung 2026

Du startest mit Open-Source-LLM ohne Vorerfahrung: Beginne mit Llama 3.3 8B oder Gemma 4 9B in Ollama auf dem Mac Mini. Lerne die Mechanik, dann skaliere.

Du hast bereits einen Cloud-LLM-Workflow und willst sensible Daten herauskippen: Mistral Small 3 (EU-Anbieter, Apache 2) oder Llama 4 Scout sind die robusten Standardwahl.

Du willst maximale Reasoning-Qualitaet ohne Cloud: DeepSeek V4 Flash auf 24 GB Hardware oder Mistral Magistral.

Du baust Internes RAG für Firmenwissen: Cohere Command R+ (managed) oder Qwen 3 14B (selbstgehostet).

Haeufige Fragen

Sind chinesische Modelle ein Risiko? Lokal betrieben (auf eigener Hardware ohne Datenabfluss) technisch nein. Politisch und Compliance-rechtlich kann es eine Diskussion sein, je nach Branche. Wer chinesische Modelle in der Cloud nutzt (Alibaba Cloud, DeepSeek API), gibt Daten an chinesische Anbieter, das ist DSGVO-rechtlich problematisch.

Wie ist die Qualitaet im Vergleich zu Claude oder ChatGPT? Bei einfachen Aufgaben sind die besten Open-Source-Modelle 2026 nahe dran. Bei komplexen Aufgaben (lange Reasoning-Ketten, kreatives Schreiben, Code-Architektur) liegen die Frontier-Closed-Source-Modelle noch vorn. Der Abstand schliesst sich, ist aber nicht null.

Brauche ich teure Server-Hardware? Nein, die meisten der hier genannten Modelle laufen auf einem 16-GB-Apple-Silicon-Gerät. Für richtig große Modelle (Llama 4 Maverick, DeepSeek V4 Pro) brauchst du serverseitige Hardware ab 4.000 Euro aufwaerts.

Welcher Anbieter ueberlebt langfristig? Schwer vorherzusagen. Stand 2026 erscheinen Llama (Meta), Mistral (EU-Anbieter), DeepSeek (gut finanziert) und Gemma (Google) als die langfristig stabilen Familien. Wer auf Open Source setzt, sollte aber so bauen, dass ein Modellwechsel nicht das ganze System killt.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp