Auf einen Blick: Open-Source-LLMs sind im Mai 2026 erwachsen. Llama, Mistral, Qwen, DeepSeek, Gemma und Phi decken Mittelstands-Use-Cases ab. 7B-Modelle laufen auf einer Workstation mit 8 GB VRAM, 70B-Modelle brauchen einen Server. Self-Hosting lohnt sich ab etwa 100 bis 200 produktiven Nutzern pro Monat oder dann, wenn DSGVO und Drittlandtransfer-Verbot der Kundenverträge zur Pflicht zwingen.
Vor zwei Jahren war Self-Hosting ein Hobbyprojekt für ML-Engineers. Wer ein freies Modell lokal laufen lassen wollte, brauchte CUDA-Erfahrung, Geduld und einen Server. Im Mai 2026 ist das anders. Llama 3.3 70B liefert in deutscher Sprache Antworten, die für interne Recherche, Klassifikation und Zusammenfassung mit Cloud-Modellen vergleichbar sind. Tools wie ollama machen das Ausrollen so einfach wie eine npm-Installation. Trotzdem ist Self-Hosting nicht für jeden Mittelständler die richtige Antwort. Dieser Artikel klärt, welche Modelle in Frage kommen, was die Hardware kostet, wann sich der Aufwand rechnet und wann der Cloud-Weg nüchtern betrachtet günstiger bleibt.
Welche Open-Source-LLMs im Mai 2026 zählen
Die Open-Weights-Welt ist seit 2024 schnell gewachsen. Stand Mai 2026 sind sechs Familien für KMU-Einsatz relevant.
Llama von Meta ist seit 2023 die Referenz. Llama 3.3 70B liefert in deutscher Sprache solide Ergebnisse, Llama 3.2 11B und 3B sind die kompakten Varianten für Edge- und On-Device-Einsatz. Lizenz: Llama Community License. Restriktion: kommerzielle Nutzung erlaubt, aber Anbieter mit mehr als 700 Millionen monatlich aktiven Nutzern brauchen eine separate Lizenz. Für jedes deutsche KMU irrelevant.
Mistral aus Paris bietet mehrere Modellfamilien. Mistral 7B und Mixtral 8x7B sind unter Apache 2.0 lizenziert, also kommerziell ohne Auflagen nutzbar. Größere Mistral-Modelle wie Mistral Large oder die Codestral-Reihe stehen unter einer kommerziellen Lizenz mit getrennten Konditionen. Stand Mai 2026 ist Mistral das politisch bevorzugte Modell in EU-Behördenkontexten.
Qwen von Alibaba liegt in der 2.5- und 3-Serie vor und ist mehrsprachig, auch mit guter deutscher Performance. Qwen 2.5 72B steht unter Tongyi Qianwen License, die kommerzielle Nutzung erlaubt, aber bestimmte Einschränkungen im militärischen und sensiblen staatlichen Kontext vorsieht. Für KMU-Use-Cases praktisch unkritisch.
DeepSeek aus Hangzhou hat 2024 und 2025 mit V3 und R1 für Aufsehen gesorgt. Einige DeepSeek-Modelle stehen unter MIT-Lizenz, andere unter einer eigenen kommerziellen Lizenz. Die MoE-Architektur (Mixture of Experts) sorgt dafür, dass DeepSeek-Modelle bei Inferenz weniger Hardware brauchen als ein dichtes Modell vergleichbarer Gesamtgröße.
Gemma von Google ist die kompakte Open-Weights-Reihe. Gemma 2 und Gemma 3 in 2B, 9B und 27B liegen unter Gemma Terms of Use, kommerziell nutzbar.
Phi von Microsoft ist die Forschungsreihe für kleine, datenintensive Modelle. Phi-4 in 14B ist die aktuelle Variante. MIT-Lizenz.
Hardware: Was ein 7B kostet und was ein 70B kostet
Die wichtigste Größe ist VRAM, also der Speicher auf der Grafikkarte. Ein Sprachmodell muss vollständig in den VRAM passen, sonst wird Inferenz unbenutzbar langsam.
| Modellgröße | VRAM (FP16) | VRAM (4-Bit-Quantisiert) | Typische Hardware | Indikative Kosten |
|---|---|---|---|---|
| 7B / 8B | 14 GB | 6 GB | RTX 4060 Ti 16 GB, M2 Pro Mac mini | 1.500 bis 2.500 EUR |
| 13B / 14B | 28 GB | 10 GB | RTX 4090, M3 Max | 2.500 bis 4.500 EUR |
| 32B | 64 GB | 22 GB | RTX 4090 mit Tweaks, A6000 48 GB | 4.500 bis 9.000 EUR |
| 70B / 72B | 140 GB | 42 GB | 2× A6000, 1× A100 80 GB | 12.000 bis 25.000 EUR |
| 405B | 800 GB | 240 GB | Cluster aus mehreren H100 | ab 200.000 EUR |
Quantisierung ist der entscheidende Hebel. Wer ein 70B-Modell in 4-Bit fährt, verliert in der Praxis fünf bis zehn Prozent Qualität, kommt dafür aber mit einer einzigen Workstation aus. Für Routine-Klassifikation, Zusammenfassung und Übersetzung ist der Qualitätsverlust meist nicht spürbar.
Apple-Hardware ist im Mai 2026 eine ernsthafte Alternative. Ein Mac mini M2 Pro mit 32 GB Unified Memory fährt Llama 3.2 11B oder Gemma 27B in akzeptabler Geschwindigkeit. Ein Mac Studio M2 Ultra mit 192 GB lässt sich für Llama 3.3 70B nutzen, mit Tokenraten zwischen acht und fünfzehn Tokens pro Sekunde. Das ist langsamer als Cloud, aber für interne Use-Cases reicht es.
Self-Hosting-Tools im Vergleich
Vier Werkzeuge dominieren das Self-Hosting-Feld.
Ollama ist der einfachste Einstieg. Installation per Skript, Modelle werden mit einem Befehl gezogen, eine OpenAI-kompatible API steht sofort bereit. Wer in eine n8n-Automation oder eine eigene Webapp ein Modell anbinden will, kommt mit ollama in einer Stunde zum laufenden Stand. Ressourcen-Effizienz ist mittelmäßig, für Einzelplatz und kleine Teams völlig ausreichend.
vLLM ist die Server-Variante. Ausgelegt auf maximalen Durchsatz, mit Continuous Batching und PagedAttention. Wer mehrere parallele Anfragen pro Sekunde fahren will, kommt an vLLM nicht vorbei. Setup verlangt mehr DevOps-Erfahrung als ollama.
Text Generation Inference (TGI) von Hugging Face ist die Konkurrenz zu vLLM. Vergleichbare Performance, mit etwas anderer Tooling-Philosophie. In Konzernumgebungen mit Kubernetes-Cluster oft die erste Wahl.
LM Studio ist die Desktop-Lösung mit grafischer Oberfläche. Geeignet für Einzelplätze, etwa wenn eine Steuerberaterin oder ein Anwalt ein lokales Modell auf dem eigenen Rechner testen will, ohne erst eine API zu lernen.
Auf der Mac-Seite ist MLX die native Bibliothek, mit deutlich besserer Performance als CUDA-Emulation. MLX wird zunehmend Standard bei Apple-Silicon-Deployments.
DSGVO-Vorteil: Was Self-Hosting löst und was nicht
Hier liegt der eigentliche Hebel für viele KMU. Self-Hosting eliminiert den Drittlandtransfer nach Art. 44 ff. DSGVO komplett. Daten verlassen den eigenen Server nicht. Kein Auftragsverarbeitungsvertrag mit OpenAI oder Anthropic nötig, kein TADPF-Risiko, kein Hochladen sensibler Mandantendaten in eine US-Cloud.
Was Self-Hosting nicht löst: Die Pflichten aus der KI-Verordnung gelten weiter. Art. 4 KI-VO Kompetenzpflicht für die Mitarbeiter, die das System bedienen, ist seit 02.02.2025 in Kraft, unabhängig davon ob das Modell von OpenAI kommt oder vom eigenen Server. Wer das Modell für Hochrisiko-Anwendungen einsetzt (HR-Scoring, Bonitätsprüfung), erbt zusätzlich die Pflichten aus Art. 14 KI-VO (menschliche Aufsicht) und Art. 26 KI-VO (Betreiberpflichten). Die Inkraftsetzung der Hochrisiko-Vorschriften wurde im EU-Trilog am 07.05.2026 auf den 02.12.2027 verschoben, sie kommt aber.
Was ebenfalls bestehen bleibt: die normale DSGVO-Compliance des Datenbestands, in den das Modell hineinschaut. Wer einen LLM auf einem lokalen Server fährt, der Mandantendaten aus DATEV liest, braucht ein Verzeichnis von Verarbeitungstätigkeiten, technische und organisatorische Maßnahmen, Zugriffskontrolle. Self-Hosting löst die Übermittlung, nicht die Verarbeitung.
Wer das tiefer braucht, findet im Pillar zur KI-Kompetenzpflicht nach Art. 4 KI-VO die Grundregeln, die unabhängig vom Hosting gelten.
Wann sich Self-Hosting rechnet, wann nicht
Eine ehrliche TCO-Rechnung ist die einzige Antwort.
Cloud-Kosten skalieren mit Nutzung. ChatGPT Plus liegt bei 23 EUR pro Nutzer und Monat (DE-Preise inkl. USt). Claude Pro liegt bei 20 EUR pro Nutzer und Monat. Wer 50 Mitarbeiter mit Pro-Lizenzen ausstattet, zahlt rund 1.000 bis 1.150 EUR pro Monat, also 12.000 bis 14.000 EUR pro Jahr.
Self-Hosting-Kosten sind primär fix. Ein Server für ein 70B-Modell kostet einmalig 15.000 bis 25.000 EUR, Strom liegt bei 500 bis 1.500 EUR pro Jahr, Wartung und DevOps-Aufwand kommen dazu. Im ersten Jahr ist Self-Hosting teurer als Cloud, ab dem zweiten Jahr nicht zwangsläufig.
In der Praxis sehen wir drei Szenarien, in denen Self-Hosting sich klar rechnet.
Erstens: Volumen. Ab etwa 100 bis 200 produktiven Nutzern pro Monat, die das System nicht nur sporadisch anwerfen, sondern echt mit Anfragen versorgen, schlägt Self-Hosting die Cloud auf Drei-Jahres-TCO.
Zweitens: Datenklasse. Wer Berufsgeheimnisse nach § 203 StGB verarbeitet (Anwaltskanzlei, Steuerberatung, Praxis), wer Gesundheitsdaten nach Art. 9 DSGVO verarbeitet (Pflegedienst, MFA-Bereich), oder wer Mandanten-Vertraulichkeit vertraglich zusichert (Konzern-Audit, M&A-Beratung), gewinnt durch Self-Hosting Rechtssicherheit, die Cloud nie liefern kann.
Drittens: Kontroll-Bedürfnis. Manche Mandanten oder Auftraggeber verbieten in den Verträgen explizit, dass ihre Daten durch externe LLM-Dienste laufen. Wer solche Verträge im Bestand hat, kommt um Self-Hosting nicht herum.
Wer das Volumen nicht hat, keine besonders sensible Datenklasse verarbeitet und keine vertraglichen Beschränkungen erfüllen muss, fährt mit Cloud schneller und meist günstiger. Die Self-Hosting-Romantik darf den Business Case nicht überlagern.
Eine ehrliche Beobachtung aus der Praxis
Wir sehen regelmäßig Mittelständler, die ein 70B-Modell im eigenen Rack haben wollen, weil ein Berater es als Goldstandard verkauft hat. Sechs Monate später ist die Hardware angeschafft, das System läuft, niemand nutzt es. Warum: Die Mitarbeiter haben weiterhin ChatGPT auf dem Smartphone offen und arbeiten damit, weil es schneller, neuer und integrierter ist. Das ist das echte Risiko von Self-Hosting für KMU. Wenn das interne System nicht so reibungslos läuft wie die Cloud-Alternative, gewinnt die Cloud. Und Shadow AI kommt durch die Hintertür rein.
Self-Hosting funktioniert nur, wenn dahinter ein Betriebs-Team steht, das Updates fährt, Modelle nachzieht, Monitoring betreibt und auf Anwender-Feedback reagiert. Ohne dieses Team verkommt die Hardware zur teuren Heizung im Serverraum.
Praxis: Lankenau Gutachter in Bayreuth
Lankenau Sachverständigenbüro, ein fiktiver Mittelständler mit 22 Mitarbeitern in Bayreuth, betreibt seit Januar 2026 ein Self-Hosting-Setup. Tätigkeit: Bau- und Immobiliengutachten, mit Vertraulichkeitsverpflichtung gegenüber Auftraggebern (Banken, Versicherungen, Gerichte).
Setup: Ein Mac Studio M2 Ultra mit 192 GB Unified Memory, Llama 3.3 70B in 4-Bit-Quantisierung über ollama. Daneben Mistral 7B als schnelles Modell für Routine-Klassifikation eingehender Anfragen. Mac Studio steht im klimatisierten Serverraum, Anbindung an die Kanzlei-Workstations über lokales Netz mit OpenAI-kompatibler API.
Use-Cases: Vorab-Sortierung eingehender Sachverständigen-Aufträge nach Dringlichkeit und Komplexität (Mistral 7B), Zusammenfassung von Gutachten-Vorlagen und Mandantenkorrespondenz (Llama 3.3 70B), Transkription von Diktaten der Außendienst-Termine (Whisper lokal). Was bewusst nicht über das interne System läuft: kreative Texte, Rechtssprechung-Recherche, Marktanalyse. Dafür wird Cloud-Claude verwendet, mit ausdrücklicher Mandantenfreigabe.
Investition: 14.500 EUR Hardware einmalig, drei Tage interne IT-Arbeit für Setup, monatlich rund acht Stunden Wartung. Pro Quartal wird das Modell auf eine neuere Version migriert. Stromkosten rund 70 EUR pro Monat.
Ergebnis nach fünf Monaten: Die Mitarbeiter nutzen das System für etwa 60 Prozent ihrer LLM-Anfragen, 40 Prozent gehen weiter zu Cloud-Diensten mit ausdrücklicher Mandantenklärung. Die Sortierung eingehender Aufträge spart pro Woche rund fünf Stunden Bürotätigkeit. Der Hauptgewinn ist nicht die Geschwindigkeit, sondern die Sicherheit, dass kein vertrauliches Gutachten je in eine US-Cloud rutscht.
Wer überlegt, wie Self-Hosting, n8n-Automation und KI-Praxis im Betrieb sauber zusammen passen, findet im Digitalisierungsmanager eine viermonatige geförderte Weiterbildung, die genau diese Verbindung von Infrastruktur, Tools und Prozessen vermittelt. Mit Bildungsgutschein 0 Euro, komplett online.
Häufige Fragen
Welche Open-Source-LLMs sind im Mai 2026 für deutsche KMU relevant?
Sechs Familien zählen praktisch: Llama (Meta) als breite Referenz, Mistral (Paris) als EU-bevorzugte Wahl, Qwen (Alibaba) als starkes mehrsprachiges Modell, DeepSeek mit ressourceneffizienter MoE-Architektur, Gemma (Google) für kompakte Anwendungen und Phi (Microsoft) für die ganz kleinen Use-Cases. Stand Mai 2026 ist keine pauschale Aussage "Open Source ist schlechter als Cloud" mehr möglich. Für Routine-Klassifikation, Zusammenfassung und Übersetzung sind die offenen Modelle praktisch gleichauf mit Cloud-Modellen.
Wieviel Hardware brauche ich für ein lokales LLM?
Ein 7B- oder 8B-Modell läuft mit 6 bis 8 GB VRAM, also auf einer RTX 4060 Ti oder einem Mac mini M2 Pro für etwa 1.500 bis 2.500 EUR. Ein 70B-Modell in 4-Bit-Quantisierung braucht rund 42 GB VRAM, also zwei A6000-Karten oder einen Mac Studio M2 Ultra für 12.000 bis 25.000 EUR. Die 405B-Klasse verlangt einen Multi-GPU-Cluster und ist für KMU praktisch nicht selbst zu betreiben.
Wann lohnt sich Self-Hosting wirtschaftlich gegenüber Cloud-Abos?
Drei Szenarien rechtfertigen den Aufwand klar: ab etwa 100 bis 200 produktiven Nutzern pro Monat (Volumen-TCO), bei besonders sensibler Datenklasse wie § 203 StGB Berufsgeheimnis oder Art. 9 DSGVO Gesundheitsdaten, und bei vertraglichen Beschränkungen, die Drittlandtransfer ausschließen. Wer keines davon hat, fährt mit Cloud schneller und meist günstiger. Self-Hosting verlangt zusätzlich ein Betriebs-Team. Ohne dieses Team verkommt die Hardware zur teuren Heizung.
Welche DSGVO- und KI-VO-Pflichten bleiben trotz Self-Hosting?
Self-Hosting eliminiert den Drittlandtransfer nach Art. 44 ff. DSGVO, also entfällt die Notwendigkeit eines AVV nach Art. 28 DSGVO mit einem US-Anbieter. Was bestehen bleibt: das interne Verzeichnis von Verarbeitungstätigkeiten, TOMs, Zugriffskontrolle für die Daten, in die das Modell hineinschaut. Aus der KI-VO bleibt die Kompetenzpflicht nach Art. 4 (seit 02.02.2025 in Kraft) für jeden Mitarbeiter, der das System bedient. Bei Hochrisiko-Anwendungen kommen die Pflichten aus Art. 14 und Art. 26 KI-VO hinzu, die nach Trilog vom 07.05.2026 ab 02.12.2027 greifen.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge und Inhaber von SkillSprinters, einem DEKRA-zertifizierten Bildungsträger. Er entwickelt seit 2024 KI-gestützte Weiterbildungs- und Prozessautomatisierungslösungen für den Mittelstand. Über Skill-Sprinters läuft auch der Digitalisierungsmanager, eine 4-monatige geförderte Weiterbildung.
30 Minuten Klarheit kosten nichts. Wenn Du KI im Betrieb einsetzt oder überlegst einzusetzen, kommt es nicht auf das Tool an. Es kommt auf die Frage: wo entstehen Risiken, wo Hebel? In 30 Minuten gehen wir Deine konkrete Lage durch und Du weisst, wo Du anfangen solltest. Termin reservieren oder kostenlosen KI-Schnupperkurs starten.
Zuletzt geprüft am 26. Mai 2026.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.