Selbsthosting von Llama, Mistral oder Gemma lohnt ab API-Kosten ueber 50.000 Euro pro Jahr, harten Datensouveraenitaets-Anforderungen oder echtem Fine-Tuning-Bedarf. Mindestens halbe MLOps-Stelle noetig. Hybrid mit Cloud fuer Top-Qualitaet ist meist der praktische Weg.
Cloud-KI ist bequem, aber sie hat drei Haken: laufende API-Kosten, Datenschutz-Diskussionen mit deinem Datenschutzbeauftragten und Abhängigkeit vom Anbieter. Offene Modelle wie Meta Llama, Mistral (Open-Weight) und Google Gemma adressieren alle drei Punkte, wenn du sie selbst hostest. Die ehrliche Frage lautet: Lohnt sich das für deinen Mittelstand? Wir schauen uns die Modelle, die Hardware, die Kosten und die Schmerzen an, ohne dir ein Idealbild zu verkaufen.
Transparenzhinweis: Dieser Artikel ist auf der Website von SkillSprinters veröffentlicht. SkillSprinters ist selbst Anbieter einer KI-Weiterbildung (DigiMan-Weiterbildung) und steht damit in einem Wettbewerbsverhältnis zu den hier beschriebenen Anbietern. Wir bemühen uns um eine faire Darstellung anhand öffentlich zugänglicher Informationen (Stand April 2026), sind aber nicht neutral. Angaben ohne Gewähr.
Warum Selbsthosting für manche Mittelständler interessant wird
Drei Gründe treiben das Thema Open-Source-LLM aktuell in Mittelständler-Gespräche:
- Datensouveränität: Die Daten verlassen nie dein Unternehmen. Kein CLOUD Act, keine US-Cloud-Diskussion, kein grenzüberschreitender Datentransfer. Für bestimmte Branchen (Verteidigung, Pharma-Forschung, Kanzleien mit sehr sensiblen Mandanten) ist das ein harter Anforderungsgrund.
- Keine laufenden API-Kosten: Ab einem gewissen Nutzungsvolumen rechnen sich eigene Server, weil API-Aufrufe pro Million Tokens schnell mehrere tausend Euro pro Monat auffressen.
- Fine-Tuning auf eigene Daten: Du kannst das Modell auf deine Branchen-Terminologie, dein Produktwissen, deinen Schreibstil trainieren. Cloud-Anbieter bieten das nur eingeschränkt oder teuer an.
Gleichzeitig gibt es gute Gründe, es nicht zu tun. Die schauen wir uns weiter unten an.
Die drei Modell-Familien im Überblick
Meta Llama
Meta veröffentlicht Llama-Modelle unter einer eigenen Community License. Die Lizenz erlaubt kommerzielle Nutzung mit einigen Einschränkungen (z.B. die bekannte 700-Mio-monatliche-aktive-Nutzer-Klausel, die aber für Mittelständler nie greift). Stand April 2026 ist die Llama-4-Familie laut eigenen Angaben verfügbar, mit Varianten von kleinen Modellen für Edge-Devices bis zu großen Modellen, die mit kommerziellen Spitzenmodellen konkurrieren.
Die genaue Lizenz solltest du vor produktivem Einsatz prüfen. Meta ändert die Bedingungen gelegentlich, und für bestimmte Branchen gibt es zusätzliche Use-Case-Restriktionen.
Mistral (Open-Weight)
Mistral AI aus Paris veröffentlicht einen Teil seiner Modelle als Open-Weight unter permissiven Lizenzen (Apache 2.0 oder ähnlich). Die Spitzenmodelle (Mistral Large) sind proprietär, aber die mittelgroßen Modelle (Mistral Small, Mistral Nemo, Mixtral) sind für viele Enterprise-Use-Cases ausreichend. Vorteil gegenüber Llama: Klar dokumentierte permissive Lizenz, keine Nutzerzahl-Klauseln.
Google Gemma
Google bietet Gemma als offene Modell-Familie an, laut eigenen Angaben mit Fokus auf Effizienz und kleinere Hardware. Die Modelle sind kleiner als die Top-Llama- oder Mistral-Varianten, aber dafür auch auf weniger leistungsfähigen GPUs lauffähig. Für Einstiegs-Szenarien oder spezialisierte Use-Cases eine gute Wahl.
Hardware-Bedarf realistisch einschätzen
Das ist der Punkt, an dem viele Projekte scheitern. Open-Source-LLMs brauchen GPU-Speicher (VRAM), und der ist teuer. Hier realistische Werte für Inference (nicht Training):
| Modell-Klasse | Parameter-Bereich | VRAM-Bedarf (quantisiert) | Beispiel-GPU |
|---|---|---|---|
| Klein (für Edge / Test) | ca. 3-8 Mrd | ca. 8-16 GB | RTX 4090, L4 |
| Mittel (Produktivbetrieb KMU) | ca. 13-30 Mrd | ca. 24-48 GB | L40S, A100 40GB |
| Groß (Enterprise-Qualität) | ca. 70 Mrd | ca. 80-160 GB | A100 80GB, H100 |
| Sehr gross (Top-Qualität) | ca. 400+ Mrd | mehrere H100-Knoten | H100-Cluster |
Quantisierung (z.B. 4-bit) reduziert den VRAM-Bedarf deutlich, kostet aber etwas Qualität. Für die meisten KMU-Use-Cases ist die mittlere Klasse (ca. 24-48 GB VRAM) ein guter Kompromiss aus Qualität und Hardware-Kosten.
Inference-Frameworks
Die Software-Seite ist laut eigenen Angaben inzwischen gut entwickelt. Drei Frameworks dominieren Stand April 2026:
- Ollama: Einfach zu installieren, gute Wahl für Einstieg und Test-Szenarien. Funktioniert auch auf kleineren Servern. Eignet sich für einzelne Entwickler oder kleine Teams.
- vLLM: Produktions-Framework mit hohem Durchsatz. Optimiert für Multi-User-Szenarien, unterstützt verschiedene Modelle, bietet OpenAI-kompatible API. Erste Wahl für Enterprise-Deployment.
- llama.cpp: Leichtgewichtige C++-Implementierung, läuft auch auf CPUs und kleiner Hardware. Gut für Edge-Szenarien oder Tests ohne GPU.
Alle drei Frameworks sind Open Source und kostenlos. Der Betrieb ist technisch kein Hexenwerk, erfordert aber Linux- und GPU-Know-how.
Kosten-Rechnung: Eigen-Infrastruktur vs Cloud-API
Ein typisches Beispiel: Ein Mittelständler verarbeitet 200 Millionen Tokens pro Monat (das entspricht grob einer Firma mit 50-100 aktiven KI-Nutzern, gemischte Use-Cases).
| Szenario | Jahreskosten (illustrativ) |
|---|---|
| Cloud-API (z.B. Claude Sonnet oder GPT): 200M Input + 80M Output pro Monat bei ca. 3-8 USD/1M Tokens | ca. 30.000-80.000 EUR |
| Eigen-Server: 2x A100 80GB oder ähnlich, gehostet im eigenen RZ oder bei EU-Anbieter | Hardware ca. 40.000-60.000 EUR (einmalig) + 3.000 EUR/Monat Strom/Betrieb |
| Eigen-Server, Jahreskosten Jahr 1 | ca. 75.000-95.000 EUR |
| Eigen-Server, Jahreskosten Jahr 2+ | ca. 35.000 EUR (nur Betrieb) |
Ab einem bestimmten Volumen rechnet sich Eigen-Infrastruktur ab Jahr 2. Bei kleineren Volumina (weniger als 50M Tokens pro Monat) bleibt Cloud-API wirtschaftlicher, weil die Fix-Kosten der Hardware zu hoch sind. Die Zahlen sind illustrativ und hängen stark von deinen tatsächlichen Nutzungsmustern ab.
Sicherheit, Patching und Updates
Selbsthosting heißt auch: Du bist selbst für Sicherheit verantwortlich. Das klingt trivial, wird aber oft unterschätzt. Konkret:
- Modell-Updates: Neue Versionen von Llama, Mistral oder Gemma erscheinen alle paar Monate. Wer spielt die ein? Wer testet, ob die Qualität in euren Use-Cases gleich bleibt?
- Inference-Stack Patches: vLLM, Ollama und Co. bekommen regelmäßig Security-Updates. Wer patched den Stack?
- GPU-Treiber und OS: Kernel-Updates, NVIDIA-Treiber, CUDA-Versionen. Alles muss aktuell gehalten werden, ohne dass die Modelle Schaden nehmen.
- Monitoring: Wer bemerkt, wenn das Modell durch einen Update langsamer oder schlechter wird?
- Backup und Disaster Recovery: Modell-Dateien, Embeddings, Fine-Tuning-Checkpoints müssen gesichert werden.
Das bedeutet: Mindestens eine halbe Personalstelle für Betrieb und Weiterentwicklung. Für Firmen ohne dediziertes MLOps-Team wird das ein wunder Punkt.
Wann sich Selbsthosting wirklich lohnt
Drei Szenarien, in denen die Rechnung aufgeht:
- API-Kosten über 50.000 EUR pro Jahr: Ab dieser Schwelle wird die Hardware-Investition wirtschaftlich vertretbar, auch mit laufenden Betriebskosten.
- Strikte Datensouveränitäts-Anforderungen: Wenn deine Branche (Rüstung, Gesundheit mit sehr sensiblen Daten, Behörden) explizit vorgibt, dass Daten das Unternehmen nicht verlassen dürfen, ist Selbsthosting oft die einzige saubere Lösung.
- Fine-Tuning-Bedarf: Wenn du das Modell wirklich auf deine Branchenterminologie oder deinen Schreibstil trainieren willst und dabei die Trainingsdaten nicht einer Cloud anvertrauen möchtest.
Wann Selbsthosting nicht lohnt
- Weniger als 10 Leute im Tech-Team: Ohne Kapazität für MLOps wird das Projekt zur Dauerbaustelle.
- Kein dedizierter Admin: Server, Netzwerk, GPU-Cluster brauchen jemanden, der sich kümmert. Nebenher läuft das nicht stabil.
- Keine klaren Use-Cases: Wenn ihr noch nicht wisst, wofür ihr KI genau einsetzt, ist Cloud-API der bessere Erprobungsweg. Selbsthosting macht erst Sinn, wenn die Use-Cases stehen.
- Wunsch nach Top-Qualität: Die absoluten Top-Modelle (GPT, Claude Opus, Gemini Ultra) sind weiterhin nur in der Cloud verfügbar. Wer das stärkste Modell will, kann nicht selbst hosten.
Hybrid-Ansatz als pragmatischer Mittelweg
Viele Mittelständler fahren eine Hybrid-Strategie. Sensitive Daten laufen über ein selbstgehostetes Modell (z.B. Mistral Small oder Llama 70B auf eigenen GPUs), weniger sensitive oder besonders anspruchsvolle Use-Cases laufen über Cloud-API. So hast du Datensouveränität für die sensiblen Daten und die Qualität der Top-Modelle für den Rest.
Die technische Umsetzung ist laut eigenen Angaben mit modernen Inference-Frameworks gut machbar. vLLM etwa bietet eine OpenAI-kompatible API, so dass deine Anwendungen mit minimalem Aufwand zwischen "internem Modell" und "Cloud-Modell" wechseln können.
Praktisches Beispiel: Kanzlei mit sensiblen Mandaten (illustrativ)
Eine mittelständische Wirtschaftskanzlei mit 80 Mitarbeitern hat einige Mandate mit sehr strengen Vertraulichkeits-Anforderungen. Vertragsanalysen dürfen die Kanzlei nicht verlassen. Gleichzeitig wollen die Anwälte für Recherche und normale Korrespondenz die Stärke moderner Cloud-Modelle nutzen.
- Interner Stack: 2x A100 80GB, Mistral Small oder Mixtral für Vertragsanalyse und Mandats-relevante Dokumentenverarbeitung.
- Cloud: Claude Enterprise oder ChatGPT Enterprise für Recherche, Brief-Entwürfe, Meeting-Protokolle bei weniger sensiblen Mandaten.
- Routing: Ein internes Gateway entscheidet anhand des Mandats-Kennzeichens, welches Modell genutzt wird.
- Ergebnis (illustrativ): Datensouveränität für kritische Mandate, Cloud-Performance für den Rest, Kostenvorteile durch Selbsthosting bei hohem Volumen.
Entscheidungshilfe
Fünf Fragen, die du ehrlich beantworten solltest, bevor du Open-Source-LLM-Stack baust:
- Gibt es dedizierte Tech-Personalstellen (mindestens eine halbe MLOps-Stelle), die sich um den Betrieb kümmern können?
- Habt ihr klare Use-Cases mit ausreichendem Volumen (mehr als 50 Millionen Tokens pro Monat)?
- Gibt es harte Anforderungen an Datensouveränität, die Cloud nicht erfüllen kann?
- Seid ihr bereit, Modell- und Stack-Updates kontinuierlich einzuspielen und zu testen?
- Gibt es intern Kompetenz für Prompt-Engineering, RAG-Aufbau und Fine-Tuning?
Zwei Mal oder weniger "Ja"? Bleib bei Cloud-API. Drei Mal oder mehr "Ja"? Selbsthosting ist einen ernsthaften Business-Case wert.
Was diese Woche tun
- Ermittle euren aktuellen Token-Verbrauch (oder schätze ihn anhand der Anzahl aktiver KI-Nutzer x durchschnittliche Anfragen x Token pro Anfrage).
- Spiele mit Ollama auf einem Test-Server (auch ohne dedizierte GPU laufen kleine Modelle). So bekommst du ein Gefühl für die Qualitätsstufen.
- Hole Angebote für GPU-Hardware oder EU-Hosting-Anbieter (z.B. Hetzner, OVH, Scaleway). Der Markt ist stark in Bewegung.
- Sprich mit eurem Datenschutzbeauftragten über die Frage, ob eine Hybrid-Strategie für euch sinnvoll ist.
- Denk an Kompetenzaufbau. Ohne eigene Leute, die Prompt-Engineering, RAG und Modell-Betrieb beherrschen, wird jedes Selbsthosting-Projekt zur externen Dauer-Beratungsrechnung.
Häufige Fragen
Wann rechnet sich ein eigener LLM-Server gegenueber Cloud-API?
Ab rund 50.000 Euro API-Kosten pro Jahr wird Eigen-Infrastruktur wirtschaftlich. Bei 200 Millionen Tokens pro Monat liegen Cloud-Kosten bei 30.000 bis 80.000 Euro pro Jahr, ein Eigen-Server mit zwei A100 80GB bei 75.000 bis 95.000 Euro im ersten Jahr, ab Jahr zwei nur noch rund 35.000 Euro.
Welche Hardware braucht ein mittelgrosses Modell fuer Produktivbetrieb?
Ein 13 bis 30 Milliarden Parameter Modell (Mistral Small oder Llama 70B quantisiert) braucht etwa 24 bis 48 GB VRAM. Beispielkarten: L40S oder A100 40GB. Kleine Edge-Modelle mit 3 bis 8 Mrd Parametern laufen schon auf einer RTX 4090 mit 8 bis 16 GB VRAM.
Was sind die groessten Risiken beim Selbsthosting?
Du bist fuer Security und Updates selbst verantwortlich. Modell-Updates von Llama und Co kommen alle paar Monate. Inference-Stack wie vLLM oder Ollama braucht Patches. GPU-Treiber, Monitoring und Backup gehoeren dazu. Ohne dedizierten MLOps-Verantwortlichen wird das Projekt zur Dauerbaustelle.
Wie starte ich ohne grosse Investition?
Spiel mit Ollama auf einem Test-Server, kleine Modelle laufen sogar ohne dedizierte GPU. So bekommst du ein Gefuehl fuer die Qualitaetsstufen. Ermittle parallel euren aktuellen Token-Verbrauch. Hole Angebote fuer EU-Hosting bei Hetzner, OVH oder Scaleway. Erst bei drei von fuenf Kernfragen mit Ja einen Business-Case fuer Selbsthosting aufsetzen.
Open-Source-KI im Unternehmen richtig aufsetzen?
DigiMan-Weiterbildung deckt Modellauswahl, Hosting und IT-Sicherheit ab. 100 % über QCG förderfähig. 15 Minuten kostenloses Erstgespräch.