Open Source KI selbst hosten ist 2026 keine Bastelei mehr, sondern eine handfeste Entscheidung zwischen "Daten rausgeben" und "Daten behalten". ChatGPT, Claude und Gemini liefern stark. Jede Anfrage verlaesst aber dein Netzwerk und landet auf US-Servern unter fremden Nutzungsbedingungen. Für eine Kanzlei, eine Arztpraxis oder einen Steuerberater ist das keine theoretische Sorge, sondern ein reales Compliance-Problem: Kundendaten in der Cloud eines amerikanischen Anbieters, Vertragstexte auf Servern unter dem CLOUD Act, Abhängigkeit von Preisen, die sich jedes Quartal ändern können.
Seit 2023 gibt es eine Alternative, und sie ist jeden Monat reifer geworden. Llama 3 von Meta, Mistral aus Paris, Qwen von Alibaba, Gemma von Google, Phi von Microsoft. Alle laufen auf eigener Hardware oder auf einem europaeischen Server. Keine Daten verlassen dein Unternehmen. Kein Drittanbieter sieht deine Prompts. Kein Auftragsverarbeitungsvertrag nötig, weil du selbst der Verarbeiter bist.
Dieser Artikel sortiert, welche Open-Source-Modelle 2026 relevant sind, welche Hardware du brauchst, welche Hosting-Option zu welcher Firmengröße passt und wie du ein RAG-System aufsetzt, das dein Firmenwissen einbindet. Keine Marketing-Versprechen. Konkrete Zahlen.
Warum Datenschutz das entscheidende Argument ist
Wenn du ein Open-Source-Modell auf deinem eigenen Server betreibst, bleiben alle Daten in deiner Infrastruktur. Kein API-Call an OpenAI, kein Datenfluss in die USA, kein Risiko durch den CLOUD Act. Für Branchen mit strengen Datenschutzanforderungen (Recht, Gesundheit, Finanzdienstleistungen) ist das kein Extra, sondern Voraussetzung.
Die DSGVO verlangt bei der Übermittlung personenbezogener Daten in Drittstaaten eine Rechtsgrundlage nach Art. 44-49. Bei Self-Hosting faellt dieses Problem weg. Es gibt keine Übermittlung.
Kosten bei Skalierung: Ab wann lohnt sich Self-Hosting?
Cloud-KI-APIs rechnen pro Token ab. Bei geringem Volumen ist das günstig. Sobald 50 oder 100 Mitarbeiter taeglich KI nutzen, sieht die Rechnung aber anders aus:
- 50 ChatGPT-Enterprise-Lizenzen: ab 3.000 Euro pro Monat
- 50 Mitarbeiter über Claude API (mittlere Nutzung): ca. 2.000-5.000 Euro pro Monat
- Ein dedizierter GPU-Server bei Hetzner mit Llama 3 70B: 300-500 Euro pro Monat, unbegrenzte Nutzung
Ab ca. 20-30 aktiven Nutzern wird Self-Hosting günstiger als Cloud-APIs. Die Grenzkosten pro zusätzlichen Nutzer sind praktisch null, solange die Hardware nicht ausgelastet ist. Wer das einmal durchgerechnet hat, sieht schnell: ab einer bestimmten Firmengröße zahlst du Cloud-APIs quasi doppelt.
Anpassbarkeit: Was mit eigener Infrastruktur möglich wird
Cloud-APIs geben dir ein Modell, das du über Prompts steuerst. Bei Open-Source-Modellen geht mehr. Du kannst Fine-Tuning auf deine Fachsprache und Branche durchführen, System-Prompts und Guardrails direkt im Modell verankern, eigene Tools und Funktionen über Function Calling einbinden und Modelle kombinieren. Ein kleines, schnelles Modell für triviale Aufgaben, ein großes für komplexe Analysen, beides parallel unter derselben API.
Die fuenf wichtigsten Open-Source-Modelle 2026
Für den Einstieg empfehlen wir Llama 3.1 8B oder Mistral 7B. Beide laufen auf einer einzelnen GPU mit 8 GB VRAM, liefern gute Ergebnisse bei Standardaufgaben und haben die breiteste Community-Unterstuetzung. Wenn du mehr Leistung brauchst, skalierst du später auf Llama 3.1 70B oder Mixtral 8x22B.
Mistral ist für EU-Unternehmen ein Sonderfall: Die Firma sitzt in Paris und verarbeitet Daten in der EU. Wenn du Mistral nicht selbst hostest, sondern deren API nutzt, hast du einen europaeischen Auftragsverarbeiter. Das vereinfacht die DSGVO-Dokumentation im Vergleich zu US-Anbietern erheblich.
Hardware-Anforderungen: Was brauchst du wirklich?
Die Modellgröße bestimmt den Hardwarebedarf. Wichtigste Kenngröße ist der VRAM der GPU.
Quantisierung ist der Schluessel für KMU. Ein 70B-Modell in voller Praezision (FP16) braucht 140 GB VRAM. Die gleiche Modellgröße in 4-Bit-Quantisierung (GPTQ oder AWQ) laeuft mit 40-45 GB VRAM bei nur 2-5 Prozent Qualitätsverlust. Tools wie llama.cpp, GGUF und ExLlamaV2 machen Quantisierung zum Standard. Wer den Hardware-Bedarf aus Papers liest und dann keine Quantisierung nutzt, gibt beim Einkauf Faktor drei zu viel aus.
Für die meisten KMU reicht ein 7B- oder 14B-Modell für Alltagsaufgaben wie E-Mail-Entwuerfe, Zusammenfassungen, Übersetzungen, Klassifikation und einfache Datenanalyse voellig. Ein 70B-Modell brauchst du erst, wenn du komplexes Reasoning, lange Dokumente oder anspruchsvolle Coding-Aufgaben abdecken willst.
Hosting-Optionen
Eigener Server im Rechenzentrum
Maximale Kontrolle, keine laufenden Mietkosten nach Amortisation, Daten verlassen physisch nie dein Unternehmen. Auf der Gegenseite: hohe Anfangsinvestition (eine NVIDIA A6000 kostet ca. 5.000 Euro, ein A100-Server 15.000-30.000 Euro), Wartung in Eigenverantwortung, Strom und Kühlung. Geeignet für Unternehmen mit eigenem IT-Team und Rechenzentrum, die langfristig hohe KI-Nutzung planen.
Dedicated GPU-Server in der EU (Hetzner, netcup, OVHcloud)
Daten bleiben in der EU (Hetzner betreibt Rechenzentren in Falkenstein, Nuernberg, Helsinki), kein eigenes Rechenzentrumspersonal nötig, kalkulierbare Monatskosten. Weniger GPU-Auswahl als bei Hyperscalern, gelegentlich Wartezeiten bei Dedicated-Servern.
Kosten bei Hetzner (Stand Q1 2026): - GPU-Server mit RTX 4090 (24 GB VRAM): ab 180 Euro/Monat - GPU-Server mit A100 (80 GB VRAM): ab 450 Euro/Monat - Bare-Metal mit 2x A6000 (je 48 GB): ab 600 Euro/Monat
Für die meisten KMU der beste Kompromiss aus Kosten, Kontrolle und Datenschutz.
Cloud On-Demand (AWS, Azure, GCP)
Sofort verfuegbar, skaliert on-demand, keine langfristige Bindung. Daten können in die USA übertragen werden, wenn die Region nicht explizit auf EU gesetzt ist. Teurer bei Dauerbetrieb, Vendor Lock-In durch anbieterspezifische Services. Kosten in der EU-Region, On-Demand: AWS p4d.24xlarge (8x A100) ca. 25 Euro/Stunde, Azure NC24ads A100 (1x A100 80 GB) ca. 4,50 Euro/Stunde, GCP a2-highgpu-1g (1x A100) ca. 4 Euro/Stunde. Für Spitzenlasten oder sporadische Nutzung ok. Für Dauerbetrieb zu teuer.
Vergleich: Cloud-KI-API vs Self-Hosted Open Source
Für die meisten Unternehmen ergibt ein Hybrid-Ansatz die beste Rechnung. Cloud-APIs für seltene, komplexe Spezialfälle (lange juristische Analysen, große multimodale Aufgaben), Self-Hosted für den Alltagsbetrieb mit sensiblen Daten. Tools wie LiteLLM oder OpenRouter erlauben, beide Backends über eine einheitliche API anzusprechen. Einen detaillierten Vergleich der Cloud-KI-Anbieter findest du im Artikel KI-Tools im Vergleich: Die besten Lösungen für Unternehmen.
RAG-System aufbauen: Firmenwissen einbinden
Ein KI-Modell ohne Firmenwissen ist wie ein neuer Mitarbeiter am ersten Tag. Es formuliert gut, kennt aber weder deine Produkte noch deine internen Prozesse. RAG (Retrieval-Augmented Generation) loest dieses Problem.
So funktioniert der Ablauf: PDFs, Word-Dateien, Wiki-Seiten und E-Mails werden in kleine Textbloecke (Chunks) aufgeteilt und als Vektoren in einer Datenbank gespeichert, etwa ChromaDB, Qdrant oder Weaviate. Wenn ein Nutzer eine Frage stellt (etwa "Welche Garantiebedingungen gelten für Produkt X?"), sucht das System per Ähnlichkeitssuche die drei bis zehn relevantesten Textbloecke aus der Vektordatenbank. Die gefundenen Chunks werden zusammen mit der Nutzerfrage an das LLM übergeben. Das Modell antwortet auf Basis der konkreten Firmendokumente statt aus seinem allgemeinen Training.
Technisch brauchst du dafür ein Embedding-Modell wie nomic-embed-text oder mxbai-embed-large (beides Open Source, laeuft lokal), eine Vektordatenbank (ChromaDB ist am einfachsten, Qdrant am schnellsten, Weaviate am enterprise-tauglichsten), eine Inference-Engine (Ollama für die schnellste Einrichtung, vLLM für hoechsten Durchsatz, llama.cpp für geringsten Ressourcenverbrauch), eine Orchestrierungs-Schicht wie LangChain oder LlamaIndex (oder ein selbstgeschriebenes Python-Script) und ein Frontend wie Open WebUI.
Damit baust du einen Kundenservice-Bot, der Fragen anhand deiner Produktdokumentation beantwortet, einen internen Wissens-Assistenten für Mitarbeiter mit Zugriff auf Handbücher und SOPs, ein Vertragsanalyse-Tool, das Klauseln mit deinen Standardverträgen vergleicht, oder einen Onboarding-Assistenten für neue Mitarbeiter.
Der Knackpunkt ist die Qualität der indexierten Dokumente. Garbage in, garbage out gilt auch hier. Die meisten RAG-Projekte scheitern nicht am Modell, sondern an einem unsortierten Dokumenten-Archiv mit Dubletten, veralteten Versionen und OCR-Fehlern. Bevor du dich mit Modellauswahl und Infrastruktur beschäftigst, lohnt sich ein halber Tag, in dem jemand die Quell-Dokumente aufraeumt.
DeepSeek und China: Datenschutz-Bedenken
DeepSeek R1 und DeepSeek V3 sind technisch herausragend. DeepSeek R1 erreicht bei einigen Benchmarks GPT-4o-Niveau, und das bei deutlich geringeren Hardwareanforderungen. Die Modelle sind Open Source (MIT-Lizenz) und dürfen frei verwendet werden.
Das Problem ist nicht das Modell. Das Problem ist die API.
Wenn du die DeepSeek-API unter api.deepseek.com nutzt, werden deine Daten an Server in China übertragen. China hat kein Aequivalent zum EU-US Data Privacy Framework. Die DSGVO erlaubt Datenübermittlungen in Drittstaaten nur unter bestimmten Bedingungen (Art. 44-49), und für China gibt es keinen Angemessenheitsbeschluss. Standardvertragsklauseln sind theoretisch möglich, praktisch aber problematisch, weil chinesische Gesetze (insbesondere das Nationale Sicherheitsgesetz und das Datensicherheitsgesetz) staatlichen Zugriff auf Unternehmensdaten ermöglichen.
DeepSeek-Modelle lokal zu hosten loest das komplett. Wenn du DeepSeek R1 auf deinem eigenen Server betreibst, gelten die gleichen DSGVO-Vorteile wie bei jedem anderen selbst gehosteten Modell. Keine Datenübertragung, kein Drittland-Problem. Du nutzt die technische Leistung ohne das rechtliche Risiko. Das gleiche Prinzip gilt für Qwen von Alibaba. Als API problematisch, als Self-Hosted-Modell unproblematisch.
Mehr zum Thema Drittlandtransfer und Cloud-KI findest du im Artikel Cloud-KI und Datenschutz: USA, DSGVO und Alternativen.
Praktischer Einstieg in vier Schritten
Bestelle einen Dedicated GPU-Server bei Hetzner (ab 180 Euro/Monat für RTX 4090) oder einem anderen EU-Provider und waehle Ubuntu 22.04 LTS als Betriebssystem. Installiere dann Ollama:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
Zwei Befehle. Danach laeuft Llama 3.1 8B auf deinem Server und ist über eine lokale API erreichbar.
Danach setzt du Open WebUI auf:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui \
ghcr.io/open-webui/open-webui:main
Du hast jetzt ein ChatGPT-ähnliches Interface auf deinem eigenen Server, das deine Mitarbeiter über den Browser nutzen können. In Open WebUI laedst du unter "Documents" PDFs und andere Dateien hoch. Die Software erstellt automatisch Embeddings und bindet die Dokumente in die Antworten ein. Für fortgeschrittene Setups kommt eine dedizierte Vektordatenbank wie Qdrant dazu.
Wir sehen bei unseren DigiMan-Teilnehmern regelmäßig, dass genau dieser Punkt unterschaetzt wird: Ein funktionierendes Self-Hosting-Setup ist technisch keine große Huerde mehr, aber die Organisation drumherum (Zugriffsrechte, Backup, Monitoring, Schulung der Nutzer) kostet mehr Zeit als das Aufsetzen des Servers. Wer das unterschaetzt, hat nach drei Monaten einen Server mit einem einzigen Power-User statt ein Tool, das im ganzen Unternehmen wirkt.
FAQ: Häufige Fragen zu Open Source KI und DSGVO
Ist das Hosten von Llama 3 wirklich DSGVO-konform? Ja, solange du das Modell auf eigener Infrastruktur oder einem EU-Server betreibst und keine personenbezogenen Daten an Dritte übermittelst. Es entfaellt die Notwendigkeit eines AVV, weil du selbst Verantwortlicher und Verarbeiter bist. Die ueblichen DSGVO-Pflichten (Verzeichnis der Verarbeitungstätigkeiten, technische und organisatorische Maßnahmen, Informationspflichten) gelten aber weiterhin.
Brauche ich einen Datenschutzbeauftragten für den Betrieb eines KI-Servers? Die Pflicht zum Datenschutzbeauftragten richtet sich nach Paragraf 38 BDSG (ab 20 Mitarbeitern, die regelmäßig personenbezogene Daten verarbeiten) bzw. Art. 37 DSGVO (bei umfangreicher Verarbeitung besonderer Kategorien). Der Betrieb eines KI-Servers allein loest diese Pflicht nicht aus.
Wie gut sind Open-Source-Modelle wirklich im Vergleich zu GPT-4o? Bei Standardaufgaben (Zusammenfassungen, Übersetzungen, E-Mail-Entwuerfe, Klassifikation) erreichen Llama 3.1 70B und Mistral Large 85-95 Prozent der GPT-4o-Qualität. Bei komplexem Reasoning, sehr langen Kontexten und kreativen Aufgaben bleibt ein Abstand von 10-20 Prozent. Für 90 Prozent der Unternehmens-Anwendungsfälle ist das mehr als ausreichend.
Was kostet der laufende Betrieb? Hetzner GPU-Server ab 180 Euro/Monat für ein 7-8B-Modell. Strom und Wartung sind im Mietpreis enthalten. Für ein 70B-Modell kalkuliere mit 300-500 Euro/Monat. Dazu kommen einmalig vier bis acht Stunden für die Einrichtung.
Muss ich eine Datenschutzfolgenabschätzung (DSFA) durchführen? Art. 35 DSGVO verlangt eine DSFA bei "voraussichtlich hohem Risiko" für die Rechte der Betroffenen. Wenn du personenbezogene Daten systematisch mit KI verarbeitest (etwa automatisierte Bewerbungsanalyse oder Kreditwuerdigkeitsprüfung), ist eine DSFA Pflicht. Bei internen Assistenzsystemen ohne automatisierte Einzelentscheidungen ist sie empfohlen, aber nicht zwingend.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.