Auf einen Blick: Ein lokaler AI-Agent-Stack 2026 besteht aus drei Bausteinen: Ollama als Modell-Server, Open WebUI als Chat-Frontend, n8n als Workflow-Engine. Hardware-Einstieg ab RTX 4090 oder Apple Silicon M2 Max. Open-Weight-Modelle wie Hermes 4.3, Mistral Medium 3.5, Qwen 3.6 oder DeepSeek V4 Flash laufen produktiv. Einrichtung in 2-4 Tagen für IT-affine KMU. Spart bei intensiver Nutzung 200-500 Euro Token-Kosten pro Monat. Volle DSGVO-Kontrolle, keine Drittlandtransfers.
Wer 2026 Cloud-LLMs nutzt, schickt zwangsläufig Daten an Anthropic, OpenAI oder Google. Für viele KMU ist das kein Problem. Für andere ist es ein Showstopper. Anwaltskanzleien mit Mandantengeheimnis nach BRAO, Arztpraxen mit Patientenakten nach SGB V, Steuerberater mit Sozialgeheimnis, Personalabteilungen mit besonders sensiblen Beschäftigtendaten nach Art. 9 DSGVO. Für diese Zielgruppen ist Self-Hosting nicht Nice-to-have, sondern Voraussetzung. Stand Mai 2026 ist der lokale Agent-Stack so weit gereift, dass produktiver Einsatz realistisch ist.
Die drei Bausteine
Drei Open-Source-Projekte machen den lokalen Stack 2026 praktikabel.
Ollama ist der Modell-Server. Du installierst ihn einmal, ziehst dann ein oder mehrere Modelle mit einem einzigen Befehl, und Ollama stellt eine OpenAI-kompatible API bereit. Die meisten Tools die mit OpenAI sprechen, können auch mit Ollama sprechen. Performance ist erstaunlich gut, Hardware-Erkennung läuft automatisch (CUDA, Metal, ROCm).
Open WebUI ist das Chat-Frontend. Sieht aus wie ChatGPT, läuft als Docker-Container im eigenen Netz, koppelt sich an Ollama. Wer eine vertraute Oberfläche für Mitarbeiter braucht ohne API-Komplexität, ist hier richtig. Bringt eigene Nutzerverwaltung, Conversation-History, RAG-Funktionen und MCP-Integration mit.
n8n ist die Workflow-Engine. Seit 2026 mit nativen AI-Nodes für Ollama-API, was bedeutet: Workflows können lokale Modelle direkt ansprechen, ohne Cloud-Umweg. Eingangsrechnung klassifizieren, Mail kategorisieren, Lead-Score berechnen, alles lokal.
Alle drei sind kostenlos. Bezahlt wird nur Hardware und Strom.
Hardware: Was wirklich reicht
Die häufigste Falle beim Self-Hosting: Hardware zu klein dimensionieren. Ein 7B-Modell auf einer alten Workstation läuft, aber liefert keine produktiv brauchbare Qualität. Realistische Empfehlungen für KMU-Einsatz:
| Setup | Hardware | Modelle die laufen | Eignung |
|---|---|---|---|
| Einstieg | RTX 4090, 32 GB RAM | DeepSeek V4 Flash 13B, Qwen 3.6 32B (4-Bit) | Einzelnutzer, Tests |
| Standard | 2x RTX 4090, 64 GB RAM | Hermes 4.3 36B (4-Bit), Mistral Medium 3.5 128B (4-Bit) | KMU bis 20 MA |
| Performance | A100 80GB, 128 GB RAM | Hermes 4.3 36B (6-Bit), Qwen 3.6 32B (8-Bit) | KMU 20-50 MA, hohe Anforderung |
| Apple Silicon | M2 Max mit 96 GB Unified Memory | Mistral Medium 3.5 128B (4-Bit), Hermes 4.3 36B | Einzelnutzer mit Mobilität |
RTX 4090 kostet Stand Mai 2026 etwa 1.700 Euro Neupreis. Zwei davon plus Workstation-Mainboard, Netzteil, Gehäuse landen bei rund 4.500 Euro. Eine A100 80GB im Refurbished-Markt liegt bei 8.000 bis 12.000 Euro. Apple Mac Studio M2 Max 96 GB beginnt bei etwa 5.500 Euro.
Wichtig: Quantisierung verstehen. Ein 36B-Modell hat 36 Milliarden Parameter. Bei voller Präzision (16-Bit) braucht es 72 GB VRAM, was nur in eine A100 passt. Bei 4-Bit-Quantisierung (Standard heute) braucht es etwa 22 GB, passt auf 2x RTX 4090 oder eine A100. Qualitätsverlust bei 4-Bit ist im Praxis-Einsatz kaum spürbar.
Installation Schritt für Schritt
Die folgende Anleitung läuft auf Ubuntu 24.04 oder einer vergleichbaren Linux-Distribution. Wer Windows oder Mac nutzt, findet bei jedem der drei Projekte eigene Anleitungen, der Grundablauf bleibt gleich.
Schritt 1: Ollama installieren
Ein einziger Befehl:
curl -fsSL https://ollama.com/install.sh | sh
Ollama erkennt verfügbare Hardware automatisch und konfiguriert CUDA bei Nvidia-GPUs. Nach der Installation läuft Ollama als Systemdienst auf Port 11434.
Verifizieren mit:
ollama --version
Schritt 2: Erstes Modell ziehen
Für den ersten Test ein kleineres Modell. DeepSeek V4 Flash 13B passt auf 16 GB VRAM und liefert solide Qualität:
ollama pull deepseek-v4-flash:13b
Der Download zieht etwa 8 GB. Bei 100 Mbit-Leitung dauert das rund 12 Minuten.
Testen:
ollama run deepseek-v4-flash:13b "Erkläre den Bildungsgutschein in zwei Sätzen."
Wenn die Antwort kommt, läuft Ollama. Wer ein größeres Modell will, zieht es nach gleichem Schema:
ollama pull hermes:4.3
ollama pull mistral:medium-3.5
ollama pull qwen:3.6-32b
Schritt 3: Open WebUI mit Docker Compose
Eine docker-compose.yml-Datei in einem Projektverzeichnis:
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
volumes:
- open-webui:/app/backend/data
extra_hosts:
- "host.docker.internal:host-gateway"
restart: unless-stopped
volumes:
open-webui:
Starten:
docker compose up -d
Open WebUI ist nach etwa 30 Sekunden auf http://localhost:3000 erreichbar. Beim ersten Aufruf legst du einen Admin-Account an. Open WebUI erkennt Ollama automatisch und zeigt die verfügbaren Modelle im Dropdown.
Schritt 4: n8n hinzufügen
n8n läuft am stabilsten mit eigener Postgres-Datenbank. Erweitere die docker-compose.yml:
services:
open-webui:
# ... wie oben
postgres:
image: postgres:16-alpine
environment:
POSTGRES_USER: n8n
POSTGRES_PASSWORD: n8nsecret
POSTGRES_DB: n8n
volumes:
- postgres:/var/lib/postgresql/data
restart: unless-stopped
n8n:
image: n8nio/n8n:latest
ports:
- "5678:5678"
environment:
- DB_TYPE=postgresdb
- DB_POSTGRESDB_HOST=postgres
- DB_POSTGRESDB_USER=n8n
- DB_POSTGRESDB_PASSWORD=n8nsecret
- DB_POSTGRESDB_DATABASE=n8n
- N8N_HOST=localhost
- WEBHOOK_URL=http://localhost:5678
volumes:
- n8n:/home/node/.n8n
depends_on:
- postgres
restart: unless-stopped
volumes:
open-webui:
postgres:
n8n:
Erneut docker compose up -d. n8n läuft auf http://localhost:5678.
Schritt 5: n8n mit Ollama verbinden
Im n8n-Interface einen neuen Workflow erstellen. AI-Agent-Node hinzufügen. Im Modell-Auswahl-Dropdown "Ollama" wählen. Als Base URL http://host.docker.internal:11434 eintragen. Modell aus der Liste der gezogenen Modelle wählen.
Ab hier kann n8n alle Ollama-Modelle direkt nutzen. Workflows ohne Cloud-Roundtrip.
Praxis-Beispiel: Notariatskanzlei Hentschel, Regensburg
Eine fiktive Notariatskanzlei mit acht Mitarbeitern in Regensburg, die im März 2026 auf lokales Setup gewechselt ist. Vorher: Claude Cloud für Vertragsanalyse, ChatGPT für Mandanten-E-Mails. Problem: Mandantenakten haben oft besonders sensible Daten (Vermögensverhältnisse, Erbschaftsangelegenheiten, Eheverträge). Externe Cloud-Verarbeitung war juristisch heikel.
Setup:
- Hardware: Workstation mit 2x RTX 4090, 64 GB RAM, AMD Ryzen 9 7950X. Anschaffung 4.300 Euro.
- Software: Ollama mit Hermes 4.3 36B (4-Bit) als Hauptmodell, Mistral Medium 3.5 128B (4-Bit) als Backup für komplexere Analysen.
- Frontend: Open WebUI mit acht Nutzerkonten, RBAC-Konfiguration so dass jeder Notar nur eigene Conversation-History sieht.
- Workflows: n8n mit drei Pipelines: Vertragsentwurf-Erstellung (Sequential Pattern), Korrespondenz-Triage (Router-Pattern), Recherche-Zusammenfassung mit menschlicher Freigabe.
Erfahrung nach drei Monaten:
Qualitätsvergleich Hermes 4.3 vs Claude Sonnet 4.6 für notariatstypische Aufgaben: Vertragsanalyse Hermes etwa 88 Prozent so gut wie Claude. Schriftsatz-Entwürfe etwa 80 Prozent. Mandanten-E-Mails etwa 92 Prozent. Spürbarer Qualitätsunterschied bei komplexer juristischer Argumentation und englischsprachiger Korrespondenz, dort liegt Claude weiter vorne.
Zeitersparnis pro Notar: 5 bis 8 Stunden pro Woche bei aktiver Nutzung. Bei einem internen Stundensatz von 150 Euro sind das 750 bis 1.200 Euro pro Notar pro Woche. Bei acht Mitarbeitern und vier aktiven Nutzern: 3.000 bis 4.800 Euro pro Woche Hebel.
Kosten:
- Hardware-Anschaffung 4.300 Euro einmalig (Abschreibung 3 Jahre = 120 Euro/Monat)
- Strom: 2x RTX 4090 zieht bei aktiver Nutzung etwa 700 Watt. Bei 8 Stunden Volllast pro Tag und 0,32 Euro/kWh sind das rund 55 Euro/Monat
- Wartung: durchschnittlich 4 Stunden/Monat (Updates, Backup-Check)
Gesamtkosten etwa 200 Euro/Monat plus 4 Stunden Wartung. Im Vergleich zu Claude Team mit acht Lizenzen (200 Euro/Monat) plus API-Kosten bei intensiver Nutzung (geschätzt 400-700 Euro/Monat) bringt das lokale Setup eine Ersparnis von 400-700 Euro/Monat bei voller Datenkontrolle.
DSGVO: Warum lokales Setup viele Probleme erledigt
Cloud-LLMs haben einen rechtlichen Stolperdraht, den viele KMU unterschätzen: Drittlandtransfer in die USA. Selbst mit EU-US Data Privacy Framework gilt eine Auftragsverarbeitung mit US-Anbieter als Drittlandtransfer nach Art. 44 ff. DSGVO. Auftragsverarbeitungs-Vertrag nach Art. 28 DSGVO ist Pflicht, der ist bei den großen Anbietern verfügbar, aber das eigentliche Problem bleibt: Daten verlassen die EU.
Bei besonders sensiblen Daten nach Art. 9 DSGVO (Gesundheitsdaten, ethnische Herkunft, religiöse Überzeugung, biometrische Daten) wird das praktisch unzulässig, wenn keine ausdrückliche Einwilligung jedes Betroffenen vorliegt. Bei Mandantenakten unter BRAO oder Patientenakten unter SGB V kommen weitere berufsrechtliche Pflichten dazu, die mit Cloud-Verarbeitung oft kollidieren.
Lokales Setup löst das pauschal. Daten verlassen nie deinen Server. Drittlandtransfer entfällt vollständig. Keine AVV-Verhandlung, keine Schrems-II-Diskussion, keine Sub-Auftragsverarbeiter-Kette. Wer in einer Branche arbeitet, wo das relevant ist, gewinnt mit Self-Hosting einen rechtlichen Vorteil, der schwer überschätzt werden kann.
Was Self-Hosting nicht ist
Self-Hosting ist nicht "kostenlos". Du tauschst variable Token-Kosten gegen fixe Hardware- und Strom-Kosten. Bei niedriger Nutzung ist Cloud günstiger, bei hoher Nutzung lokales Setup. Break-even liegt typischerweise bei 500.000 bis 1.000.000 Token/Tag.
Self-Hosting ist nicht "wartungsfrei". Du betreibst die Server. Updates, Security-Patches, Backup, Monitoring. Wer keinen IT-affinen Mitarbeiter im Haus hat oder keinen Wartungsvertrag mit einem lokalen Dienstleister, wird das nicht stemmen.
Self-Hosting ist nicht "auf Claude-Niveau". Open-Weight-Modelle 2026 sind erstaunlich gut, aber Claude Opus 4.7 und GPT-5 Pro spielen in einer anderen Liga, vor allem bei Reasoning-intensiven Aufgaben und mehrsprachiger Korrespondenz. Wer das beste verfügbare Modell für eine spezifische Aufgabe braucht, bleibt bei Cloud.
In unseren Beratungsmandaten beobachten wir, dass Hybrid-Setups die meisten Probleme lösen. Lokales Modell für tägliche Routine-Aufgaben mit DSGVO-relevanten Daten. Cloud-Modell für die wenigen komplexen Fälle wo Qualität entscheidend ist und Daten anonymisierbar sind. Wer das mischt, hat das Beste aus beiden Welten.
Wir behandeln Self-Hosting und Hybrid-Architekturen ausführlich im DigiMan-Kurs, insbesondere in Modul 6 (Modell-Auswahl) und Modul 11 (DSGVO-konforme KI-Architektur). Für die ergaenzende Perspektive auf Apple-Silicon-Setups lohnt sich unser Praxis-Artikel zum lokalen LLM auf Mac Mini.
Stolperfallen aus der Praxis
SSO oder LDAP koppeln. Open WebUI hat eine eigene Nutzerverwaltung. Bei Multi-User-Setup ist das ein Sicherheitsrisiko, weil Passwörter doppelt gepflegt werden müssen. Lösung: SSO über Keycloak, Authentik oder direktes LDAP koppeln. Aufwand etwa 4-6 Stunden, lohnt sich ab fünf Nutzern.
Modell-Updates planen. Open-Weight-Modelle werden alle paar Monate aktualisiert. Hermes 4.3 wird zu Hermes 5.0, Mistral Medium 3.5 zu 3.6. Wer keinen festen Update-Zyklus hat, läuft schnell auf veralteten Modellen. Quartals-Review mit Test der jeweils neuesten verfügbaren Versionen einplanen.
Strom unterschätzen. Bei 8 Stunden Volllast pro Tag und 2x RTX 4090 sind das rund 1.700 kWh/Jahr. Bei 0,32 Euro/kWh sind das 545 Euro Stromkosten jährlich. Wer 24/7 läuft und intensiv nutzt, kommt auf 3.000-4.000 kWh/Jahr und über 1.000 Euro Stromkosten. Das ist deutlich, aber im Vergleich zu Token-Kosten bei intensiver Cloud-Nutzung trotzdem günstig.
Backup ist nicht optional. Open WebUI speichert Conversations, n8n speichert Workflows mit Credentials. Beides muss gesichert werden, sonst sind bei Festplatten-Ausfall Wochen Arbeit weg. Tägliches automatisches Backup auf ein zweites System einrichten, alle zwei Wochen Restore testen.
Einrichtung realistisch planen. Für IT-affine KMU 2-4 Tage von Bestellung Hardware bis produktivem Einsatz. Wer das unterschätzt und in einem Tag fertig sein will, frustriert sich. Wer 1-2 Wochen einplant und nach 4 Tagen produktiv ist, hat ein gutes Gefühl.
Häufige Fragen
Brauche ich für jedes Modell eine eigene GPU?
Nein. Ollama hält das aktive Modell im VRAM, bei Modell-Wechsel wird das alte Modell entladen und das neue geladen. Wer mehrere Modelle parallel braucht (z.B. ein kleines Klassifikations-Modell und ein großes Reasoning-Modell), kann sie auf zwei GPUs verteilen oder eine GPU mit genug VRAM nutzen (A100 80GB). Für die meisten KMU-Anwendungsfälle reicht ein Hauptmodell, das in 90 Prozent der Anfragen genutzt wird.
Was passiert, wenn meine Hardware ausfällt?
Wenn die GPU stirbt, läuft kein Modell mehr. Wer das nicht hinnehmen kann, braucht entweder einen zweiten Server als Failover oder einen Cloud-Fallback (z.B. n8n schaltet bei Ollama-Outage automatisch auf Claude API um). Hybrid-Setup mit Failover ist eine sinnvolle Architektur für mission-critical Workflows. Reines Self-Hosting ohne Fallback ist okay für nicht-kritische Use Cases.
Welches Open-Weight-Modell ist das beste für deutschen Geschäftstext?
Stand Mai 2026 sind Hermes 4.3 36B und Mistral Medium 3.5 128B die beiden besten Optionen für deutschsprachige Geschäftskorrespondenz. Mistral hat einen leichten Vorsprung bei juristischen und behördlichen Texten (das Mistral-Trainingscorpus ist europäisch geprägt), Hermes ist stärker bei Tool-Calling und Agent-Workflows. Qwen 3.6 ist überraschend gut bei mehrsprachigen Aufgaben (Deutsch-Englisch-Chinesisch), DeepSeek V4 Flash ist die beste Option für kleinere Hardware.
Wie hoch ist die Token-Geschwindigkeit lokal?
Auf 2x RTX 4090 mit Hermes 4.3 36B (4-Bit) liegen wir bei etwa 35-50 Tokens pro Sekunde Output. Auf einer A100 80GB mit höherer Präzision bei 60-80 Tokens pro Sekunde. Apple M2 Max liegt bei 25-40 Tokens pro Sekunde. Im Vergleich: Claude Sonnet 4.6 in der Cloud liefert 80-120 Tokens pro Sekunde. Für interaktive Chats ist die lokale Geschwindigkeit ausreichend, für batch-mäßige Verarbeitung großer Mengen kann die Cloud-Geschwindigkeit Vorteile bringen.
Zuletzt geprüft am 23. Mai 2026.
Du willst Self-Hosting mit DSGVO-konformer KI-Architektur professionell lernen? Im DigiMan-Kurs baust du in 16 Wochen lokale Agent-Stacks mit Ollama, Open WebUI und n8n, inklusive Multi-User-Setup und Compliance-Architektur. Mit Bildungsgutschein oder QCG-Förderung in vielen Fällen ohne Eigenanteil.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspaedagoge, Gruender von SkillSprinters und seit über zehn Jahren in der digitalen Bildung tätig. Mit dem DEKRA-zertifizierten Bildungstraeger SkillSprinters betreut er bundesweit KMU bei der KI-Einfuehrung. Mehr unter skill-sprinters.de/autor/jens-aichinger/.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.