Open WebUI und Ollama: Eigene KI-Installation im Firmen-Server

Open WebUI und Ollama sind die beiden wichtigsten Bausteine, wenn du eine eigene KI im Firmen-Netzwerk installieren willst. Kein Cloud-Dienst, keine API, keine Datenübertragung an OpenAI, Anthropic oder Google. Alles läuft auf deiner Hardware, die Daten bleiben im Haus, und du zahlst keine monatliche Gebühr pro Nutzer. Für Firmen mit strengen Datenschutzanforderungen ist das der einzige Weg, KI produktiv einzusetzen, ohne sich rechtlich in die Nesseln zu setzen.

Dieser Artikel zeigt dir, wie Open WebUI Ollama eigene KI im Detail funktioniert, welche Hardware du brauchst, welche Modelle sich für welchen Zweck eignen und wie du in einem Nachmittag eine lauffähige Installation hinbekommst.

Das Wichtigste in Kürze

Ollama ist eine Open-Source-Runtime, die KI-Sprachmodelle (Llama 4, Mistral, DeepSeek, Gemma und andere) lokal ausführt.
Open WebUI ist die Chat-Oberfläche dazu, sieht aus wie ChatGPT und läuft im Browser.
Beides ist kostenlos, quelloffen und komplett DSGVO-konform, weil keine Daten den Server verlassen.
Hardware-Minimum für brauchbare Modelle: 16 GB RAM und ein halbwegs aktueller Prozessor, besser 32 GB und eine GPU.
Setup läuft über Docker-Compose und dauert rund 30 Minuten vom frischen Server zum laufenden System.
Typische Use Cases: interne Wissensdatenbank, Bewerbungsvorsortierung, Übersetzungen, Textgenerierung in Branchen mit Geheimhaltungspflicht.
Die Modelle sind nicht ganz auf dem Niveau von GPT-5 oder Claude Opus 4.6, aber für 80 Prozent der Firmenaufgaben mehr als ausreichend.

Warum sich lokale KI für deutsche Firmen lohnt

Jeder, der in den letzten zwei Jahren versucht hat, ChatGPT oder Claude im Firmenumfeld einzuführen, kennt die Frage: "Aber wohin gehen denn unsere Daten?" Der Datenschutzbeauftragte fragt, der Betriebsrat fragt, irgendwann fragt auch der Geschäftsführer. Die Antwort ist bei allen Cloud-KI-Diensten die gleiche: Die Daten gehen in die USA, werden dort (meist) nicht zum Training genutzt, aber verarbeitet sie eine Firma, die nicht dem europäischen Datenschutz unterliegt. Mit Standardvertragsklauseln und AVV ist das in vielen Fällen vertretbar, aber es gibt Branchen und Anwendungsfälle, in denen das einfach nicht geht.

Rechtsanwälte dürfen Mandantendaten nicht in US-Cloud-Dienste geben.
Steuerberater verarbeiten sensible Unternehmensdaten und Bankdaten.
Ärzte und Kliniken unterliegen dem Patientendatenschutz.
Behörden und Verwaltungen haben oft interne Vorschriften gegen Cloud-KI.
Industriebetriebe mit schutzwürdigen Konstruktionsdaten wollen ihre IP nicht aus dem Haus lassen.

Für all diese Gruppen ist lokale KI nicht nur eine nette Option, sondern die einzige Möglichkeit. Open WebUI und Ollama machen das ohne jahrelanges Engineering-Projekt möglich.

Was Ollama macht

Ollama ist eine schlanke Runtime, die Open-Source-KI-Modelle auf deinem Rechner ausführt. Du installierst Ollama mit einem einzigen Befehl und kannst anschließend mit einem weiteren Befehl ein Modell herunterladen und starten. Zum Beispiel:

ollama pull llama4
ollama run llama4

Das war es. Ollama nimmt sich das Llama 4 Modell (Meta, Open Weights), lädt es herunter, speichert es lokal und startet eine Chat-Sitzung im Terminal. Du schreibst deine Frage, Ollama antwortet, deine Daten bleiben komplett auf deinem Rechner.

Ollama unterstützt eine ganze Reihe von Modellen:

Modell	Hersteller	Typische Größe	Stärken
Llama 4	Meta	8B, 70B, 405B	Generalist, starker Ersatz für GPT-4
Mistral 8x22B	Mistral AI	141B	Mehrsprachig, schnelle Inferenz
DeepSeek V3	DeepSeek	671B MoE	Sehr gut im Programmieren
Gemma 4	Google	2B, 9B, 27B	Klein und schnell, für Einsteiger-Hardware
Qwen 3	Alibaba	7B, 72B	Besonders stark in asiatischen Sprachen
Phi 4	Microsoft	14B	Klein, aber qualitativ stark

Für die meisten Firmenanwendungen im deutschen Kontext ist Llama 4 70B oder Mistral 8x22B die beste Wahl. Beide verstehen Deutsch flüssig und liefern Antwortqualität, die für interne Prozesse absolut ausreicht.

Was Open WebUI macht

Ollama alleine ist ein Kommandozeilen-Tool. Für die meisten Mitarbeiter ist das nicht zumutbar. Open WebUI legt eine schicke Chat-Oberfläche drauf, die aussieht und sich bedient wie ChatGPT. Nutzer öffnen eine URL im Browser, loggen sich ein und chatten mit den Modellen, die Ollama im Hintergrund betreibt.

Open WebUI hat inzwischen alle relevanten Features einer modernen Chat-KI:

Mehrere Modelle parallel nutzbar
Konversationsverlauf pro Nutzer
Dokumenten-Upload und RAG (Retrieval Augmented Generation)
Bild-Upload und Analyse (mit Vision-Modellen)
Benutzerverwaltung, Rollen, SSO
Eigene "Knowledge Bases" für firmeninterne Dokumente
Plugins für externe Tools und APIs

Das Ganze ist Open Source, kostenlos und wird von einer aktiven Community weiterentwickelt. Neue Features erscheinen wöchentlich. Die Software ist so weit gereift, dass sie im produktiven Firmeneinsatz bestehen kann.

Hardware: Was brauchst du wirklich?

Die häufigste Frage ist: Geht das auf einem normalen Büroserver? Die Antwort hängt vom Modell ab.

Einsteiger-Setup (16 GB RAM, keine GPU): - Läuft: Gemma 4 (2B, 9B), Phi 4 (14B), Llama 4 8B - Reicht für: interne Chats, einfache Zusammenfassungen, Übersetzungen - Performance: 5 bis 20 Tokens pro Sekunde, also Antwortzeit von mehreren Sekunden

Mittleres Setup (32 GB RAM, keine GPU): - Läuft: Llama 4 8B, Mistral 7B, Qwen 3 7B, kleinere quantisierte 70B-Modelle - Reicht für: Qualifizierte Textgenerierung, Dokumentenanalyse, Code-Assistenz - Performance: 10 bis 30 Tokens pro Sekunde

Empfohlenes Setup (64 GB RAM + RTX 4090 oder vergleichbare GPU): - Läuft: Llama 4 70B (quantisiert), Mistral 8x22B (quantisiert), DeepSeek V3 (klein) - Reicht für: produktive Firmenanwendungen mit mehreren gleichzeitigen Nutzern - Performance: 30 bis 100 Tokens pro Sekunde

Profi-Setup (128 GB+ RAM, Multi-GPU): - Läuft: Llama 4 405B, DeepSeek V3 671B - Reicht für: anspruchsvolle Aufgaben, mehrere Abteilungen gleichzeitig - Kosten: Hardware ab 8.000 Euro aufwärts

Die meisten deutschen Mittelständler fahren mit dem mittleren Setup gut. Ein ausgemusterter Firmen-Server mit 32 GB RAM reicht für ein Team von 20 Leuten, die KI täglich nutzen, aber nicht exzessiv.

Installation in 30 Minuten

Voraussetzung: Ein Server oder Arbeitsrechner mit Docker installiert. Für produktive Anwendungen empfiehlt sich Linux (Ubuntu Server 24.04), aber Docker Desktop unter Windows oder Mac funktioniert für Tests auch.

Schritt 1: Docker-Compose-Datei anlegen

Erstelle eine Datei docker-compose.yml mit folgendem Inhalt:

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ollama_data:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      OLLAMA_BASE_URL: __PH0__
    volumes:
      - open_webui_data:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama_data:
  open_webui_data:

Schritt 2: Starten

docker compose up -d

Nach wenigen Minuten läuft Open WebUI auf Port 3000. Öffne im Browser `PH1 Der erste Nutzer, der sich registriert, bekommt automatisch Admin-Rechte.

Schritt 3: Erstes Modell herunterladen

Im Open WebUI gehst du unter Einstellungen zu Modelle und gibst den Namen eines Modells ein, zum Beispiel llama4:8b. Das Modell wird heruntergeladen (je nach Modellgröße 5 bis 40 GB) und steht dann zur Verfügung.

Schritt 4: Testen

Starte einen neuen Chat, wähle das Modell aus, schreib "Hallo, wer bist du?" und bekommst eine Antwort. Fertig. Das komplette System läuft lokal, die Daten verlassen niemals deinen Server.

Wer Docker noch nicht kennt oder Angst vor der Kommandozeile hat, bekommt im Artikel [Firmen-Wiki mit KI selbst pflegen](PH2 einen nicht-technischen Einstieg in lokale KI-Lösungen.

Praktische Use Cases im Firmenalltag

Interne Wissensdatenbank mit RAG

Open WebUI hat eine eingebaute RAG-Funktion (Retrieval Augmented Generation). Du lädst Dokumente hoch, etwa Handbücher, Angebote, Produktdaten, interne Richtlinien. Das System indexiert den Inhalt und lässt die KI darin suchen. Mitarbeiter stellen Fragen wie "Was sind die Garantiebedingungen für Produkt XY?", und die KI antwortet auf Basis der eigenen Dokumente.

Das ist eines der nützlichsten Features für größere Mittelständler. Du bekommst eine interne Suchmaschine, die Natural Language versteht und Zusammenhänge zieht, statt nur nach Stichwörtern zu filtern.

Bewerbungsvorsortierung

Personalabteilungen bekommen Bewerbungen in Masse. Lokale KI kann als Vorfilter dienen, ohne dass die Lebensläufe jemals einen Cloud-Server erreichen. Der Ablauf: Bewerbung als PDF hochladen, KI extrahiert Eckdaten, gleicht mit der Stellenbeschreibung ab, liefert eine Bewertung. Die finale Entscheidung trifft immer ein Mensch. Details zu den rechtlichen Grenzen findest du im Artikel [Bewerbungs-Screening mit KI rechtssicher](PH3

Übersetzungen in regulierten Branchen

Rechtsanwälte und Steuerberater dürfen Mandantendaten nicht in Google Translate oder DeepL schicken. Lokale KI übernimmt diese Aufgabe und liefert Übersetzungsqualität, die für interne Zwecke völlig ausreicht. Für offizielle Fachübersetzungen brauchst du weiterhin einen menschlichen Übersetzer, aber für den Alltag reicht Llama 4 oder Mistral.

Dokumentenanalyse für sensible Verträge

Verträge, AGBs, Bilanzen und andere vertrauliche Dokumente kannst du mit lokaler KI analysieren lassen, ohne dass die Inhalte jemals das Firmen-Netzwerk verlassen. Zusammenfassungen, Risiken, Abweichungen vom Standard, alles mit einem Prompt. Das spart im Einzelfall Stunden Juristenarbeit.

Code-Assistenz in geschützten Entwicklungsumgebungen

Software-Firmen mit schutzwürdigem Quellcode dürfen diesen oft nicht in GitHub Copilot oder Cursor schicken. DeepSeek V3 oder Llama 4 Code-Versionen laufen lokal und liefern Code-Vervollständigung und Debugging-Hilfe, ohne dass Firmen-IP abwandert.

Grenzen und Realitätscheck

Lokale KI ist nicht die Lösung für jedes Problem. Diese Grenzen solltest du kennen:

Qualität: Auch Llama 4 70B ist nicht ganz auf dem Niveau von GPT-5 oder Claude Opus 4.6. Für die meisten Aufgaben reicht die Qualität völlig, aber bei ganz komplexen Reasoning-Aufgaben wirst du den Unterschied merken.

Geschwindigkeit: Ohne GPU bist du langsam. Wer gewohnt ist, in ChatGPT eine Antwort in einer Sekunde zu bekommen, wird mit einem CPU-Setup ungeduldig. Entweder GPU investieren oder Erwartungen anpassen.

Wartung: Ein Server, der lokale KI läuft, braucht Updates, Backups, Monitoring. Das ist kein Self-Service-Tool, sondern eine echte IT-Infrastruktur. Ohne jemand, der sich kümmert, wird das System irgendwann ungepflegt.

Modell-Updates: Neue Modelle erscheinen alle paar Monate. Wer lokal betreibt, muss aktiv mitziehen, sonst hat er nach einem Jahr veraltete Technik.

Multimodalität: Vision (Bildanalyse) funktioniert, aber die Qualität ist schlechter als bei Cloud-Modellen. Wer viel mit Bildern arbeitet, sollte eine Kombination aus lokaler KI (Text) und Cloud-KI (Bilder) fahren.

Häufige Fragen

Wie viel kostet das Gesamtsetup wirklich?

Hardware für ein mittleres Setup (Server mit 32 GB RAM, gebrauchte Enterprise-Workstation) bekommst du für 800 bis 1.500 Euro. Mit GPU (RTX 4090, Preis ca. 1.900 Euro) kommst du auf rund 3.500 Euro Gesamtinvestition. Software ist kostenlos. Die laufenden Kosten sind Strom und gelegentlich Zeit für Updates. Für ein Team von 20 Nutzern sind das weniger als zwei Monate ChatGPT Team Abonnement.

Was ist mit der Qualität im Vergleich zu ChatGPT oder Claude?

Für etwa 80 Prozent der typischen Firmenaufgaben ist Llama 4 70B oder Mistral 8x22B ausreichend. Für die restlichen 20 Prozent (besonders komplexes Reasoning, sehr spezialisierte Fachthemen) sind die großen Cloud-Modelle noch besser. Die beste Strategie ist oft: Lokale KI für Standardfälle, Cloud-KI für Spezialfälle mit anonymisierten Daten.

Ist der Betrieb rechtlich wirklich sauber?

Ja, solange die Modelle lokal bleiben und keine Daten an externe Services gehen. Der DSGVO ist es egal, ob du ein Sprachmodell nutzt oder eine Excel-Tabelle, solange die Daten in deinem Haus bleiben. Du bist der alleinige Verantwortliche und musst deine üblichen Pflichten erfüllen (Dokumentation, Löschkonzept, Zugriffsrechte).

Können Mitarbeiter das System von unterwegs nutzen?

Ja, mit VPN-Zugang oder einem reverse Proxy. Wichtig ist, dass du den Zugang absicherst (Authentifizierung, TLS-Verschlüsselung, Firewall). Das ist Standard-IT-Sicherheit und hat nichts spezifisch mit KI zu tun.

Wie lange dauert die Einführung in einem Team von zehn Personen?

Vom Setup bis zu produktivem Einsatz rechnest du mit etwa drei bis vier Wochen. Woche 1 Installation und Testen, Woche 2 erste Schulungen und Pilotanwendungen, Woche 3 und 4 Rollout auf das Gesamtteam. Ohne Vorerfahrung mit Docker und Linux dauert es länger, oder du holst dir einen externen Dienstleister für das Setup.

Gibt es eine Weiterbildung, die mich beim Aufbau lokaler KI-Systeme unterstützt?

Die Digitalisierungsmanager-Weiterbildung bei SkillSprinters deckt sowohl Cloud- als auch lokale KI-Ansätze ab. Teilnehmer bauen konkrete Installationen selbst, lernen die Architektur und die rechtlichen Rahmenbedingungen kennen. Die 4-monatige Weiterbildung ist AZAV-zertifiziert und für Arbeitssuchende über den Bildungsgutschein kostenlos.

Fazit

Open WebUI und Ollama sind die ehrliche Antwort auf die DSGVO-Frage bei KI-Einsatz. Statt sich auf Standardvertragsklauseln und AVV zu verlassen, behältst du die Kontrolle, weil alle Daten im Haus bleiben. Die Einstiegshürde ist mit Docker-Compose überraschend niedrig, die Hardware-Anforderungen sind für die meisten Mittelständler machbar, und die Qualität der Open-Source-Modelle hat 2026 ein Niveau erreicht, das für den produktiven Einsatz ausreicht.

Wer eine komplette KI-Strategie für sein Unternehmen entwickeln will, die Cloud und lokale Lösungen kombiniert, sollte sich die Digitalisierungsmanager-Weiterbildung ansehen. Vier Monate, komplett online, mit Bildungsgutschein kostenlos.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp