RAG-System aufbauen: Firmenwissen mit KI durchsuchbar machen

Jeder Mittelstaendler kennt das Bild. Confluence hat 4.000 Seiten, das interne Wiki wurde 2019 zum letzten Mal gepflegt, im Netzlaufwerk liegen 17 Versionen des gleichen Handbuchs und die einzige Person, die wusste wo die Dokumentation für den Warenwirtschafts-Workaround steht, ist seit drei Monaten in Elternzeit. Ein RAG-System für Unternehmen loest genau dieses Problem: Es macht verstreutes Firmenwissen so durchsuchbar, als waere es in einem Kopf.

RAG steht für Retrieval Augmented Generation. Kurz gesagt: Die KI sucht in deinen eigenen Dokumenten und baut die Antwort aus dem, was sie dort findet. Sie halluziniert nicht aus ihrem Trainingswissen, sie zitiert aus deinem Wiki. Genau dieser Unterschied ist der Grund, warum seit Ende 2025 fast jede Beratung ein RAG-Pilotprojekt laufen hat und warum die Frage "Sollen wir ein eigenes RAG bauen?" bei uns in der Praxisbegleitung mindestens einmal pro Woche auftaucht.

Was RAG technisch macht

Ein RAG-System hat zwei Haelften. Die erste ist der Indexer. Er liest deine Dokumente, zerlegt sie in Chunks von typischerweise 200 bis 800 Tokens und verwandelt jeden Chunk in einen Vektor. Diese Vektoren landen in einer Vektordatenbank, aktuell meistens Qdrant, Weaviate, pgvector oder Pinecone.

Die zweite Haelfte ist der Abfrager. Wenn jemand eine Frage stellt, wird die Frage ebenfalls als Vektor dargestellt. Das System sucht die ähnlichsten Chunks in der Datenbank, übergibt sie mit der Frage an ein Sprachmodell und laesst die Antwort generieren.

Das Sprachmodell selbst kennt deine Firma vorher nicht. Es bekommt in dem Moment, in dem die Frage kommt, den passenden Ausschnitt aus deinen Dokumenten mitgeliefert und baut daraus die Antwort. Das ist der entscheidende Mechanismus. Kein Finetuning, kein Training mit Firmendaten, keine Daten verlassen das System dauerhaft.

Was sich 2026 geändert hat

Zwei Dinge haben die RAG-Landschaft im Laufe von 2025 und Anfang 2026 umgekrempelt.

Erstens: Claude Opus 4.7 hat 1 Million Tokens Context. Das sind grob 700.000 bis 750.000 Woerter, mehrere Bücher auf einmal. In vielen Fällen braucht man die Vektorsuche gar nicht mehr, sondern kann einfach das komplette Handbuch in den Prompt laden. Das nennen wir in der Praxis "Long Context RAG" und es senkt die Komplexitaet erheblich. Gemini 2.0 und GPT-5 ziehen bei den Context-Größen mit, je nach Tier und Modellvariante.

Zweitens: Embedding-Modelle sind drastisch billiger geworden. OpenAI text-embedding-3-large kostet pro Million Tokens 0,13 Dollar, Voyage-3 liegt noch darunter, und die lokalen Open-Source-Alternativen wie BGE-M3 oder Nomic-Embed laufen auf einem halbwegs potenten Server ohne GPU. Das, was 2023 noch ein mittleres Cloud-Budget verschlungen hat, ist heute eine Randnotiz in der Kostenrechnung.

Die Folge: RAG ist nicht mehr die teure Spezialitaet für Konzerne mit Data-Science-Team. Es ist ein Werkzeug, das eine zweikoepfige IT-Abteilung in einem Monat aufsetzen kann.

Wo RAG wirklich hilft

Nicht jedes Informationsproblem ist ein RAG-Problem. Die Fälle, bei denen wir regelmäßig echten Nutzen sehen:

Anwendungsfall	Warum RAG passt
Interne Handbücher und SOPs	Dokumente ändern sich selten, Fragen sind häufig
Produktkatalog und technische Specs	Tausende Produkte, Kunden fragen unterschiedlich
Ticket-Historie im Support	Ähnliche Probleme wurden schon geloest, nur findet sie keiner
Rechts- und Compliance-Texte	Genaue Formulierung zählt, Halluzination ist gefaehrlich
Onboarding neuer Mitarbeiter	Wiederkehrende Fragen, Dokumentation vorhanden
Ausschreibungen und Angebote	Textbausteine aus früheren Angeboten wiederverwenden

Wo RAG nicht der richtige Hebel ist: Wenn die eigentliche Arbeit Entscheidungen, Berechnungen oder kreative Synthese ist und nicht das Wiederfinden von Wissen. Ein RAG hilft dir, den richtigen Tarifvertrag zu zitieren. Es rechnet dir den Lohn nicht aus.

Architektur eines typischen KMU-Setups

So sieht ein realistisches RAG-Setup für ein Unternehmen mit 50 bis 500 Mitarbeitern aus.

Am Anfang stehen die Datenquellen. Meistens ein Mix aus SharePoint oder OneDrive, Confluence, ein paar PDF-Ordnern, vielleicht eine Wissensdatenbank im Ticketsystem. Der Indexer verbindet sich per API zu diesen Quellen und laedt regelmäßig neue oder geänderte Dokumente. Die Frage, wie oft reindexiert wird, ist meistens wichtiger als man denkt. Einmal pro Nacht reicht für Handbücher, Support-Tickets brauchen es naeher an Echtzeit.

Die Vektordatenbank haelt die Chunks. Qdrant hat sich bei unseren Kunden als guter Default etabliert, weil es lokal, schnell und DSGVO-unproblematisch laeuft. Pgvector ist charmant, wenn man ohnehin PostgreSQL im Einsatz hat, weil man keine zweite Datenbank betreiben muss.

Das Sprachmodell ist austauschbar. Die meisten Unternehmen starten mit einem Modell über Azure OpenAI oder Anthropic Claude per API und wechseln später gegebenenfalls zu einer lokalen Variante wie Llama 3.3 oder einem der Mistral-Modelle, wenn die Datenschutzabteilung unruhig wird. Open-Source lokal laufen zu lassen ist 2026 erwachsen geworden, verlangt aber GPU-Hardware und jemanden, der sie pflegt.

Das Interface ist fast immer ein Chat, entweder als eigenstaendige Webseite oder eingebettet in Microsoft Teams oder Slack. Was wichtig ist und regelmäßig vergessen wird: Quellenangaben. Jede Antwort muss zeigen, aus welchem Dokument sie stammt. Sonst glauben die Nutzer nichts, und das zurecht.

Datenschutz und der EU AI Act

Ein internes RAG-System mit Unternehmensdaten wirft Fragen auf, die man vor dem Start klaeren muss.

Personenbezogene Daten in den Quellen sind der häufigste Stolperstein. Wenn im Wiki E-Mail-Adressen, Gehaltsdaten oder Beurteilungen stehen, landen die im Index und potenziell in Antworten. DSGVO verlangt, dass du einen Zweckrahmen definierst und die Daten nicht weiter nutzt als nötig. In der Praxis heisst das: Entweder solche Dokumente ausschließen oder das System so bauen, dass sensible Felder vor der Indexierung entfernt werden.

Der EU AI Act ist beim reinen internen RAG meistens unkritisch, solange du keine Hochrisiko-Anwendung baust. Die Kompetenzpflicht nach Artikel 4 gilt seit dem 2. Februar 2025, das heisst: Deine Mitarbeiter, die das System nutzen, müssen grundlegend verstehen, was sie da bedienen. Kein Zertifikat, aber nachweisbare Schulung.

Auftragsverarbeitungsverträge mit den Modellanbietern sind Pflicht, wenn Daten über deren API gehen. OpenAI, Anthropic und Microsoft bieten die standardmaessig. Wer das nicht regelt, hat bei der nächsten Betriebsprüfung ein Problem.

Die Kostenfrage

Ein funktionierendes RAG-System für einen Mittelstaendler kostet weniger, als die meisten erwarten.

Die laufenden Kosten liegen je nach Nutzung bei 200 bis 2.000 Euro pro Monat. Embeddings sind fast umsonst, die Sprachmodell-Calls sind der Haupttreiber. Ein Mitarbeiter, der 30 Anfragen pro Tag stellt, verursacht bei Sonnet-Tarifen etwa 5 bis 15 Euro im Monat.

Der Einmalaufwand für Aufsetzen und Einbinden der Datenquellen liegt bei uns typischerweise zwischen 8.000 und 25.000 Euro, je nachdem, wie chaotisch die Datenlandschaft ist und wie viele Systeme angebunden werden. Wer SharePoint sauber strukturiert hat, ist schneller fertig als jemand mit 12 Jahren organisch gewachsener Ordnerstruktur.

Die wirkliche Kostenfrage ist nicht die Technik, sondern die Datenpflege. Ein RAG-System ist nur so gut wie die Dokumente, die es durchsucht. Wenn der halbe Wissensbestand veraltet ist, antwortet die KI selbstbewusst mit veraltetem Stand. Das ist kein technisches Problem, das ist ein Governance-Problem.

Was wir in der Praxis sehen

Wir begleiten seit Anfang 2025 RAG-Projekte in verschiedenen Unternehmen. Ein Muster zieht sich durch fast alle Projekte.

Die Technik ist nicht das Problem. Den Indexer, die Vektordatenbank, den Chat hat ein halbwegs sauberer Entwickler in zwei Wochen am Laufen. Das Problem ist die Datenbasis. Firmen entdecken beim Indexieren zum ersten Mal, wie widerspruechlich, veraltet und luckenhaft ihre Dokumentation ist. Das ist unangenehm, aber ehrlicherweise der wertvollste Teil des Projekts. Ein RAG-Projekt ist oft der Anlass, endlich die Dokumentations-Hygiene anzugehen, die seit Jahren auf der Liste steht.

Das zweite Muster: Die Akzeptanz haengt an Quellenangaben und Antwortqualität in den ersten zwei Wochen. Wenn das System zwei Wochen lang halbgar antwortet, ist es politisch tot. Deswegen lohnt es sich, den Launch erst zu machen, wenn ein kleiner Testkreis zufrieden ist, nicht am ersten Tag an alle zu verteilen.

Wer RAG vernuenftig aufbauen will, braucht drei Dinge: Jemanden, der die Technik versteht, jemanden, der die Dokumente kennt, und eine ehrliche Erwartungshaltung, dass die ersten vier Wochen harte Arbeit sind und nicht der versprochene Zaubertrick. Wer das ernsthaft lernen will, findet im kostenlosen KI-Schnupperkurs eine realistische Einordnung, was solche Systeme können und wo sie kippen.

Häufige Fragen

Brauchen wir wirklich eine Vektordatenbank, wenn Claude Opus 4.7 eine Million Tokens Context hat?

Für kleine Wissensbestaende unter 500.000 Tokens oft nicht. Wenn dein kompletter Wissensstand in einen Prompt passt, ist Long-Context-RAG simpler und gleich gut. Sobald du über mehrere Millionen Tokens hinauskommst oder die Kosten pro Call in die Höhe schiessen, wird die Vektorsuche wieder sinnvoll. Über die Lebensdauer eines Projekts ist Vektor-RAG meist billiger.

Kann ich ein RAG-System DSGVO-konform betreiben, wenn das Sprachmodell in den USA laeuft?

Ja, aber nur mit sauberem Auftragsverarbeitungsvertrag und den Standardvertragsklauseln. Microsoft Azure OpenAI und Anthropic bieten beide EU-Datenresidenz an. Wer das nicht will, geht auf lokale Open-Source-Modelle, akzeptiert dafür aber schlechtere Antwortqualität und mehr Hardware-Betreuung.

Welche Dokumente sollen als erstes in den Index?

Nicht alle auf einmal. Unsere Empfehlung: Mit einem klar umrissenen Bereich starten, bei dem die Dokumente aktuell sind und die Nutzung hoch ist. Klassisches Beispiel: IT-Support-Handbuch plus Ticket-Wissensdatenbank. Das bringt sofortigen Nutzen und lehrt das Team, wie das System sich anfuehlt, bevor man es auf die chaotischeren Ecken loslaesst.

Wie gross müssen die Chunks sein?

Der Default zwischen 400 und 600 Tokens funktioniert für die meisten Textarten. Bei technischen Specs mit Tabellen lohnen sich kleinere Chunks, bei langen Erklärtexten größere. Wichtiger als die genaue Chunk-Größe ist ein Overlap von 10 bis 20 Prozent, damit keine Saetze an Chunk-Grenzen verloren gehen.

Wie verhindern wir, dass die KI Informationen aus veralteten Dokumenten zitiert?

Zwei Mechanismen helfen. Erstens: Metadaten wie Änderungsdatum, Autor, Status mitindexieren und die Suche so konfigurieren, dass aktuelle Dokumente höher ranken. Zweitens: In den Antworten das Datum der Quelle anzeigen lassen. Wenn Nutzer sehen, dass die Antwort aus einem Dokument von 2021 kommt, werden sie misstrauisch, und das ist genau richtig so.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp

RAG-System aufbauen: Firmenwissen mit KI durchsuchbar machen

Was RAG technisch macht

Was sich 2026 geändert hat

Wo RAG wirklich hilft

Architektur eines typischen KMU-Setups

Datenschutz und der EU AI Act

Die Kostenfrage

Was wir in der Praxis sehen

Häufige Fragen

Brauchen wir wirklich eine Vektordatenbank, wenn Claude Opus 4.7 eine Million Tokens Context hat?

Kann ich ein RAG-System DSGVO-konform betreiben, wenn das Sprachmodell in den USA laeuft?

Welche Dokumente sollen als erstes in den Index?

Wie gross müssen die Chunks sein?

Wie verhindern wir, dass die KI Informationen aus veralteten Dokumenten zitiert?

Bereit für deinen nächsten Karriereschritt?

Das könnte dich auch interessieren

Custom GPT erstellen: So baut Ihr Team eigene KI-Assistenten

KI-Chatbot für Ihr Unternehmen erstellen: Anleitung ohne Code

KI-Pilotprojekt starten: 7-Schritte-Fahrplan für KMU

Prompt Engineering: 20 Vorlagen für den Büroeinsatz

Chief Digital Officer werden: Aufgaben, Gehalt und der Weg dorthin

ChatGPT Enterprise vs Team vs Plus: Welcher Plan für welche Firma?

Wir nutzen Cookies