Jeder Mittelstaendler kennt das Bild. Confluence hat 4.000 Seiten, das interne Wiki wurde 2019 zum letzten Mal gepflegt, im Netzlaufwerk liegen 17 Versionen des gleichen Handbuchs und die einzige Person, die wusste wo die Dokumentation fuer den Warenwirtschafts-Workaround steht, ist seit drei Monaten in Elternzeit. Ein RAG-System fuer Unternehmen loest genau dieses Problem: Es macht verstreutes Firmenwissen so durchsuchbar, als waere es in einem Kopf.
RAG steht fuer Retrieval Augmented Generation. Kurz gesagt: Die KI sucht in deinen eigenen Dokumenten und baut die Antwort aus dem, was sie dort findet. Sie halluziniert nicht aus ihrem Trainingswissen, sie zitiert aus deinem Wiki. Genau dieser Unterschied ist der Grund, warum seit Ende 2025 fast jede Beratung ein RAG-Pilotprojekt laufen hat und warum die Frage "Sollen wir ein eigenes RAG bauen?" bei uns in der Praxisbegleitung mindestens einmal pro Woche auftaucht.
Was RAG technisch macht
Ein RAG-System hat zwei Haelften. Die erste ist der Indexer. Er liest deine Dokumente, zerlegt sie in Chunks von typischerweise 200 bis 800 Tokens und verwandelt jeden Chunk in einen Vektor. Diese Vektoren landen in einer Vektordatenbank, aktuell meistens Qdrant, Weaviate, pgvector oder Pinecone.
Die zweite Haelfte ist der Abfrager. Wenn jemand eine Frage stellt, wird die Frage ebenfalls als Vektor dargestellt. Das System sucht die aehnlichsten Chunks in der Datenbank, uebergibt sie mit der Frage an ein Sprachmodell und laesst die Antwort generieren.
Das Sprachmodell selbst kennt deine Firma vorher nicht. Es bekommt in dem Moment, in dem die Frage kommt, den passenden Ausschnitt aus deinen Dokumenten mitgeliefert und baut daraus die Antwort. Das ist der entscheidende Mechanismus. Kein Finetuning, kein Training mit Firmendaten, keine Daten verlassen das System dauerhaft.
Was sich 2026 geaendert hat
Zwei Dinge haben die RAG-Landschaft im Laufe von 2025 und Anfang 2026 umgekrempelt.
Erstens: Claude Opus 4.7 hat 1 Million Tokens Context. Das sind grob 700.000 bis 750.000 Woerter, mehrere Buecher auf einmal. In vielen Faellen braucht man die Vektorsuche gar nicht mehr, sondern kann einfach das komplette Handbuch in den Prompt laden. Das nennen wir in der Praxis "Long Context RAG" und es senkt die Komplexitaet erheblich. Gemini 2.0 und GPT-5 ziehen bei den Context-Groessen mit, je nach Tier und Modellvariante.
Zweitens: Embedding-Modelle sind drastisch billiger geworden. OpenAI text-embedding-3-large kostet pro Million Tokens 0,13 Dollar, Voyage-3 liegt noch darunter, und die lokalen Open-Source-Alternativen wie BGE-M3 oder Nomic-Embed laufen auf einem halbwegs potenten Server ohne GPU. Das, was 2023 noch ein mittleres Cloud-Budget verschlungen hat, ist heute eine Randnotiz in der Kostenrechnung.
Die Folge: RAG ist nicht mehr die teure Spezialitaet fuer Konzerne mit Data-Science-Team. Es ist ein Werkzeug, das eine zweikoepfige IT-Abteilung in einem Monat aufsetzen kann.
Wo RAG wirklich hilft
Nicht jedes Informationsproblem ist ein RAG-Problem. Die Faelle, bei denen wir regelmaessig echten Nutzen sehen:
| Anwendungsfall | Warum RAG passt |
|---|---|
| Interne Handbuecher und SOPs | Dokumente aendern sich selten, Fragen sind haeufig |
| Produktkatalog und technische Specs | Tausende Produkte, Kunden fragen unterschiedlich |
| Ticket-Historie im Support | Aehnliche Probleme wurden schon geloest, nur findet sie keiner |
| Rechts- und Compliance-Texte | Genaue Formulierung zaehlt, Halluzination ist gefaehrlich |
| Onboarding neuer Mitarbeiter | Wiederkehrende Fragen, Dokumentation vorhanden |
| Ausschreibungen und Angebote | Textbausteine aus frueheren Angeboten wiederverwenden |
Wo RAG nicht der richtige Hebel ist: Wenn die eigentliche Arbeit Entscheidungen, Berechnungen oder kreative Synthese ist und nicht das Wiederfinden von Wissen. Ein RAG hilft dir, den richtigen Tarifvertrag zu zitieren. Es rechnet dir den Lohn nicht aus.
Architektur eines typischen KMU-Setups
So sieht ein realistisches RAG-Setup fuer ein Unternehmen mit 50 bis 500 Mitarbeitern aus.
Am Anfang stehen die Datenquellen. Meistens ein Mix aus SharePoint oder OneDrive, Confluence, ein paar PDF-Ordnern, vielleicht eine Wissensdatenbank im Ticketsystem. Der Indexer verbindet sich per API zu diesen Quellen und laedt regelmaessig neue oder geaenderte Dokumente. Die Frage, wie oft reindexiert wird, ist meistens wichtiger als man denkt. Einmal pro Nacht reicht fuer Handbuecher, Support-Tickets brauchen es naeher an Echtzeit.
Die Vektordatenbank haelt die Chunks. Qdrant hat sich bei unseren Kunden als guter Default etabliert, weil es lokal, schnell und DSGVO-unproblematisch laeuft. Pgvector ist charmant, wenn man ohnehin PostgreSQL im Einsatz hat, weil man keine zweite Datenbank betreiben muss.
Das Sprachmodell ist austauschbar. Die meisten Unternehmen starten mit einem Modell ueber Azure OpenAI oder Anthropic Claude per API und wechseln spaeter gegebenenfalls zu einer lokalen Variante wie Llama 3.3 oder einem der Mistral-Modelle, wenn die Datenschutzabteilung unruhig wird. Open-Source lokal laufen zu lassen ist 2026 erwachsen geworden, verlangt aber GPU-Hardware und jemanden, der sie pflegt.
Das Interface ist fast immer ein Chat, entweder als eigenstaendige Webseite oder eingebettet in Microsoft Teams oder Slack. Was wichtig ist und regelmaessig vergessen wird: Quellenangaben. Jede Antwort muss zeigen, aus welchem Dokument sie stammt. Sonst glauben die Nutzer nichts, und das zurecht.
Datenschutz und der EU AI Act
Ein internes RAG-System mit Unternehmensdaten wirft Fragen auf, die man vor dem Start klaeren muss.
Personenbezogene Daten in den Quellen sind der haeufigste Stolperstein. Wenn im Wiki E-Mail-Adressen, Gehaltsdaten oder Beurteilungen stehen, landen die im Index und potenziell in Antworten. DSGVO verlangt, dass du einen Zweckrahmen definierst und die Daten nicht weiter nutzt als noetig. In der Praxis heisst das: Entweder solche Dokumente ausschliessen oder das System so bauen, dass sensible Felder vor der Indexierung entfernt werden.
Der EU AI Act ist beim reinen internen RAG meistens unkritisch, solange du keine Hochrisiko-Anwendung baust. Die Kompetenzpflicht nach Artikel 4 gilt seit dem 2. Februar 2025, das heisst: Deine Mitarbeiter, die das System nutzen, muessen grundlegend verstehen, was sie da bedienen. Kein Zertifikat, aber nachweisbare Schulung.
Auftragsverarbeitungsvertraege mit den Modellanbietern sind Pflicht, wenn Daten ueber deren API gehen. OpenAI, Anthropic und Microsoft bieten die standardmaessig. Wer das nicht regelt, hat bei der naechsten Betriebspruefung ein Problem.
Die Kostenfrage
Ein funktionierendes RAG-System fuer einen Mittelstaendler kostet weniger, als die meisten erwarten.
Die laufenden Kosten liegen je nach Nutzung bei 200 bis 2.000 Euro pro Monat. Embeddings sind fast umsonst, die Sprachmodell-Calls sind der Haupttreiber. Ein Mitarbeiter, der 30 Anfragen pro Tag stellt, verursacht bei Sonnet-Tarifen etwa 5 bis 15 Euro im Monat.
Der Einmalaufwand fuer Aufsetzen und Einbinden der Datenquellen liegt bei uns typischerweise zwischen 8.000 und 25.000 Euro, je nachdem, wie chaotisch die Datenlandschaft ist und wie viele Systeme angebunden werden. Wer SharePoint sauber strukturiert hat, ist schneller fertig als jemand mit 12 Jahren organisch gewachsener Ordnerstruktur.
Die wirkliche Kostenfrage ist nicht die Technik, sondern die Datenpflege. Ein RAG-System ist nur so gut wie die Dokumente, die es durchsucht. Wenn der halbe Wissensbestand veraltet ist, antwortet die KI selbstbewusst mit veraltetem Stand. Das ist kein technisches Problem, das ist ein Governance-Problem.
Was wir in der Praxis sehen
Wir begleiten seit Anfang 2025 RAG-Projekte in verschiedenen Unternehmen. Ein Muster zieht sich durch fast alle Projekte.
Die Technik ist nicht das Problem. Den Indexer, die Vektordatenbank, den Chat hat ein halbwegs sauberer Entwickler in zwei Wochen am Laufen. Das Problem ist die Datenbasis. Firmen entdecken beim Indexieren zum ersten Mal, wie widerspruechlich, veraltet und luckenhaft ihre Dokumentation ist. Das ist unangenehm, aber ehrlicherweise der wertvollste Teil des Projekts. Ein RAG-Projekt ist oft der Anlass, endlich die Dokumentations-Hygiene anzugehen, die seit Jahren auf der Liste steht.
Das zweite Muster: Die Akzeptanz haengt an Quellenangaben und Antwortqualitaet in den ersten zwei Wochen. Wenn das System zwei Wochen lang halbgar antwortet, ist es politisch tot. Deswegen lohnt es sich, den Launch erst zu machen, wenn ein kleiner Testkreis zufrieden ist, nicht am ersten Tag an alle zu verteilen.
Wer RAG vernuenftig aufbauen will, braucht drei Dinge: Jemanden, der die Technik versteht, jemanden, der die Dokumente kennt, und eine ehrliche Erwartungshaltung, dass die ersten vier Wochen harte Arbeit sind und nicht der versprochene Zaubertrick. Wer das ernsthaft lernen will, findet im kostenlosen KI-Schnupperkurs eine realistische Einordnung, was solche Systeme koennen und wo sie kippen.
Haeufige Fragen
Brauchen wir wirklich eine Vektordatenbank, wenn Claude Opus 4.7 eine Million Tokens Context hat?
Fuer kleine Wissensbestaende unter 500.000 Tokens oft nicht. Wenn dein kompletter Wissensstand in einen Prompt passt, ist Long-Context-RAG simpler und gleich gut. Sobald du ueber mehrere Millionen Tokens hinauskommst oder die Kosten pro Call in die Hoehe schiessen, wird die Vektorsuche wieder sinnvoll. Ueber die Lebensdauer eines Projekts ist Vektor-RAG meist billiger.
Kann ich ein RAG-System DSGVO-konform betreiben, wenn das Sprachmodell in den USA laeuft?
Ja, aber nur mit sauberem Auftragsverarbeitungsvertrag und den Standardvertragsklauseln. Microsoft Azure OpenAI und Anthropic bieten beide EU-Datenresidenz an. Wer das nicht will, geht auf lokale Open-Source-Modelle, akzeptiert dafuer aber schlechtere Antwortqualitaet und mehr Hardware-Betreuung.
Welche Dokumente sollen als erstes in den Index?
Nicht alle auf einmal. Unsere Empfehlung: Mit einem klar umrissenen Bereich starten, bei dem die Dokumente aktuell sind und die Nutzung hoch ist. Klassisches Beispiel: IT-Support-Handbuch plus Ticket-Wissensdatenbank. Das bringt sofortigen Nutzen und lehrt das Team, wie das System sich anfuehlt, bevor man es auf die chaotischeren Ecken loslaesst.
Wie gross muessen die Chunks sein?
Der Default zwischen 400 und 600 Tokens funktioniert fuer die meisten Textarten. Bei technischen Specs mit Tabellen lohnen sich kleinere Chunks, bei langen Erklaertexten groessere. Wichtiger als die genaue Chunk-Groesse ist ein Overlap von 10 bis 20 Prozent, damit keine Saetze an Chunk-Grenzen verloren gehen.
Wie verhindern wir, dass die KI Informationen aus veralteten Dokumenten zitiert?
Zwei Mechanismen helfen. Erstens: Metadaten wie Aenderungsdatum, Autor, Status mitindexieren und die Suche so konfigurieren, dass aktuelle Dokumente hoeher ranken. Zweitens: In den Antworten das Datum der Quelle anzeigen lassen. Wenn Nutzer sehen, dass die Antwort aus einem Dokument von 2021 kommt, werden sie misstrauisch, und das ist genau richtig so.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.