Transparenzhinweis: Dieser Artikel ist auf der Website von SkillSprinters veröffentlicht. SkillSprinters ist Anbieter einer KI-Weiterbildung und steht damit in einem Wettbewerbsverhaeltnis zu einigen der hier genannten Anbieter bzw. deren Geschäftsfeldern. Wir bemuehen uns um eine faire Darstellung anhand öffentlich zugaenglicher Informationen, sind aber nicht neutral. Alle Angaben zu Preisen und Funktionen beruhen auf öffentlich zugaenglichen Herstellerangaben. Stand der Recherche: April 2026, Angaben ohne Gewaehr. Verbindlich sind ausschließlich die Angaben der jeweiligen Anbieter.
Datenqualität verbessern für KI ist die unglamouroese Arbeit, an der viele Projekte scheitern, bevor sie überhaupt modellieren können. Viele KI-Projekte scheitern nicht am Modell, sondern an den Daten. Das ist mittlerweile Allgemeinplatz in der Fachliteratur, bleibt aber in der Umsetzung oft unterschaetzt. Studien verschiedener Beratungshaeuser und Analysten berichten seit Jahren, dass ein großer Teil der Kosten und Reibungsverluste in Unternehmen auf Maengel in der Datenqualität zurückgeht.
Für KI-Projekte verschaerft sich das Problem. Ein Sprachmodell oder ein Machine-Learning-Algorithmus kann nur so gut arbeiten wie die Daten, die du ihm gibst. Wenn deine Kundendatenbank voller Duplikate ist, deine Produktstammdaten in mehreren Formaten vorliegen und ein Teil deiner CRM-Eintraege veraltete Kontaktdaten enthaelt, werden die Ergebnisse entsprechend unzuverlaessig.
Dieser Artikel zeigt dir in sieben Schritten, wie du die Datenqualität in deinem Unternehmen systematisch verbesserst. Kein theoretisches Framework, sondern ein Plan, den du in überschaubarer Zeit starten kannst.
Warum Datenqualität über Erfolg und Scheitern entscheidet
Der Satz "Garbage in, garbage out" ist so alt wie die Informatik. Für KI bekommt er eine neue Dimension. Klassische Software macht bei schlechten Eingabedaten das Falsche, aber vorhersagbar. Ein KI-Modell macht bei schlechten Daten das Falsche auf eine Weise, die schwerer vorherzusehen ist.
Drei Beispiele aus der Praxis. Ein Handelsunternehmen möchte seine Kunden per KI in Segmente einteilen. Die CRM-Daten enthalten viele Duplikate (gleicher Kunde in unterschiedlichen Schreibweisen), zahlreiche Eintraege ohne Branchenangabe und eine nennenswerte Zahl veralteter Adressen. Das Ergebnis: Die KI erzeugt Segmente, die die tatsächliche Kundenstruktur nicht gut abbilden, weil die Datenbasis verzerrt ist.
Ein Zulieferer möchte mit KI die Nachfrage für das nächste Quartal prognostizieren. Die historischen Bestelldaten liegen in mehreren Systemen parallel. Die Formate sind unterschiedlich, Stornierungen fehlen in einem Teilsystem, saisonale Sonderaktionen sind nirgends markiert. Das Modell liefert entsprechend unsichere Prognosen.
Ein Dienstleister baut einen KI-Chatbot, der Kundenfragen beantwortet. Die Wissensbasis besteht aus mehreren hundert Dokumenten. Ein Teil ist veraltet, einige widersprechen sich, andere existieren in mehreren Versionen an verschiedenen Ablageorten. Der Chatbot gibt inkonsistente Antworten und verliert Vertrauen bei den Nutzern.
In allen drei Fällen war die KI-Technologie nicht der Engpass. Die Datenqualität war es.
Was Datenqualität konkret bedeutet
Datenqualität laesst sich in sechs Dimensionen beschreiben.
| Dimension | Definition | Beispiel für Mangel |
|---|---|---|
| Vollständigkeit | Alle erwarteten Felder sind gefuellt | Viele Kundendatensaetze ohne E-Mail-Adresse |
| Korrektheit | Eintraege stimmen mit der Realitaet überein | Kunde ist umgezogen, alte Adresse im System |
| Konsistenz | Gleiche Information in allen Systemen gleich | "Müller GmbH" und "Müller GmbH & Co KG" als getrennte Eintraege |
| Aktualitaet | Daten spiegeln den aktuellen Stand wider | Preisliste seit langer Zeit nicht aktualisiert |
| Eindeutigkeit | Jeder Datensatz existiert genau einmal | Gleicher Lieferant mehrfach angelegt |
| Konformitaet | Daten folgen einem definierten Format | Telefonnummern mal mit +49, mal mit 0, mal mit Leerzeichen |
Für ein KI-Projekt brauchst du nicht in allen sechs Dimensionen Perfektion. Aber du brauchst ein klares Bild, wo du stehst und welche Dimensionen für deinen konkreten Anwendungsfall kritisch sind. Ein Chatbot braucht vor allem korrekte und aktuelle Dokumente. Eine Bedarfsprognose braucht vollständige und konsistente Bestelldaten.
Der Sieben-Schritte-Plan zum sauberen Datenfundament
Datenaudit durchführen
Bevor du Daten bereinigst, musst du wissen, was du hast. Ein Datenaudit beantwortet drei Fragen. Welche Daten existieren wo? Wie gut sind sie? Welche Daten braucht der geplante KI-Anwendungsfall?
Konkret listest du alle Systeme auf, in denen relevante Daten liegen: Fachanwendungen, CRM- und ERP-Plattformen, Warenwirtschaft, Tabellenkalkulationen, Dokumentenablagen, Mailpostfaecher, Papierarchive. Vergiss die Schattensysteme nicht. In vielen Unternehmen gibt es Tabellen auf persönlichen Laufwerken, die kritische Geschäftsdaten enthalten. Dann ziehst du Stichproben: prufe pro System zufaellige Datensaetze auf die sechs Qualitätsdimensionen. Wie viele Felder sind leer? Wie viele Eintraege sind offensichtlich falsch? Wie alt ist der neueste Eintrag? Zum Schluss bewertest du jede Datenquelle auf einer Skala von 1 (unbrauchbar) bis 5 (produktionsreif für KI). Das gibt dir eine Landkarte deiner Datenlandschaft. Zeitaufwand: wenige Tage, abhängig von der Anzahl der Systeme.
Daten bereinigen
Bereinigung heisst: Offensichtliche Fehler korrigieren, Luecken fuellen, Ausreisser markieren. Nicht alles auf einmal, sondern priorisiert nach dem, was dein KI-Anwendungsfall braucht.
Typische Bereinigungsaktionen: Leere Pflichtfelder fuellen (zum Beispiel fehlende PLZ aus der Stadt ableiten), offensichtliche Tippfehler korrigieren (zum Beispiel "Berln" zu "Berlin"), veraltete Eintraege markieren oder loeschen, Formatfehler beheben (etwa Datum "12.3.25" zu "2025-03-12") und Ausreisser identifizieren (etwa ungewoehnlich hoher Bestellwert im Vergleich zum Durchschnitt).
OpenRefine ist ein frei verfuegbares Open-Source-Werkzeug, das sich nach unserem Recherchestand gut für die interaktive Bereinigung kleinerer bis mittlerer Datensaetze eignet. Du importierst eine CSV- oder Excel-Datei und kannst mit Facetten und Clustern ähnliche Eintraege gruppieren. Ob es zu deiner konkreten Datenmenge passt, solltest du vorab prüfen.
Daten standardisieren
Standardisierung stellt sicher, dass gleiche Dinge gleich geschrieben werden. Das klingt trivial, ist aber einer der häufigsten Stolpersteine.
Beispiele für Standardisierungsregeln: Telefonnummern immer im Format +49 XXX XXXXXXX, Firmennamen immer mit Rechtsform und ohne Punkt ("GmbH" nicht "G.m.b.H."), Datumsformat immer ISO 8601 (YYYY-MM-DD), Adressen immer mit Straße, Hausnummer, PLZ, Ort (getrennte Felder), Produktnummern immer achtstellig mit fuehrenden Nullen.
Diese Regeln dokumentierst du in einem Datenstandard-Dokument. Das muss kein umfangreiches Regelwerk sein, eine übersichtliche Tabelle genuegt: Feld, erlaubtes Format, Beispiel, Ausnahmen.
Duplikate eliminieren
Duplikate sind ein häufiges Problem in gewachsenen Datenbestaenden. Sie entstehen, wenn verschiedene Mitarbeiter denselben Kunden, Lieferanten oder Artikel anlegen, ohne zu prüfen, ob er bereits existiert.
Deduplizierung laeuft in drei Phasen. Erst Matching-Kriterien definieren: welche Felder identifizieren einen Datensatz eindeutig? Bei Kunden häufig Name plus PLZ plus Hausnummer. Bei Produkten Artikelnummer oder EAN. Dann Fuzzy Matching anwenden: "Müller GmbH", "Müller GmbH" und "H. Müller GmbH & Co. KG" sind oft derselbe Kunde. Werkzeuge für solche Ähnlichkeitssuchen sind am Markt verbreitet. Zum Schluss zusammenfuehren: den vollständigsten Datensatz behalten, die anderen loeschen oder als Alias verknuepfen.
Automatisches Zusammenfuehren ohne menschliche Prüfung ist riskant. "Müller GmbH, Muenchen" und "Müller GmbH, Hamburg" sind vermutlich zwei verschiedene Firmen. Immer einen Menschen über zweifelhafte Fälle entscheiden lassen.
Daten anreichern
Anreicherung heisst: Fehlende Informationen aus externen Quellen ergaenzen. Das verbessert die Vollständigkeit und macht die Daten für KI-Anwendungen wertvoller. Firmendaten wie Branche, Mitarbeiterzahl, Umsatzklasse aus öffentlichen oder kostenpflichtigen Firmenregistern ergaenzen. Geodaten: PLZ in Koordinaten umwandeln für raeumliche Analysen. Kontaktdaten wie E-Mail-Adressen oder Telefonnummern über Datendienste verifizieren und ergaenzen. Marktdaten wie Branchenklassifikation (WZ-Code) zuordnen.
Für die Anreicherung gibt es kostenpflichtige Dienste sowie kostenfreie Quellen wie das Handelsregister oder Geokodierungsdienste auf Basis offener Daten. Welche Quellen du brauchst, haengt von deinem KI-Anwendungsfall ab.
Monitoring einrichten
Datenqualität ist kein einmaliges Projekt. Ohne Monitoring verschlechtert sie sich mit der Zeit. Neue Mitarbeiter legen Daten in alten Formaten an, Integrationen brechen, Quelldaten ändern sich.
Ein sinnvolles Setup besteht aus automatischen Qualitätschecks (ein Script, das regelmäßig prüft: wie viele leere Pflichtfelder, wie viele Duplikate, wie viele lange nicht aktualisierte Datensaetze), einem Dashboard, das die Ergebnisse sichtbar macht (nicht in einem Report, den niemand liest, sondern an einer Stelle, die das Team regelmäßig sieht), und aus Schwellenwerten mit Alerts bei Grenzüberschreitung.
Great Expectations ist ein frei verfuegbares Python-Werkzeug für automatisierte Datenqualitäts-Tests. Für kleinere Setups kann auch ein einfaches Python-Script mit Pandas genuegen.
Data Governance etablieren
Governance klingt nach Konzern. Ist es nicht. Governance bedeutet im Kern: Wer darf welche Daten anlegen, ändern und loeschen? Wer ist verantwortlich, wenn die Qualität sinkt? Welche Regeln gelten für neue Datenquellen?
Für den Mittelstand reicht oft eine minimale Governance. Datenverantwortliche benennen: pro Datenbereich (Kundendaten, Produktdaten, Finanzdaten) eine Person, die für die Qualität verantwortlich ist. Das muss keine Vollzeitstelle sein. Ein paar Stunden pro Woche reichen für den Anfang. Anlageregeln definieren: wer darf neue Kunden, Lieferanten oder Artikel anlegen, welche Felder sind Pflicht, welche Formate gelten? Änderungsprotokoll fuehren: wer hat was wann geändert? Viele moderne Systeme bringen ein Audit-Log mit. Aktivieren, nicht ignorieren. Regelmäßiges Review: einmal pro Quartal eine halbe Stunde. Qualitäts-Dashboard ansehen, Trends besprechen, Maßnahmen ableiten.
Datensilos aufbrechen
In vielen mittelstaendischen Unternehmen existieren Datensilos. Der Vertrieb arbeitet in einem CRM, die Buchhaltung in einer ERP-Umgebung, das Lager in einer Warenwirtschaft, die Geschäftsführung in Excel-Tabellen. Jedes System hat seine eigene Sicht auf die Daten.
Das Problem für KI: Wenn du zum Beispiel eine Kundenabwanderungsprognose bauen willst, brauchst du Daten aus dem CRM (Kontakthistorie), aus dem ERP (Bestellungen, Umsatz), aus dem Support-Ticketsystem (Beschwerden) und unter Umstaenden von der Website (Besuchsverhalten). Wenn diese Systeme nicht verbunden sind, fehlt das Gesamtbild.
Drei Wege, Silos aufzubrechen. Integration über APIs (moderne Systeme bieten häufig REST-APIs, Workflow- und Integrations-Werkzeuge wie n8n oder Make können Systeme verbinden und Daten synchronisieren). Zentraler Data Lake (alle relevanten Daten werden in einen zentralen Speicher kopiert, zum Beispiel eine relationale Datenbank oder ein Cloud Data Warehouse; die KI greift auf den Data Lake zu, nicht auf die Quellsysteme). Master Data Management, kurz MDM (verwaltet zentrale Stammdatensaetze pro Kunde, Lieferant oder Artikel; Quellsysteme synchronisieren gegen diesen Master).
Für viele Mittelstaendler ist die API-Integration der pragmatische Einstieg, waehrend ein MDM-Aufbau oft erst später sinnvoll wird, wenn Datenmenge und Komplexitaet wachsen.
Typische Herausforderungen im Mittelstand
| Herausforderung | Häufigkeit | Auswirkung auf KI |
|---|---|---|
| Tabellenkalkulation als fuehrendes System | verbreitet | Keine strukturierte API, wenig Validierung |
| Manuelle Dateneingabe ohne Pflichtfelder | verbreitet | Viele leere Felder bei optionalen Daten |
| Keine einheitlichen Produktnummern | verbreitet | Gleicher Artikel mit mehreren IDs |
| Veraltete CRM-Daten | verbreitet | Kontaktdaten verlieren mit der Zeit an Aktualitaet |
| Datensilos zwischen Abteilungen | verbreitet | Widerspruechliche Informationen, unvollständige Analysen |
| Kein Datenverantwortlicher benannt | häufig | Zuständigkeit ungeklaert, Qualität sinkt stetig |
Keine dieser Herausforderungen braucht ein Millionenbudget zur Lösung. Es braucht einen klaren Plan (die sieben Schritte oben) und jemanden, der sich zuständig fuehlt.
Werkzeuge für die Praxis
Die folgenden Werkzeuge werden im Umfeld von Datenqualitätsarbeit häufig genannt. Wir nennen sie deskriptiv, ohne Pricing-Behauptungen oder Wertungen einzelner Anbieter.
OpenRefine ist ein frei verfuegbares Open-Source-Werkzeug für interaktive Datenbereinigung und -transformation. Nützlich für Clustering, Facetten und Ähnlichkeitssuche bei kleineren bis mittleren Datensaetzen. Talend Open Studio ist ein Open-Source-ETL-Werkzeug für komplexere Datenpipelines mit visueller Pipeline-Erstellung und einer Vielzahl an Konnektoren. Great Expectations ist eine Open-Source-Python-Bibliothek für automatisierte Datenqualitäts-Tests. Erwartungen an Spalten werden definiert und bei jedem Datenlauf geprüft. n8n ist eine Open-Source-Workflow-Automatisierung mit vielen Integrationen. Nicht primaer ein Datenqualitäts-Werkzeug, aber häufig eingesetzt, um Systeme zu verbinden und Qualitätschecks zu orchestrieren.
Für all diese Werkzeuge gilt: Aktuelle Informationen zu Funktionsumfang, Lizenzbedingungen und Einsatzgebieten findest du direkt beim jeweiligen Projekt.
Was schlechte Daten kosten können
Die Kosten schlechter Datenqualität sind selten praezise zu beziffern, weil sie sich auf viele Bereiche verteilen. Eine grobe Orientierung, in welchen Bereichen Kosten entstehen können.
| Kostenfaktor | Wirkung |
|---|---|
| Manuelle Nacharbeit (Suchen, Korrigieren, Abgleichen) | bindet Arbeitszeit in den Fachabteilungen |
| Fehlentscheidungen durch falsche Daten | können zu Fehlbestellungen oder Fehlplanungen fuehren |
| Verlorene Kontakte durch veraltete Kontaktdaten | schwaechen Vertrieb und Kundenbindung |
| Compliance-Risiken durch veraltete oder unsaubere Datenbestaende | können datenschutzrechtlich relevant sein |
| Gescheiterte oder verzoegerte KI-Projekte | verschieben erwartete Produktivitaetseffekte |
Die genauen Betraege haengen stark vom Unternehmen ab. Wichtig ist die Richtung: Datenqualitätsarbeit ist selten ein Kostenfaktor, sondern ein Hebel, um bestehende Kosten zu reduzieren.
Dagegen stehen die Kosten für ein Datenqualitätsprojekt: ein interner Verantwortlicher mit überschaubarem Zeitbudget, frei verfuegbare Werkzeuge und eventuell externe Beratung für den Einstieg. In vielen Fällen amortisiert sich solche Arbeit relativ schnell.
Wer das unterschaetzt, faellt nach zwei Monaten raus. Wir sehen bei unseren DigiMan-Teilnehmern regelmäßig, dass Unternehmen direkt mit dem Modell starten wollen und erst bei den ersten Testergebnissen merken, wie tief das Datenchaos sitzt. Die KI-Implementierung dauert dann nicht zwei Wochen, sondern drei Monate, weil ein paralleles Datenqualitätsprojekt aufgesetzt werden muss. Wer die Datenbasis früh angeht, spart am Ende Zeit, nicht umgekehrt.
Priorisierung nach KI-Readiness
Nicht alle Daten müssen gleichzeitig perfekt sein. Starte mit dem Datensatz, der für deinen ersten KI-Anwendungsfall am wichtigsten ist. Wenn du einen KI-Readiness-Check für dein Unternehmen machst, wird die Datenqualität einer der zentralen Bewertungspunkte sein.
Eine empfohlene Reihenfolge: Kundenstammdaten bereinigen, weil viele KI-Anwendungsfälle auf Kundendaten zugreifen. Den einen Datensatz priorisieren, den dein erstes KI-Projekt braucht. Standardisierung und Governance parallel einführen, damit neue Daten von Anfang an sauber sind. Datensilos schrittweise verbinden, nicht alles auf einmal.
Eine KI-Strategie für den Mittelstand berücksichtigt die Datenqualität von Anfang an. Wer die Datenbasis ignoriert und direkt mit der KI-Implementierung startet, baut auf Sand.
FAQ
Wie lange dauert es, bis die Datenqualität für KI ausreicht? Das haengt von Ausgangslage und Umfang ab. Häufig werden für eine erste nutzbare Datenbasis einige Wochen bis wenige Monate veranschlagt. Das bedeutet nicht, dass alles perfekt ist. Es bedeutet, dass die Daten für einen konkreten KI-Anwendungsfall ausreichen. Perfektion ist das Ziel von Governance, nicht eines einmaligen Projekts.
Brauche ich eine Data Engineerin? Für den Einstieg meist nicht. Die ersten Schritte (Audit, Bereinigung, Standardisierung) kann jemand mit soliden Kenntnissen in Tabellenkalkulation und Datenbanken bearbeiten. Ab dem Punkt, an dem automatisierte Pipelines und Echtzeit-Monitoring nötig sind, lohnt sich die Einbindung von Data-Engineering-Wissen.
Welche Daten braucht ein KI-Chatbot? Vor allem korrekte und aktuelle Dokumente. Die Wissensbasis muss widerspruchsfrei sein, vollständig und regelmäßig aktualisiert. Format und Struktur sind weniger kritisch, weil Sprachmodelle auch mit unstrukturierten Texten umgehen können. Wenn mehrere Versionen eines Dokuments existieren, muss aber klar sein, welche die gültige ist.
Was kostet ein Datenqualitätsprojekt? Mit frei verfuegbaren Werkzeugen entfallen Lizenzkosten. Die Hauptkosten sind Arbeitszeit für Audit, Erstbereinigung und laufendes Monitoring. Externe Beratung für den Kickoff kann je nach Umfang sinnvoll sein.
Reicht es, die Daten einmal zu bereinigen? Nein. Ohne Monitoring und Governance verschlechtert sich die Datenqualität mit der Zeit zurück in Richtung Ausgangszustand. Schritt 6 (Monitoring) und Schritt 7 (Governance) sind deshalb keine Kuer, sondern Pflicht.
Datenqualität, Datenpipelines und KI-Integration gehören zusammen. In der Weiterbildung zum Digitalisierungsmanager bei SkillSprinters lernst du, wie du Daten aufbereitest, Systeme verbindest und KI-Anwendungen auf einem sauberen Datenfundament aufbaust. DEKRA-zertifiziert, 4 Monate, komplett online, Standort Bayreuth. Mit Bildungsgutschein ist die Teilnahme förderfaehig.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.