KI Datenqualität verbessern ist der wichtigste Schritt, bevor du überhaupt über Algorithmen, Tools oder Anbieter nachdenkst. 80 Prozent aller gescheiterten KI-Projekte scheitern nicht an der Technologie, sondern an den Daten, die sie verarbeiten. "Garbage in, garbage out" ist kein Klischee. Es ist das Naturgesetz der künstlichen Intelligenz.
Dieser Artikel gibt dir eine praxiserprobte 15-Punkte-Checkliste, mit der du die Datenqualität in deinem Unternehmen systematisch bewertest und verbesserst. Kein Informatikstudium nötig. Dafür konkrete Handlungsanweisungen, die du ab morgen umsetzen kannst.
Das Wichtigste in Kürze
- 80 Prozent der KI-Projekte scheitern primär an schlechter Datenqualität, nicht an der Technologie.
- Sechs Dimensionen bestimmen die Datenqualität: Vollständigkeit, Genauigkeit, Konsistenz, Aktualität, Eindeutigkeit und Gültigkeit.
- Datenbereinigung dauert typischerweise zwei bis vier Wochen und sollte VOR dem KI-Projekt stattfinden.
- Einfache Tools wie Excel-Pivot-Tabellen und Duplikatfilter lösen bereits 60 bis 70 Prozent der Probleme.
- Laufende Datenqualität erfordert klare Verantwortlichkeiten und automatische Prüfroutinen.
Warum Datenqualität bei KI alles entscheidet
Stell dir vor, du trainierst einen neuen Mitarbeiter. Du gibst ihm einen Ordner mit Kundendaten, in dem jeder dritte Eintrag falsch ist, jeder fünfte doppelt vorkommt und die Hälfte der Telefonnummern veraltet sind. Dann erwartest du, dass er daraus kluge Entscheidungen ableitet.
Genau das passiert, wenn du eine KI mit schlechten Daten fütterst. Sie lernt aus dem, was sie bekommt. Wenn 30 Prozent deiner Kundenadressen falsch sind, wird die KI falsche Muster erkennen. Wenn deine Umsatzdaten Lücken haben, werden Prognosen daneben liegen. Wenn deine Produktkategorien inkonsistent benannt sind, wird jede Auswertung unbrauchbar.
Laut einer Studie von Fraunhofer entdecken viele Unternehmen erst nach dem Projektstart, dass ihre Daten fragmentiert, veraltet oder unvollständig sind. Das kostet nicht nur Geld für die Bereinigung, sondern auch Monate an Projektverzögerung.
Die 6 Dimensionen der Datenqualität
Bevor du in die Checkliste einsteigst, musst du verstehen, was "gute Daten" überhaupt bedeutet. Es gibt sechs messbare Dimensionen:
1. Vollständigkeit: Sind alle Pflichtfelder ausgefüllt? Fehlen Datensätze für bestimmte Zeiträume?
2. Genauigkeit: Stimmen die Werte mit der Realität überein? Sind Adressen korrekt? Entsprechen Umsatzzahlen den Bankkontoauszügen?
3. Konsistenz: Werden gleiche Dinge gleich benannt? Steht in einer Tabelle "München" und in der anderen "Muenchen"? Ist das Datumsformat überall gleich?
4. Aktualität: Wann wurden die Daten zuletzt gepflegt? Sind Kontaktpersonen noch im Unternehmen? Gelten die Preise noch?
5. Eindeutigkeit: Gibt es Duplikate? Ist jeder Datensatz genau einmal vorhanden? Kann jeder Eintrag eindeutig identifiziert werden?
6. Gültigkeit: Liegen die Werte in plausiblen Bereichen? Hat ein Kunde wirklich 99 Jahre als Alter? Ist eine Bestellmenge von minus fünf realistisch?
Die 15-Punkte-Checkliste
Block A: Bestandsaufnahme (Punkte 1 bis 5)
Punkt 1: Datenquellen inventarisieren Liste alle Systeme auf, in denen geschäftsrelevante Daten liegen: CRM, ERP, Excel-Tabellen, E-Mail-Ordner, Papierordner, Notizbücher auf Schreibtischen. Die meisten Unternehmen unterschätzen die Anzahl ihrer Datenquellen um den Faktor zwei bis drei. Frag jeden Abteilungsleiter: "Wo speicherst du Daten, die nicht im Hauptsystem sind?"
Punkt 2: Daten-Eigentümer benennen Für jede Datenquelle braucht es einen Verantwortlichen. Nicht die IT-Abteilung, sondern die Fachabteilung, die die Daten erzeugt und nutzt. Der Vertrieb ist verantwortlich für CRM-Daten, die Buchhaltung für Finanzdaten, das Personalwesen für Mitarbeiterdaten. Ohne klare Eigentümerschaft wird Datenqualität zum Schwarze-Peter-Spiel.
Punkt 3: Stichprobe ziehen Nimm aus jeder Datenquelle eine Zufallsstichprobe von 100 Datensätzen. Prüfe sie manuell auf die sechs Dimensionen. Das dauert pro Quelle etwa zwei Stunden und gibt dir ein realistisches Bild der Ist-Situation. Dokumentiere die Fehlerquote pro Dimension.
Punkt 4: Duplikate zählen Duplikate sind der häufigste Einzelfehler. In CRM-Systemen liegt die Duplikatrate typischerweise bei 10 bis 30 Prozent. Prüfe auf exakte Duplikate (identische Einträge) und unscharfe Duplikate (gleiche Person, unterschiedliche Schreibweise: "Dr. Müller" vs. "Mueller, D." vs. "Doktor Müller"). Excel-Pivot-Tabellen, bedingte Formatierung oder ein spezialisiertes Tool helfen dabei.
Punkt 5: Fehlende Werte identifizieren Erstelle eine Übersicht: Welche Pflichtfelder haben in wie vielen Datensätzen keinen Wert? In den meisten Unternehmen fehlen bei 15 bis 40 Prozent der Datensätze mindestens ein relevantes Feld. Sortiere die Felder nach Geschäftsrelevanz: Fehlende Telefonnummern im Vertrieb sind kritischer als fehlende Postleitzahlen in der Buchhaltung.
Block B: Bereinigung (Punkte 6 bis 10)
Punkt 6: Duplikate zusammenführen Lege fest, welcher Datensatz bei Duplikaten "gewinnt". Faustregel: Der vollständigere, aktuellere Datensatz bleibt. Führe die Felder zusammen, sodass keine Informationen verloren gehen. Dokumentiere jede Zusammenführung, damit du sie rückgängig machen kannst.
Punkt 7: Formate standardisieren Definiere ein einheitliches Format für: Datum (TT.MM.JJJJ), Telefonnummern (+49...), Adressen (Straße, Hausnr., PLZ, Ort), Währung (EUR, zwei Nachkommastellen), Produktnamen (exakt wie im Katalog). Wende diese Formate auf alle bestehenden Daten an. In Excel geht das mit Suchen-und-Ersetzen und Textfunktionen. In größeren Systemen per Batch-Script oder ETL-Tool.
Punkt 8: Fehlende Werte ergänzen oder kennzeichnen Nicht jeder fehlende Wert muss ergänzt werden. Manchmal ist "unbekannt" die ehrlichere Angabe als ein geschätzter Wert. Definiere pro Feld: Ist ein fehlender Wert akzeptabel (z.B. Faxnummer)? Muss er recherchiert werden (z.B. Ansprechpartner)? Oder muss er berechnet werden (z.B. Deckungsbeitrag aus Umsatz minus Kosten)?
Punkt 9: Ausreißer prüfen Sortiere numerische Felder aufsteigend und absteigend. Prüfe die Extremwerte: Ist ein Einzelauftrag über 500.000 Euro realistisch oder ein Eingabefehler? Hat ein Mitarbeiter wirklich 200 Überstunden im Monat? Ausreißer sind nicht immer Fehler, aber sie müssen geprüft werden, bevor eine KI daraus Muster ableitet.
Punkt 10: Veraltete Daten aktualisieren oder archivieren Daten, die älter als zwei Jahre sind und seitdem nicht aktualisiert wurden, sind in den meisten Geschäftsbereichen veraltet. Kontaktpersonen wechseln, Firmen fusionieren, Adressen ändern sich. Entscheide: Aktualisieren (bei aktiven Kunden/Lieferanten) oder archivieren (bei inaktiven Kontakten). Archivieren heißt nicht löschen, sondern in einen separaten Bereich verschieben, der nicht in KI-Auswertungen einfließt.
Block C: Nachhaltigkeit (Punkte 11 bis 15)
Punkt 11: Eingabevalidierung einrichten Verhindere neue Fehler an der Quelle. Pflichtfelder definieren, Dropdown-Menüs statt Freitextfelder verwenden, Plausibilitätsprüfungen bei der Eingabe aktivieren (z.B. PLZ muss fünfstellig sein, Geburtsdatum muss in der Vergangenheit liegen). Die meisten CRM- und ERP-Systeme bieten diese Funktionen, sie werden nur selten konfiguriert.
Punkt 12: Regelmäßige Bereinigungszyklen festlegen Einmalige Bereinigung reicht nicht. Plane vierteljährliche Datenqualitäts-Checks ein. Definiere, wer was prüft und bis wann. Ein einfacher Kalender-Termin mit einer dreiseitigen Checkliste pro Quartal reicht aus.
Punkt 13: Qualitätsmetriken definieren Miss die Datenqualität mit konkreten Zahlen. Zum Beispiel: "Weniger als 5 Prozent Duplikate im CRM", "Mindestens 90 Prozent der Pflichtfelder ausgefüllt", "Kein Datensatz älter als 12 Monate ohne Aktualisierung". Diese Metriken gehören ins Quartals-Reporting, genauso wie Umsatz und Kosten.
Punkt 14: Prozesse für Datenänderungen dokumentieren Wer darf Stammdaten ändern? Wie werden Änderungen freigegeben? Was passiert bei einem Firmenumzug, einer Fusion oder einer Namensänderung? Dokumentiere diese Prozesse in maximal zwei Seiten. Ohne dokumentierte Prozesse werden Daten von jedem anders gepflegt, und die Qualität sinkt innerhalb von Monaten auf das alte Niveau.
Punkt 15: Automatische Warnungen einrichten Richte Alerts ein, die dich benachrichtigen, wenn die Datenqualität unter einen Schwellwert fällt. Zum Beispiel: täglicher Check auf neue Duplikate, wöchentlicher Report über fehlende Pflichtfelder, monatliche Prüfung der Datenaktualität. Tools wie dbt, Great Expectations oder selbst gebaute SQL-Abfragen reichen dafür aus.
Wie schlechte Daten KI-Ergebnisse sabotieren: Drei Beispiele
Beispiel 1: Vertriebsprognose mit Duplikaten. Ein mittelständischer Maschinenbauer wollte seine Auftragswahrscheinlichkeit per KI vorhersagen. Das CRM hatte eine Duplikatrate von 22 Prozent. Die KI interpretierte Duplikate als separate Kunden und überschätzte die Kundenanzahl um fast ein Viertel. Die Prognose war systematisch zu optimistisch.
Beispiel 2: Chatbot mit veralteten Produktdaten. Ein Onlinehändler trainierte einen KI-Chatbot auf seiner Produktdatenbank. Aber 15 Prozent der Produkte waren seit über einem Jahr ausgelistet, die Beschreibungen aber noch in der Datenbank. Der Chatbot empfahl regelmäßig Produkte, die es nicht mehr gab.
Beispiel 3: Personaleinsatzplanung mit inkonsistenten Zeitformaten. Ein Logistikunternehmen wollte Schichtpläne per KI optimieren. Die Arbeitszeiten waren in drei verschiedenen Formaten gespeichert (Stunden:Minuten, Dezimalstunden und Text wie "halb acht bis vier"). Die KI konnte die Daten nicht korrekt interpretieren und erzeugte Pläne mit 36-Stunden-Schichten.
Tools für die Datenbereinigung
Du brauchst nicht für jedes Problem ein teures Spezialtool. Hier eine pragmatische Abstufung:
| Problem | Einfaches Tool | Fortgeschritten |
|---|---|---|
| Duplikate finden | Excel bedingte Formatierung, Pivot | OpenRefine (kostenlos) |
| Formate standardisieren | Excel Suchen/Ersetzen, Textfunktionen | Python pandas |
| Fehlende Werte | Excel WENN/ISTLEER | SQL-Abfragen |
| Ausreißer | Excel Sortieren, Diagramme | Python/R Statistik |
| Laufende Prüfung | Manuelle Checkliste | dbt, Great Expectations |
Für die meisten kleinen und mittleren Unternehmen reichen Excel und OpenRefine völlig aus. Erst ab mehreren hunderttausend Datensätzen oder mehreren verknüpften Datenquellen lohnen sich spezialisierte Plattformen.
Wie lange dauert die Bereinigung?
Rechne konservativ:
- Stichprobe und Bestandsaufnahme: ein bis zwei Tage
- Duplikate bereinigen: drei bis fünf Tage
- Formate standardisieren: zwei bis drei Tage
- Fehlende Werte ergänzen: drei bis fünf Tage
- Prozesse und Regeln aufsetzen: ein bis zwei Tage
Insgesamt also zwei bis drei Wochen bei einem Vollzeit-Einsatz. Bei einem Unternehmen mit weniger als 1.000 Datensätzen im CRM geht es deutlich schneller. Bei 100.000 Datensätzen und fünf verschiedenen Quellsystemen dauert es entsprechend länger.
Der Aufwand lohnt sich: Eine saubere Datenbasis beschleunigt nicht nur das KI-Projekt, sondern verbessert auch alle anderen datengetriebenen Entscheidungen im Unternehmen.
Datenqualität und der EU AI Act
Artikel 4 des EU AI Act (seit 02.02.2025 in Kraft) verpflichtet Unternehmen zur KI-Kompetenz. Dazu gehört auch das Verständnis, welche Daten in KI-Systeme einfließen und wie deren Qualität die Ergebnisse beeinflusst. Wer KI nutzt, ohne die Datengrundlage zu verstehen, handelt nicht nur geschäftlich unklug, sondern riskiert auch regulatorische Konsequenzen.
Die Weiterbildung zum Digitalisierungsmanager behandelt Datenqualität als zentrales Modul. Vier Monate, komplett online, DEKRA-zertifiziert und mit Bildungsgutschein kostenlos. Genau das Wissen, das du brauchst, um KI-Projekte auf einer soliden Datengrundlage aufzubauen.
Häufige Fragen
Wie viel Prozent Fehlerquote in den Daten ist bei KI noch akzeptabel? Als Faustregel gilt: Unter 5 Prozent Fehlerquote in den Kerndaten liefert die meisten KI-Anwendungen brauchbare Ergebnisse. Über 10 Prozent wird es kritisch. Über 20 Prozent ist die Datenbereinigung dringender als das KI-Projekt.
Kann KI selbst bei der Datenbereinigung helfen? Ja, für bestimmte Aufgaben. KI kann Duplikate mit unscharfer Namensgleichheit erkennen, Adressdaten normalisieren und Ausreißer automatisch markieren. Aber die finale Entscheidung (löschen, zusammenführen, korrigieren) sollte immer ein Mensch treffen.
Brauche ich einen Datenbankexperten für die Bereinigung? Nicht zwingend. Für CRM-Systeme mit unter 10.000 Datensätzen reichen Excel-Kenntnisse und gesunder Menschenverstand. Bei größeren Datenmengen oder verknüpften Systemen ist ein Datenbank-Grundverständnis (SQL) hilfreich.
Wie verhindere ich, dass die Datenqualität nach der Bereinigung wieder sinkt? Drei Maßnahmen: Erstens, Eingabevalidierung an der Quelle (Pflichtfelder, Dropdown-Menüs, Formatprüfung). Zweitens, klare Verantwortlichkeiten (Daten-Eigentümer pro System). Drittens, regelmäßige Qualitäts-Checks (mindestens quartalsweise).
Was kostet ein Datenqualitätsprojekt? Bei internem Aufwand: zwei bis drei Wochen Arbeitszeit eines qualifizierten Mitarbeiters. Bei externem Dienstleister: 5.000 bis 20.000 Euro je nach Datenmenge und Komplexität. Das Qualifizierungschancengesetz kann Schulungskosten für den internen Mitarbeiter bis zu 100 Prozent übernehmen.
Fazit
Datenqualität ist nicht das spannendste Thema. Aber es ist das wichtigste. Jeder Euro, den du vor dem KI-Projekt in saubere Daten investierst, spart dir fünf bis zehn Euro während des Projekts. Und er macht den Unterschied zwischen einer KI, die funktioniert, und einer, die Papiergewichte produziert.
Fang mit der Stichprobe an (Punkt 3). Das dauert zwei Stunden und gibt dir ein ehrliches Bild. Wenn du Unterstützung beim systematischen Aufbau von Daten- und KI-Kompetenz brauchst, schau dir unseren KI-Schnupperkurs an oder sprich uns direkt an.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.