KI-Bias erkennen und Diskriminierung verhindern ist keine theoretische Übung. Wenn ein KI-System systematisch Bewerberinnen benachteiligt, Kredite aufgrund der Postleitzahl verweigert oder Versicherungsprämien anhand fragwürdiger Korrelationen berechnet, haftet das Unternehmen. Der EU AI Act stuft KI-Systeme im Recruiting und in der Kreditvergabe als Hochrisiko-Systeme ein. Das Allgemeine Gleichbehandlungsgesetz (AGG) verbietet Diskriminierung unabhängig davon, ob ein Mensch oder ein Algorithmus entscheidet.

Wie Bias entsteht, wie er sich messen lässt und was praktisch in einem Unternehmen passieren muss, damit man nicht in die Haftungsfalle läuft, steht hier.

Wie KI-Bias entsteht

KI-Bias bezeichnet systematische Verzerrungen in den Ergebnissen eines KI-Systems, die bestimmte Personengruppen benachteiligen. Bias ist kein Fehler im herkömmlichen Sinn. Das System funktioniert technisch einwandfrei. Es reproduziert Muster, die in den Trainingsdaten vorhanden sind.

Die drei Hauptquellen lassen sich kurz beschreiben.

Historische Daten. Wenn ein KI-System auf Daten trainiert wird, die historische Diskriminierung widerspiegeln, übernimmt es diese Muster. Wenn in den letzten zehn Jahren überwiegend Männer in technische Positionen eingestellt wurden, "lernt" die KI, dass männliche Kandidaten besser geeignet sind.

Repräsentationslücken. Wenn bestimmte Gruppen in den Trainingsdaten unterrepräsentiert sind, liefert das System für diese Gruppen schlechtere Ergebnisse. Gesichtserkennung, die primär mit Fotos hellhäutiger Personen trainiert wurde, erkennt dunkelhäutige Personen deutlich schlechter.

Proxy-Variablen. Selbst wenn geschützte Merkmale nicht direkt in den Daten stehen, transportieren Stellvertreter-Variablen die gleiche Information. Die Postleitzahl korreliert mit sozioökonomischem Status und der ethnischen Zusammensetzung eines Viertels. Ein System, das Postleitzahlen berücksichtigt, diskriminiert indirekt nach Herkunft.

Fallstudie Amazon

Das bekannteste Beispiel für KI-Bias stammt von Amazon. Ab 2014 entwickelte ein Ingenieursteam ein KI-System, das Bewerbungen automatisch bewerten sollte. Trainiert wurde es mit den Lebensläufen der vorangegangenen zehn Jahre, mit Fokus auf erfolgreiche Kandidaten.

Die bestehende Belegschaft in Amazons Technik-Abteilungen war überwiegend männlich. Das KI-System "lernte" daraus, dass männliche Kandidaten bevorzugt werden sollten. Konkret identifizierte das System rund 50.000 Schlüsselbegriffe und Attribute als Prädiktoren. Begriffe, die typischerweise in Lebensläufen von Frauen vorkamen ("women's chess club captain"), wurden abgewertet. Verben, die häufiger in Lebensläufen männlicher Ingenieure vorkamen ("executed", "captured"), wurden positiv gewichtet. Allgemeine IT-Fähigkeiten, die bei allen Bewerbern gleich verbreitet waren, wurden als wenig aussagekräftig eingestuft.

Amazon versuchte, das System anzupassen. Trotz mehrfacher Überarbeitung gelang es nicht, den Bias zuverlässig zu eliminieren. 2017 wurde das Projekt eingestellt. Das System wurde nie produktiv für Einstellungsentscheidungen eingesetzt.

Die Lehre daraus ist unbequem. Bias lässt sich nicht nachträglich "herauswaschen", wenn die Grundstruktur der Trainingsdaten verzerrt ist. Die einzige wirksame Lösung ist, Bias von Anfang an systematisch zu adressieren. Bei der Datenerhebung, beim Modelldesign und bei der Evaluation.

Rechtlicher Rahmen in Deutschland

Das AGG verbietet Benachteiligungen aufgrund von Rasse oder ethnischer Herkunft, Geschlecht, Religion oder Weltanschauung, Behinderung, Alter und sexueller Identität. Der Schutz gilt im Arbeitsrecht (Einstellung, Beförderung, Kündigung), im Zivilrecht (Zugang zu Gütern und Dienstleistungen, einschließlich Kreditvergabe und Versicherungen) und im Bildungsbereich.

Das AGG unterscheidet nicht danach, ob die Diskriminierung durch einen Menschen oder einen Algorithmus erfolgt. Wenn Ihr KI-System systematisch ältere Bewerber aussortiert, liegt eine Altersdiskriminierung vor, auch wenn Sie selbst keine diskriminierende Absicht hatten.

Die Antidiskriminierungsbeauftragte des Bundes hat im August 2023 ein Rechtsgutachten vorgelegt, das erhebliche Regelungslücken aufzeigt. Das AGG wurde 2006 verabschiedet und geht von menschlichen Entscheidungsträgern aus. Die Reformvorschläge zielen auf eine Erweiterung des Diskriminierungsbegriffs (automatisierte Entscheidungssysteme in Paragraf 3 AGG), eine Beweislastumkehr (das Unternehmen muss beweisen, dass das System nicht diskriminiert) und Auskunftspflichten (Betroffene erhalten Einblick in die Funktionsweise des Systems).

Unabhängig vom aktuellen Gesetzgebungsstand: Gerichte wenden das bestehende AGG bereits auf algorithmische Entscheidungen an. Auf eine Reform warten ist keine Option, wenn man heute ein KI-System produktiv einsetzt.

Der EU AI Act stuft KI-Systeme in bestimmten Bereichen als Hochrisiko ein. Recruiting und Personalmanagement (Einstellung, Beförderung, Kündigung). Kreditwürdigkeitsprüfung. Bildung (Zugang und Bewertung). Für Hochrisiko-Systeme gelten strenge Anforderungen: Risikomanagement, Datenqualitätsstandards, technische Dokumentation, Transparenz, menschliche Aufsicht und regelmäßige Überprüfung. Verstöße können mit Bußgeldern bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes geahndet werden.

Testing-Methoden

Vier Ansätze zur Bias-Erkennung haben sich in der Praxis bewährt.

Statistische Analyse der Ergebnisse. Die Ergebnisse des Systems für verschiedene demografische Gruppen vergleichen. Wenn 60 Prozent der männlichen Bewerber zum Interview eingeladen werden, aber nur 30 Prozent der weiblichen, deutet das auf Bias hin.

Adversarial Testing. Identische Testfälle erstellen, die sich nur in einem geschützten Merkmal unterscheiden. Zwei identische Lebensläufe, einer mit "Andreas Müller", der andere mit "Fatima Yilmaz". Unterschiedliche Bewertung = Bias.

Feature-Importance-Analyse. Welche Merkmale zieht das System für seine Entscheidungen heran? Wenn Postleitzahl oder Vorname hohe Bedeutung haben, ist das ein Warnsignal.

Subgruppenanalyse. Performance-Metriken auf relevante Untergruppen herunterbrechen. Ein Gesamtergebnis von 90 Prozent Genauigkeit kann verdecken, dass das System für bestimmte Gruppen nur 60 Prozent erreicht.

Dazu kommen Fairness-Metriken. Demographic Parity verlangt, dass der Anteil positiver Entscheidungen (Einladung, Kreditbewilligung) für alle demografischen Gruppen gleich ist. Equalized Odds verlangt, dass die Fehlerrate (falsch-positive und falsch-negative Entscheidungen) für alle Gruppen gleich ist. Predictive Parity verlangt, dass der positive Vorhersagewert (Präzision) für alle Gruppen gleich ist.

Diese Metriken können nicht gleichzeitig erfüllt werden. Es ist eine bewusste Entscheidung nötig, welche Fairness-Definition für den Anwendungsfall am relevantesten ist. Das ist der Teil, den viele Unternehmen unterschätzen: Fairness ist keine technische, sondern eine ethische Entscheidung.

Was praktisch zu tun ist

Diverse Entwicklungsteams erkennen blinde Flecken eher als homogene. Teams, die nach Geschlecht, Alter, Herkunft und Erfahrungshintergrund divers zusammengesetzt sind, finden Bias früher.

Repräsentative Trainingsdaten. Wenn der Kundenstamm zu 50 Prozent weiblich ist, sollten die Trainingsdaten das widerspiegeln.

Regelmäßige Audits, mindestens vierteljährlich. Ergebnisse dokumentieren, Korrekturmaßnahmen ableiten.

Human-in-the-Loop. Besonders bei Hochrisiko-Entscheidungen (Einstellung, Kreditvergabe) sollte ein Mensch die finale Entscheidung treffen, nicht der Algorithmus allein.

Dokumentation. Welche Daten wurden verwendet, welche Tests durchgeführt, welche Ergebnisse erzielt. Unter dem EU AI Act für Hochrisiko-Systeme verpflichtend.

Wer das Thema KI-Compliance systematisch angehen will, findet in unserer Compliance-Artikelreihe weitere Leitfäden. Für den Aufbau von KI-Kompetenz im Team bietet sich der kostenlose KI-Schnupperkurs an.

Häufige Fragen

Ist jeder KI-Fehler gleich Diskriminierung? Nein. KI-Systeme machen Fehler, das ist unvermeidlich. Diskriminierung liegt vor, wenn die Fehler systematisch bestimmte geschützte Gruppen benachteiligen. Ein System mit gelegentlich falschen Vorhersagen diskriminiert nicht. Ein System, das bei Frauen doppelt so oft falsche Ablehnungen produziert wie bei Männern, schon.

Reicht es, geschützte Merkmale aus den Daten zu entfernen? Nein. Das Entfernen von Merkmalen wie Geschlecht oder Alter reicht nicht, weil Proxy-Variablen (Vorname, Postleitzahl, Vereinsmitgliedschaften) die gleiche Information transportieren. Bias-Prävention erfordert aktives Testen und Monitoring.

Wer haftet, wenn ein KI-System diskriminiert? Das Unternehmen, das das System einsetzt, haftet nach dem AGG. "Das hat der Algorithmus entschieden" ist keine Ausrede. Die Produkthaftung des Herstellers kommt zusätzlich in Betracht, ersetzt aber nicht die Verantwortung des Betreibers.

Ist ein Bias-Audit verpflichtend? Für Hochrisiko-KI-Systeme nach dem EU AI Act: ja, ab August 2026. Für andere KI-Systeme nicht ausdrücklich vorgeschrieben, aber dringend empfohlen, um AGG-Konformität sicherzustellen.

Wie viel kostet ein Bias-Audit? Interne Audits mit vorhandenen Ressourcen sind ab wenigen Tausend Euro möglich. Externe Audits durch spezialisierte Dienstleister liegen typischerweise bei 10.000 bis 50.000 Euro, abhängig von der Komplexität des Systems.

Gibt es branchenspezifische Besonderheiten? Ja. Im Finanzsektor gelten zusätzliche Anforderungen durch die EBA. Im Versicherungsbereich die Leitlinien der EIOPA. Im Gesundheitswesen gelten besondere Schutzstandards für Gesundheitsdaten nach Artikel 9 DSGVO.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp