KI-Monitoring nach Post-Deployment ist der Teil, den fast jedes KMU unterschätzt. Du hast das Modell ausgewählt, den Prozess umgebaut, die ersten Wochen sind gut gelaufen. Vier Monate später meldet ein Mitarbeiter, dass der Klassifizierer plötzlich Reklamationen als Werbung einsortiert. Niemand hat etwas geändert. Trotzdem funktioniert die KI nicht mehr wie am ersten Tag. Genau für diesen Moment baust du Monitoring.

Auf einen Blick: Eine KI im produktiven Einsatz braucht Beobachtung. Drei Drift-Arten sind zu unterscheiden. Performance-Drift heißt, das Modell wird schlechter, ohne dass die Eingaben sich ändern. Data-Drift heißt, die Eingabedaten verschieben sich. Concept-Drift heißt, die Realität ändert sich. Kennzahlen sind Genauigkeit, Latenz, Kosten pro Anfrage und Fairness-Metriken. Werkzeuge für KMU sind oft eigene Dashboards mit Plausible, Grafana oder Excel. EU AI Act Art. 12 verlangt Logging für Hochrisiko-KI, Art. 19 Aufbewahrung der Logs.

Warum eine KI ohne Monitoring degeneriert

Ein gutes Modell am Tag des Launches sagt wenig über das Modell in sechs Monaten aus. Anbieter aktualisieren ihre Sprachmodelle, manchmal stillschweigend. Eingabedaten verschieben sich, weil dein Geschäft sich verändert. Und die Welt um dich herum bleibt nicht stehen. Eine Bonitätsprüfung, die 2024 stabil lief, kann 2026 anders bewerten, weil sich Verbraucherverhalten, Energiepreise und Inflation verändert haben.

Hinzu kommt ein menschliches Problem. Sobald ein System läuft, schauen die Beteiligten nicht mehr hin. Genau da entsteht der Schaden. Ein Mail-Sortierer, der nach drei Monaten zehn Prozent Reklamationen falsch einsortiert, kostet nicht nur Vertrauen. Er kostet auch Kundenbeziehungen, die du erst dann verlierst, wenn niemand mehr reagieren kann.

Monitoring ist kein Luxus für Konzerne mit Data-Science-Teams. Monitoring ist die Grundlage dafür, dass du den Einsatz von KI verantworten kannst. Wer das systematisch angeht, findet eine schöne Verbindung zur KI-Roadmap für KMU in fünf Schritten. Monitoring ist dort die fünfte Stufe und gleichzeitig die Voraussetzung dafür, dass die ersten vier Stufen nicht im Nichts verpuffen.

Die drei Drift-Arten

Drift ist der Fachbegriff für den schleichenden Qualitätsverlust einer KI. Es lohnt sich, drei Arten klar zu unterscheiden, weil jede Art eine andere Reaktion verlangt.

Drift-Art Was passiert Typische Ursache Reaktion
Performance-Drift Modell wird schlechter, Eingaben unverändert Anbieter-Update, Modellversionswechsel Modellversion fixieren, Anbieter wechseln
Data-Drift Eingabedaten verschieben sich Neue Sprache, neuer Produktbereich, neue Kundengruppe Trainingsdaten ergänzen, Prompt anpassen
Concept-Drift Realität ändert sich Gesetzesänderung, Markttrend, neue Konkurrenz Geschäftslogik neu denken, KI neu kalibrieren

Performance-Drift erkennst du daran, dass dieselbe Eingabe ein anderes Ergebnis liefert als vor sechs Wochen. Du hast nichts geändert, der Anbieter aber sehr wohl. Das ist der häufigste Grund, warum eine KI plötzlich Unsinn antwortet.

Data-Drift ist subtiler. Du hast eine Mail-Sortierung trainiert, die deutsche Reklamationen erkennt. Dein Vertrieb wächst in Österreich. Plötzlich landen österreichische Eigenheiten im Eingang, die das Modell nie gesehen hat. Die Eingaben sind anders, also wird die Sortierung schlechter.

Concept-Drift ist die anspruchsvollste Form. Die Welt hat sich verändert. Wenn der EU AI Act in Kraft tritt und neue Begriffe entstehen, kann ein Vertragsklassifikator alte Vertragsarten weiterhin korrekt einordnen, aber neue Kategorien nicht. Das Konzept dessen, was als Vertrag gilt, hat sich erweitert.

Die vier Kennzahlen, die jeder messen sollte

Für ein KMU reichen vier Kennzahlen, um die wichtigsten Drift-Arten frühzeitig zu sehen. Du brauchst keine Plattform, die zehntausend Euro im Jahr kostet. Du brauchst Disziplin und ein einfaches Werkzeug.

Genauigkeit. Die wichtigste Kennzahl. Einmal im Monat ziehst du eine Stichprobe von dreißig bis hundert Fällen. Du oder eine Kollegin entscheidet, was die richtige Antwort gewesen wäre. Dann vergleichst du mit dem, was die KI ausgegeben hat. Wenn die Quote sinkt, weißt du es. Wer das nicht macht, weiß es eben nicht. Es ist erstaunlich, wie viele Unternehmen ihre eigene Trefferquote nicht kennen.

Latenz. Wie lange braucht die KI für eine Anfrage? Das klingt technisch, ist aber unmittelbar User-Experience. Wenn ein Chatbot heute drei Sekunden braucht und in drei Monaten zwölf Sekunden, springen Kunden ab. Latenz ist auch ein guter Frühindikator, weil sie oft vor der Genauigkeit kippt.

Kosten pro Anfrage. Wer eine API nutzt, zahlt pro Token. Ein Modellwechsel oder eine längere Antwort kann die monatliche Rechnung verdoppeln, ohne dass das Geschäft besser läuft. Eine einfache Tabelle mit Token-Verbrauch und Tagesausgaben rettet dich vor bösen Überraschungen am Monatsende.

Fairness und Bias. Wenn deine KI Bewerbungen vorsortiert, Bonität bewertet oder Versicherungsprämien kalkuliert, ist Fairness keine freiwillige Tugend. Hochrisiko-KI nach Anhang III der KI-Verordnung verlangt, dass du auf diskriminierende Effekte achtest. Praktisch heißt das: monatlich prüfen, ob die Entscheidungen sich entlang Geschlecht, Alter oder Herkunft ungewöhnlich verteilen. Wer diese Prüfung nicht dokumentiert, hat im Schadensfall ein Problem mit Behörden und Gerichten.

Werkzeuge für KMU

Du brauchst keine teure Plattform. Drei Wege funktionieren in der Praxis.

Der einfachste Weg ist eine Tabelle in Excel oder Google Sheets. Du protokollierst Stichproben, Treffer, Fehler und Latenzwerte. Einmal im Monat eine Stunde, fertig. Klingt simpel, ist aber besser als jedes komplizierte System, das nach drei Wochen niemand mehr pflegt.

Der zweite Weg ist ein eigenes Dashboard. Plausible Analytics zeigt, wie oft eine KI-Funktion auf deiner Website aufgerufen wird. Grafana oder Metabase visualisieren Logs aus einer Datenbank. Sentry ist hervorragend für Fehler-Logs und Alarme bei Ausreißern. Mit zwei Tagen Setup hast du ein System, das dir täglich automatisch zeigt, wenn etwas schiefläuft.

Der dritte Weg sind Enterprise-Werkzeuge. WhyLabs, Arize AI, Fiddler und MLflow sind professionelle Monitoring-Plattformen, die alle drei Drift-Arten automatisch erkennen. Sie lohnen sich, wenn du zehn oder mehr Modelle gleichzeitig im Produktivbetrieb hast. Für die meisten KMU sind sie überdimensioniert.

Wichtig ist nicht das Werkzeug. Wichtig ist, dass jemand die Zahlen tatsächlich anschaut. Ein Dashboard, das niemand öffnet, ist kein Monitoring.

Was die KI-VO verlangt

Die EU-Verordnung schreibt Monitoring für Hochrisiko-KI explizit vor. Drei Artikel sind besonders relevant.

Artikel 12 verlangt eine technisch automatisierte Protokollierung der Ereignisse während des Betriebs. Logging ist keine Empfehlung, sondern Pflicht. Du musst nachweisen können, was das System wann auf Basis welcher Eingaben entschieden hat. Wer Hochrisiko-KI ohne Logging betreibt, verstößt direkt gegen die Verordnung.

Artikel 19 regelt die Aufbewahrung. Die Logs müssen mindestens sechs Monate gespeichert werden, oft länger, wenn nationales Recht oder eine Sektor-Regelung das verlangt. In der Praxis solltest du mit zwei Jahren rechnen, weil viele zivilrechtliche Ansprüche entlang dieser Frist verjähren.

Artikel 72 verpflichtet Anbieter zu Post-Market Monitoring. Das ist Monitoring nach Markteinführung. Der Anbieter muss systematisch und kontinuierlich beobachten, wie das System sich im Feld verhält, und auf Probleme reagieren. Wer KI bei sich einsetzt, ist nicht automatisch Anbieter. Wer aber ein System wesentlich anpasst, kann zum Anbieter werden und übernimmt damit auch diese Pflicht.

Die Pflichten für Hochrisiko-KI greifen ab dem 02.12.2027. Das klingt fern, ist aber kein Anlass zur Entspannung. Wer jetzt ein Logging-Konzept baut, hat Zeit, das System sauber einzuführen. Wer im November 2027 anfängt, baut ein Provisorium, das später nie wieder aufgeräumt wird. Die Verbindung zu den Betreiber-Pflichten nach Art. 26 KI-VO ist eng, weil dort viele Monitoring-Anforderungen aus Betreibersicht beschrieben sind.

Wer im Betrieb verantwortlich ist

Monitoring braucht eine Person mit Namen, nicht eine Abteilung. In den meisten KMU ist das der KI-Beauftragte oder die Datenschutzbeauftragte. Beide Rollen können dieselbe Person sein, müssen aber klare Befugnisse haben.

Die verantwortliche Person hat drei Aufgaben. Erstens, die monatliche Auswertung der Kennzahlen. Zweitens, die Dokumentation. Drittens, die Eskalation an die Geschäftsführung, sobald eine Schwelle gerissen wird. Diese dritte Aufgabe ist die wichtigste. Es nützt nichts, wenn jemand Drift sieht und nichts tut, weil die Geschäftsführung keine Zeit hat.

In der Praxis hilft eine kurze monatliche Mail an die Geschäftsführung. Drei Zeilen reichen. Trefferquote stabil, Latenz im Rahmen, Kosten gestiegen um zwölf Prozent. Damit dokumentierst du gleichzeitig, dass das Monitoring gelaufen ist. Im Streitfall ist diese Dokumentation Gold wert.

Wie oft messen und wann eingreifen

Die Frequenz hängt vom Risiko ab. Für eine KI, die intern Mails sortiert, reicht ein monatlicher Blick. Für eine KI, die Kundenpreise berechnet, brauchst du tägliche Werte. Für eine Hochrisiko-Anwendung nach Anhang III sollten Logs in Echtzeit auflaufen, mit Alarmen für definierte Schwellen.

Alarmschwellen legst du in drei Stufen fest. Grün heißt, alles läuft. Gelb heißt, eine Kennzahl rutscht in den Beobachtungsbereich, du schaust genauer hin. Rot heißt, du greifst ein. Eine sinnvolle Schwelle für Genauigkeit ist gelb bei minus fünf Prozentpunkten gegenüber dem Ausgangswert und rot bei minus zehn Prozentpunkten. Für Latenz gelb bei einer Verdoppelung, rot bei einer Verdreifachung.

Wenn rot eintritt, hast du drei Optionen. Du fixierst die Modellversion und nutzt nicht mehr die aktuellste. Du wechselst den Anbieter. Du nimmst das System vom Netz und kehrst zum vorherigen Prozess zurück. Welche Option richtig ist, hängt vom Geschäftsfall ab. Wichtig ist, dass die Entscheidung dokumentiert wird.

Praxis-Beispiel: KMU mit KI-Mail-Sortierer

Ein Mittelständler mit fünfzig Mitarbeitern führt einen KI-Mail-Sortierer ein. Eingehende Mails werden automatisch in vier Kategorien einsortiert: Reklamation, Angebotsanfrage, Rechnung, Sonstiges. Was gehört ins Monitoring?

Das Dashboard zeigt vier Werte pro Monat. Trefferquote anhand einer Stichprobe von fünfzig Mails, die ein Mitarbeiter manuell prüft. Durchschnittliche Sortierzeit pro Mail. Kosten pro tausend Mails. Verteilung der Kategorien.

Im ersten Monat ist die Trefferquote bei 94 Prozent. Sortierzeit liegt bei 1,2 Sekunden. Kosten bei 4,80 Euro pro tausend Mails. Verteilung gleichmäßig.

Im fünften Monat fällt die Trefferquote auf 86 Prozent. Sortierzeit unverändert. Kosten unverändert. Verteilung deutlich verschoben Richtung Sonstiges. Was ist passiert?

Eine kurze Analyse zeigt, dass das Unternehmen ein neues Produkt eingeführt hat. Anfragen zu diesem Produkt erkennt das Modell nicht und sortiert sie unter Sonstiges. Klassischer Data-Drift. Reaktion: Prompt anpassen, drei Beispiele aus dem neuen Produktbereich ergänzen. Trefferquote im sechsten Monat zurück bei 92 Prozent.

Ohne Monitoring hätte niemand gemerkt, dass Anfragen zum neuen Produkt fälschlich als Sonstiges einsortiert wurden. Reklamationen wären entstanden, Verkaufschancen wären verloren gegangen. Mit Monitoring hat das System sich nach einem Eingriff wieder stabilisiert. Das ist der ganze Zweck. Wer diesen Zyklus beherrscht, hat einen großen Vorteil im Wettbewerb. Genau diese Fähigkeit wird im Digitalisierungsmanager systematisch ausgebildet.

Häufige Fragen

Wie oft sollte ich messen? Mindestens einmal im Monat. Für kritische Anwendungen wöchentlich oder täglich. Für Hochrisiko-KI nach Anhang III in Echtzeit mit Alarmen.

Wer ist verantwortlich? Eine konkrete Person, nicht eine Abteilung. In den meisten KMU der KI-Beauftragte oder die Datenschutzbeauftragte. Die Rolle muss klar definiert sein und Eskalation an die Geschäftsführung ermöglichen. Wer keine Rolle benannt hat, sollte zuerst die KI-Kompetenzpflicht nach Art. 4 klären.

Was kostet ein Monitoring-Setup? Mit Excel und einer Stunde im Monat null Euro zusätzlich. Mit Grafana oder Metabase zwei bis vier Tage Setup und etwa zwanzig Euro im Monat für Hosting. Mit Enterprise-Tools fünftausend bis fünfzigtausend Euro im Jahr.

Brauche ich ein spezielles Tool? Nein. Für die meisten KMU reicht eine Tabelle. Tools werden interessant, wenn du mehr als drei produktive KI-Anwendungen parallel betreibst.

Was tue ich, wenn ich Drift erkenne? Drei Optionen: Modellversion fixieren, Anbieter wechseln, System vom Netz nehmen und alten Prozess wieder einführen. Dokumentiere die Entscheidung schriftlich.

KI-Monitoring ist nicht der spannendste Teil der Digitalisierung. Es ist aber der Teil, der entscheidet, ob aus einem guten Start ein verlässlicher Betrieb wird. Wer jetzt ein Logging-Konzept aufsetzt, hat 2027 keine hektische Nachrüstung vor sich. Wer die monatliche Stichprobe einführt, sieht Probleme bevor Kunden sie melden. Wer eine verantwortliche Person benennt, hat im Zweifelsfall einen Ansprechpartner. Beginne mit der einfachen Variante, einer Tabelle und einer Stichprobe pro Monat. Daraus wächst alles Weitere von selbst.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp