Wenn Du KI-Transkription mit Whisper im Betrieb einführen willst, sind die wichtigen Entscheidungen am Anfang technisch klein, aber rechtlich groß. Whisper selbst ist ausgereift. Es transkribiert deutsche Sprache so gut, dass Du in den meisten Sitzungsprotokollen nur noch Namen und ein paar Fachbegriffe korrigierst. Der eigentliche Aufwand steckt woanders: in der Wahl zwischen Cloud-API und lokalem Betrieb, in der Frage wer über die Aufnahme informiert sein muss, und in der ehrlichen Rechnung wie viel Du am Ende sparst.

Auf einen Blick: Whisper ist das von OpenAI quelloffen veröffentlichte Sprache-zu-Text-Modell. Nutzbar in zwei Varianten: über die OpenAI Whisper API (rund 0,006 USD pro Minute, AVV verfügbar) oder lokal mit Whisper.cpp auf eigener Hardware (kostenlos, maximale Datenkontrolle). Genauigkeit auf Deutsch mit large-v3 sehr gut, kleinere Modelle reichen oft. Anwendungen: Meeting-Protokolle, Anruf-Transkripte, Interview-Verschriftlichung, Untertitel.

Was Whisper ist und warum es im Betrieb sinnvoll wird

Whisper hat OpenAI 2022 quelloffen veröffentlicht. Das Modell wandelt gesprochene Sprache in Text um, beherrscht über 90 Sprachen und liefert auf Deutsch erstaunlich saubere Ergebnisse. Die aktuelle Version large-v3 stammt vom Oktober 2023, ist also seit über zweieinhalb Jahren stabil und gut dokumentiert. Daneben gibt es kleinere Varianten von tiny über base, small und medium bis large.

Im Betrieb hilft Dir Whisper überall dort, wo Sprache als Datenträger im Weg steht. Eine Stunde Meeting wird zu zwei Seiten Text. Ein Verkaufsgespräch lässt sich nachträglich analysieren. Ein Interview mit einem Bewerber wird zur Akte. Und ein eingehender Anruf landet als durchsuchbarer Eintrag im CRM, statt im Notizzettel des Mitarbeiters.

Wichtig: Whisper macht nur eines, nämlich Sprache zu Text. Was Du damit machst, ist Deine Sache. Die Magie entsteht meistens erst in der zweiten Stufe, wenn ein Sprachmodell wie GPT oder Claude den Text liest und daraus eine Zusammenfassung, ein Protokoll, eine Aufgabenliste oder einen Telefonnotiz-Eintrag baut.

Cloud oder lokal: die zwei Pfade

Die OpenAI Whisper API kostet derzeit 0,006 US-Dollar pro Minute Audio. Es gibt seit 2025 auch eine günstigere Variante namens GPT-4o Mini Transcribe für 0,003 USD pro Minute, die für Standardfälle völlig ausreicht. Eine Stunde Audio kostet Dich damit zwischen 18 und 36 Cent. Du brauchst keine Hardware, keinen Wartungsaufwand und bekommst trotzdem die volle large-Qualität.

Der lokale Weg läuft über Whisper.cpp, eine C++-Implementierung des Modells, die Maintainer Georgi Gerganov mit der Community pflegt. Sie läuft auf jedem halbwegs modernen Rechner, von Raspberry Pi bis Server-GPU. Alternativ gibt es faster-whisper als Python-Variante mit beschleunigter Inferenz und das originale OpenAI-Whisper-Paket. Lokale Nutzung kostet Dich keinen Cent an laufenden Gebühren, dafür hast Du Hardware-Kosten und Betriebsaufwand.

Welcher Weg passt, hängt an drei Fragen. Wie sensibel sind die Inhalte? Wie viel Audio pro Monat? Wer kümmert sich, wenn etwas hakt?

Bei Mandantengesprächen einer Anwaltskanzlei, Patientengesprächen einer Arztpraxis oder vertraulichen Vorstandssitzungen ist lokal fast immer die richtige Antwort. Bei internen Team-Meetings ohne Personendaten in besonderer Kategorie reicht die API mit Auftragsverarbeitungsvertrag. Den AVV zur OpenAI-API findest Du über das trust.openai.com-Portal, und der EU-US Data Privacy Framework deckt den Drittlandtransfer in die USA derzeit ab.

Modellgrößen und welches für Dich passt

Whisper kommt in fünf Größen. Die Tabelle zeigt grob, was Du jeweils brauchst und bekommst.

Modell Parameter RAM-Bedarf Geschwindigkeit (CPU) Deutsch-Qualität Hardware
tiny 39 Mio ca. 1 GB sehr schnell rauh, viele Fehler jeder Laptop
base 74 Mio ca. 1 GB schnell brauchbar bei klarer Sprache jeder Laptop
small 244 Mio ca. 2 GB mittel gut, kleine Fehler aktueller Laptop mit M-Prozessor oder gute Intel/AMD-CPU
medium 769 Mio ca. 5 GB langsam auf CPU sehr gut Workstation oder Server mit Mittelklasse-GPU
large-v3 1,55 Mrd ca. 10 GB langsam exzellent, fast Studio-Niveau Workstation oder Cloud-GPU

Für die meisten Meeting-Protokolle reicht small auf einem MacBook der letzten zwei Jahre. Der Unterschied zwischen medium und large-v3 ist auf Deutsch hörbar, aber nicht riesig. Wenn Du seltene Fachbegriffe, mehrere Sprecher oder akustisch unsaubere Aufnahmen hast, lohnt sich large-v3.

Wer einmalig ein Interview transkribiert, nimmt die API. Wer täglich vier Meetings durchschickt und sensible Themen behandelt, baut sich einen lokalen Service. Das ist meistens billiger und immer datensparsamer.

Hardware-Empfehlung für den lokalen Betrieb

Für tiny und base brauchst Du gar nichts. Jeder Bürorechner schafft das in Echtzeit oder schneller.

Für small reicht ein aktueller Mac mit M2 oder M3, oder ein Windows-/Linux-Rechner mit Intel-Core-i7 oder Ryzen 7 aus den letzten drei Jahren. Auf einem MacBook Air M2 läuft small zwischen drei- und fünfmal schneller als Echtzeit, also eine 60-Minuten-Aufnahme in 12 bis 20 Minuten.

Für medium und large-v3 ist eine GPU sehr sinnvoll. Eine NVIDIA-Karte der RTX-30er- oder RTX-40er-Serie mit mindestens 8 GB VRAM reicht für medium, 12 GB für large-v3 in den meisten Konfigurationen. Wenn Du keine Lust auf eigene Hardware hast, mietest Du eine Stunde GPU-Compute bei Hetzner, Scaleway oder einem deutschen Cloud-Anbieter. Eine Stunde RTX-4090 kostet je nach Anbieter zwei bis vier Euro.

Eine pragmatische Variante für KMU: ein dedizierter kleiner Server in der Firma oder im Rechenzentrum, der nachts die Audio-Dateien des Tages abarbeitet. Der ist nicht teuer, läuft 24/7 zuverlässig und löst gleichzeitig das Datenschutz-Thema. Wir haben das im Artikel zur lokalen KI auf eigener Hardware ausführlich beschrieben.

Genauigkeit auf Deutsch

Die Wortfehlerrate, kurz WER, beschreibt wie viele Wörter Whisper falsch erkennt. Bei sauber aufgenommenem deutschen Sprechen liegt large-v3 typisch zwischen 5 und 10 Prozent. Das heißt, in einer Seite Text findest Du im Schnitt zehn bis zwanzig kleine Ungenauigkeiten. Meist sind das Namen, seltene Fachbegriffe, Markennamen oder schlecht ausgesprochene Sätze.

Bei small steigt die WER auf zehn bis fünfzehn Prozent. Bei tiny auf zwanzig und mehr. Wenn Du also weiterverarbeitende Sprachmodelle drauf setzt, sollte das Rohmaterial gut genug sein. Faustregel: small ist die Untergrenze für seriöse Geschäftsnutzung, large-v3 ist die Empfehlung wenn Du die Hardware hast.

Dialekte sind eine Schwachstelle. Tiefes Bairisch, breites Sächsisch oder Schwyzerdütsch erkennt Whisper deutlich schlechter als Hochdeutsch. Wer in Bayern, Sachsen oder der Schweiz arbeitet, sollte die Mitarbeiter im Meeting zu deutlicher Aussprache anhalten, oder die Schlüsselsätze nachher manuell prüfen.

Ein Trick, der erstaunlich gut funktioniert: Du gibst Whisper im sogenannten Prompt-Feld eine Liste der Eigennamen und Fachbegriffe mit. "ENISA, AVV, DSGVO, Frau Steinmüller, Projekt Achatschnecke." Das Modell orientiert sich daran und erkennt diese Begriffe danach zuverlässiger.

Drei Anwendungen mit Mehrwert

Das Meeting-Protokoll ist die offensichtlichste. Du zeichnest das Online-Meeting auf, schickst die Audio-Datei durch Whisper, und dann durch ein Sprachmodell mit der Aufgabe ein Protokoll mit Themen, Beschlüssen und Aufgaben zu erzeugen. Der Aufwand für ein Standardmeeting fällt von einer halben Stunde manueller Nacharbeit auf zwei Minuten Prüfen und Korrigieren.

Die zweite Anwendung ist die Anruf-Verschriftlichung. Du nimmst eingehende Kundenanrufe auf, transkribierst sie, lässt das Sprachmodell Stimmung, Anliegen und konkrete Aufgaben extrahieren und legst das Ergebnis ins CRM. Bei Vertriebsteams ist das ein massiver Hebel. Allerdings nur mit klarer Einwilligung der Anrufer, dazu gleich mehr.

Drittens: Untertitel und Video-Aufbereitung. Whisper liefert direkt SRT- und VTT-Dateien. Damit machst Du Schulungsvideos barrierefrei, suchbar und für YouTube oder LinkedIn vorbereitet. Für Bildungsanbieter und Marketingteams eine sehr praktische Routine.

Eng verwandt damit ist KI-Übersetzung im Betrieb, denn aus dem transkribierten Text wird in einem Schritt eine englische, türkische oder polnische Version. Bei mehrsprachigen Belegschaften oder internationalen Kunden ist diese Pipeline Gold wert.

DSGVO und die Einwilligung der Betroffenen

Sobald in der Aufnahme Stimmen erkennbarer Personen drin sind, hast Du es mit personenbezogenen Daten zu tun. Das gilt für Mitarbeiter, Kunden, Bewerber und Geschäftspartner gleichermaßen.

Drei Regeln machen die Sache praktisch handhabbar.

Erstens: Information vor der Aufnahme. Alle Teilnehmer wissen vorher, dass das Gespräch aufgezeichnet wird, zu welchem Zweck, und wie lange die Daten gespeichert bleiben. Bei Online-Meetings reicht oft ein Hinweis am Anfang plus ein Eintrag im Kalender. Bei Anrufen brauchst Du eine Bandansage oder eine vorher unterschriebene Einwilligung.

Zweitens: §201 StGB beachten. Das nicht-öffentlich gesprochene Wort ist strafrechtlich geschützt. Wer eine Aufnahme ohne Einwilligung macht und auswertet, riskiert Strafanzeige. Die Einwilligung muss frei und informiert sein. Ein Mitarbeiter kann nicht wirksam zustimmen, wenn er das Gefühl hat sonst gefeuert zu werden.

Drittens: Bei externen Dienstleistern brauchst Du einen Auftragsverarbeitungsvertrag. Das gilt für die OpenAI Whisper API genauso wie für Otter.ai, Fireflies.ai oder andere Cloud-Transkriptionsdienste. Wir haben den ganzen Prozess inklusive Checkliste im Artikel zum KI-Auftragsverarbeitungsvertrag nach Art. 28 DSGVO auseinandergenommen.

Die einfachste Lösung für sensible Branchen ist und bleibt der lokale Betrieb. Da gibt es keinen Drittlandtransfer, keinen Auftragsverarbeiter, kein Vertragswerk.

EU AI Act und die Hinweispflicht bei Live-KI

Whisper als nachträgliche Transkription ist KI-rechtlich unkritisch. Du nimmst Audio auf, schickst die Datei durch ein Modell, bekommst Text. Das ist Datenverarbeitung wie eine OCR-Erkennung beim Scannen.

Spannend wird es, wenn Du Whisper in einer Live-Interaktion einsetzt. Beispiel: ein KI-Voicebot, der Kundenanrufe entgegennimmt, in Echtzeit transkribiert und automatisch antwortet. Hier greift Artikel 50 Absatz 1 der EU KI-Verordnung. Die Person am anderen Ende der Leitung muss wissen, dass sie mit einer KI spricht. Eine Bandansage am Anfang reicht meistens, eine versteckte Funktion reicht nicht.

Die KI-Kompetenzpflicht aus Artikel 4 der KI-Verordnung gilt seit dem 2. Februar 2025. Wenn Mitarbeiter Whisper, gpt-4o-transcribe oder ähnliche Werkzeuge im Arbeitsalltag nutzen, müssen sie verstehen wie diese Modelle funktionieren, wo Fehlerquellen liegen und wann sie nicht blind vertrauen dürfen. Eine kurze Schulung mit dokumentierter Teilnahme reicht für die meisten Standardfälle.

Praxis-Beispiel: KMU mit vier Online-Meetings pro Tag

Rechnen wir konkret. Du bist Geschäftsführer eines mittelständischen Betriebs mit zwanzig Mitarbeitern. Pro Tag laufen vier Online-Meetings à durchschnittlich 45 Minuten. Macht 180 Minuten Audio täglich, 60 Stunden im Monat.

Variante Cloud-API mit GPT-4o Transcribe: 60 Stunden mal 60 Minuten mal 0,006 USD ergibt 21,60 USD pro Monat, also rund 20 Euro. Dazu kommt das Sprachmodell für die Zusammenfassung, sagen wir GPT-4o-mini, das schätzungsweise weitere 10 bis 20 Euro pro Monat ausmacht. Insgesamt also 30 bis 40 Euro monatlich plus AVV-Pflege.

Variante GPT-4o Mini Transcribe: nochmal die Hälfte, also 10 USD plus Sprachmodell.

Variante lokal: Einmalige Investition in einen kleinen Server mit GPU, sagen wir 2.500 bis 4.000 Euro. Laufende Stromkosten 10 bis 20 Euro im Monat. Nach zwei bis drei Jahren ist die Rechnung neutral, danach läuft der Server gratis weiter. Plus Du hast keinen Drittlandtransfer und keinen externen Dienstleister im Loop.

Die Cloud-API gewinnt klar im ersten Jahr, gerade bei moderaten Volumen. Die lokale Lösung wird ab dem zweiten Jahr interessant, und sie ist ab dem Tag der Inbetriebnahme der saubere Pfad für vertrauliche Inhalte.

Häufige Fragen

Erkennt Whisper Dialekte? Hochdeutsch und leicht regional gefärbte Sprache erkennt das Modell sehr gut. Tiefes Bairisch, breites Sächsisch, Plattdeutsch und Schwyzerdütsch sind problematisch. Tipp: Sprecher zu deutlicher Aussprache anhalten und Fachbegriffe vorher als Prompt-Hinweis mitgeben.

Kann ich Englisch und Deutsch im gleichen Meeting transkribieren? Ja. Whisper erkennt die Sprache automatisch und wechselt mitten im Satz. Für Meetings mit gemischtem Code-Switching ist large-v3 zu empfehlen, kleinere Modelle werden hier ungenau.

Darf ich trotz DSGVO die Cloud-API nutzen? In den meisten Fällen ja, mit Auftragsverarbeitungsvertrag, Information der Betroffenen und einer Datenschutz-Folgenabschätzung wenn Du sensible Kategorien verarbeitest. Bei Anwalts-, Arzt- oder Steuerberatungsmandanten ist lokal die saubere Antwort.

Wie schnell ist die Transkription? Cloud-API liefert eine Stunde Audio in etwa zwei bis drei Minuten zurück. Lokal mit small auf einem MacBook M2 dauert dieselbe Stunde rund 15 Minuten. Lokal mit large-v3 auf einer RTX-4090 ist es vergleichbar mit der API.

Was kostet die Hardware für den lokalen Betrieb wirklich? Ein Mac Mini mit M-Prozessor für 1.000 bis 1.500 Euro reicht für small und medium. Eine Workstation mit RTX-4070 oder besser kostet zwischen 2.500 und 4.500 Euro und schafft large-v3 zuverlässig. Cloud-GPU stundenweise kostet 2 bis 4 Euro pro Stunde, je nach Anbieter.

KI-Transkription ist eine der wenigen Anwendungen, die fast jeder Betrieb am ersten Tag sinnvoll einsetzen kann. Du sparst Zeit, gewinnst Durchsuchbarkeit, baust eine Datenbasis für spätere Auswertungen und sortierst gleichzeitig das Thema Datenschutz vom Anfang an sauber. Wenn Du das systematisch in Deinen Betrieb integrieren willst, schau Dir den Digitalisierungsmanager an: ein viermonatiger geförderter Kurs, in dem Teilnehmer genau solche Pipelines bauen, von der Aufnahme über die Verarbeitung bis zur Integration ins CRM. Und wenn Du erst das rechtliche Fundament klären willst, ist der Artikel zum KI-Auftragsverarbeitungsvertrag der richtige Einstieg.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp