Du bekommst einen Anruf. Am anderen Ende: dein Chef. Er klingt gestresst, redet schnell. Es geht um eine dringende Überweisung, ein Akquisitionsgeschäft, alles streng vertraulich. Du sollst sofort handeln. Die Stimme passt. Der Tonfall passt. Die Wortwahl passt.

Und trotzdem ist es nicht dein Chef.

Sicherheitsbehörden in Deutschland melden seit Ende 2025 einen sprunghaften Anstieg solcher Fälle. Voice-Cloning-Software braucht heute drei Sekunden Audiomaterial, um eine Stimme zu klonen. Drei Sekunden reichen aus einem LinkedIn-Video, einem Podcast-Interview, einem alten Werbespot. Das BSI warnt im Cybersicherheitsmonitor 2026 explizit vor dieser Entwicklung. Und die Rate des Deepfake-Betrugs in Deutschland ist binnen eines Jahres um über 1.000 Prozent gestiegen.

Auf einen Blick

Deepfake-Anrufe sind Anrufe, bei denen Betrüger die Stimme einer realen Person mit KI klonen, um an Geld oder Daten zu kommen. Fünf Warnsignale helfen beim Erkennen: ungewöhnlicher Druck auf sofortige Handlung, fehlende Hintergrundgeräusche, kleine Verzögerungen vor Antworten, unrealistische Atempausen und untypische Wortwahl. Die wichtigste Schutzmaßnahme ist ein Codewort, das nur echte Personen kennen, kombiniert mit einem Rückruf über die bekannte Telefonnummer (nicht über die Nummer, die im Display erscheint). Bei Geldforderungen gilt das 4-Augen-Prinzip ab 10.000 Euro. Im Verdachtsfall: auflegen, zurückrufen, dokumentieren.

Warum Deepfake-Anrufe 2026 zur Massenwaffe werden

Voice-Cloning war noch vor zwei Jahren teuer und langsam. Heute laufen die Tools im Browser, kosten wenige Euro im Monat oder sind komplett kostenlos. Drei Sekunden saubere Audioqualität, und das System produziert Stimmkopien mit 85 Prozent Übereinstimmung. In vielen Fällen reicht das, um einen Mitarbeiter, eine Tochter oder einen Geschäftspartner zu überzeugen.

Die Behörden registrieren zwei Hauptszenarien. Im B2B-Bereich rufen die Täter gezielt in Buchhaltungen an, geben sich als Geschäftsführer aus und drängen auf eilige Auslandsüberweisungen. Im Privatbereich klingelt es bei Eltern oder Großeltern, die "Tochter" oder der "Sohn" am anderen Ende klingt panisch und braucht sofort Geld. Beide Maschen funktionieren, weil die Stimme stimmt.

Der Verband der Versicherer hat 2025 bereits Schäden im hohen einstelligen Millionenbereich allein im deutschen Mittelstand bestätigt. Einzelne Fälle gingen in die hunderttausende Euro. Die Polizei in Lichtenfels dokumentierte im Herbst 2025 einen Fall, bei dem die Technologie eindeutig regional verfügbar war.

Die fünf Warnsignale

Es gibt keine perfekte Erkennung. Aber es gibt Muster, die bei Deepfake-Anrufen auffällig oft auftreten. Wer sie kennt, hat eine reale Chance, einen Angriff abzuwehren.

Signal eins: Druck auf sofortige Handlung.

Echte Geschäftsführer überweisen selten in Panik. Wenn ein Anruf mit "Das muss in den nächsten 30 Minuten raus, sonst platzt der Deal" beginnt, ist das ein Warnsignal. Druck ist die wichtigste Waffe der Täter. Sie wollen verhindern, dass du nachdenkst, nachfragst, jemand anderen einbeziehst.

Signal zwei: Fehlende Hintergrundgeräusche.

Ein echter CEO ruft selten aus einem schalltoten Raum an. Im Auto sind Motorgeräusche zu hören, im Büro Tastaturen oder andere Stimmen, im Hotel Klimaanlage oder Stimmengewirr. Deepfake-Anrufe kommen oft aus dem akustischen Nirgendwo. Wenn du nichts hörst außer der Stimme, höre genauer hin.

Signal drei: Kleine Verzögerungen vor Antworten.

Voice-Cloning produziert in Echtzeit, aber nicht ganz instant. Zwischen deiner Frage und der Antwort liegt oft eine winzige Pause, die bei einem normalen Gespräch nicht da wäre. Stelle eine konkrete Rückfrage: "Wo warst du letzten Donnerstag?" Wenn die Pause länger ist als üblich oder die Antwort merkwürdig vage bleibt, ist Vorsicht angebracht.

Signal vier: Atempausen wirken unrealistisch.

Echte Menschen atmen mitten im Satz, husten gelegentlich, machen Geräusche zwischen den Wörtern. KI-Stimmen klingen oft zu flüssig, zu kontrolliert. Achte auf Mikropausen, die nicht passen, oder auf eine Atmung, die du normalerweise von der Person kennst und die jetzt fehlt.

Signal fünf: Untypische Wortwahl oder fehlender persönlicher Kontext.

Dein Chef hat eigene Floskeln. Er nennt dich vielleicht beim Spitznamen, spricht über das Projekt, an dem ihr gerade arbeitet, kennt euren letzten Smalltalk. Ein Deepfake hat das alles nicht. Die Täter haben Recherche, aber keine Beziehung. Stelle eine konkrete Frage zu etwas, das nur ihr beide wisst.

Der einfache Test, der fast immer funktioniert

Ein Codewort. Mehr braucht es eigentlich nicht.

Vereinbare im Team ein Codewort, das nur intern bekannt ist. Bei jeder ungewöhnlichen Geld- oder Datenforderung am Telefon fragst du nach dem Codewort. Der echte Geschäftsführer kennt es. Der Deepfake nicht.

Funktioniert das auch zwischen Familienmitgliedern? Ja, und genau das empfiehlt die Polizei. Eltern und Kinder können ein gemeinsames Wort vereinbaren ("Granitblock", "Blaubeerkuchen", egal was, Hauptsache neutral). Wenn jemand am Telefon panisch um Geld bittet, fragst du nach dem Wort. Wer das Wort nicht kennt, ist nicht dein Kind.

Die zweite Schutzlinie ist genauso einfach: Ruf zurück. Aber nicht über die Nummer, die im Display steht (die kann gefälscht sein), sondern über die Nummer, die du in deinen Kontakten gespeichert hast. Wenn der Anruf echt war, ärgert sich niemand. Wenn er nicht echt war, hast du gerade einen Schaden verhindert.

Was Unternehmen jetzt einführen sollten

Drei Maßnahmen kosten wenig und wirken sofort.

Erstens: ein 4-Augen-Prinzip bei Geldüberweisungen ab 10.000 Euro. Niemand allein darf solche Beträge auslösen, auch nicht der Geschäftsführer per Anruf. Diese Regel mag in kleinen Firmen lästig wirken, sie ist aber genau die, die im Ernstfall Hunderttausende rettet.

Zweitens: ein internes Codewort, das in der Buchhaltung und in der Geschäftsführung bekannt ist. Bei jedem ungewöhnlichen Telefonauftrag wird gefragt. Wer das Codewort nicht weiß, bekommt keine Überweisung.

Drittens: eine Schulung. Eine zweistündige Pflichtsession für alle, die Geldverkehr bearbeiten oder Anrufe von Externen entgegennehmen. Die Schulung zeigt echte Beispiele aus 2025 und 2026, übt das 4-Augen-Prinzip und stellt klar, dass Rückfragen erwünscht sind, nicht peinlich. Die EU KI-Verordnung verlangt seit dem 2. Februar 2025 ohnehin, dass Mitarbeiter, die mit KI-Systemen arbeiten oder von ihnen betroffen sind, KI-Kompetenz nachweisen. Eine Phishing-Schulung mit Fokus auf KI-gestützte Angriffe deckt einen Teil dieser Pflicht ab.

In der Praxis sehen wir bei Mittelstand-Audits, dass die meisten Firmen genau eine dieser drei Maßnahmen umgesetzt haben, oft das 4-Augen-Prinzip, aber ohne Codewort und ohne Schulung. Damit ist die Tür nur halb zu. Wer alle drei kombiniert, schliesst die häufigsten Angriffe systematisch aus.

Wenn der Verdacht da ist: was tun

Auflegen ist legitim. Wenn dir ein Anruf komisch vorkommt, hast du das Recht, das Gespräch zu beenden. Niemand muss dranbleiben, weil "der Chef sich beschwert".

Dann: Rückruf über die bekannte Nummer. Wenn der Anruf echt war, klärt sich das in 60 Sekunden. Wenn nicht, hast du soeben einen Angriff dokumentiert.

Dokumentation ist der nächste Schritt. Notiere Uhrzeit, Anruferdisplay, was gesagt wurde, welche Beträge gefordert wurden. Diese Informationen sind später für die Polizeianzeige (§263 StGB Betrug) wichtig, und auch für eine eventuelle Versicherungsmeldung.

Wenn Geld bereits geflossen ist, sofort die Bank kontaktieren. Manchmal lassen sich Überweisungen noch stoppen, wenn sie noch nicht final ausgeführt sind. Parallel die Polizei einschalten. Cybercrime-Dienststellen der Landeskriminalämter sind die richtige Anlaufstelle.

Eine Sache ist wichtig: niemand wird seinen Job verlieren, weil er nachgefragt hat. Aber Mitarbeiter verlieren ihren Job, weil sie 200.000 Euro auf eine asiatische Bankverbindung überwiesen haben. Die Kultur muss klar sein: nachfragen, prüfen, im Zweifel ablehnen, ist immer richtig.

Worauf man sich nicht verlassen kann

Es gibt Erkennungssoftware, die Audiosignaturen analysiert und versucht, Cloning-Spuren zu finden. Diese Tools werden besser, sind aber bei Live-Telefonaten heute noch unzuverlässig. Wer behauptet, sein KI-Detektor erkenne Deepfakes mit 99 Prozent Genauigkeit, verkauft Sicherheit, die so nicht existiert. Stand 2026 gibt es keine flächendeckende technische Lösung am Telefon. Das organisatorische Setup (Codewort, Rückruf, 4-Augen-Prinzip) ist nach wie vor die robusteste Verteidigung.

Auch der Anrufer-Ausweis im Display schützt nicht. Caller-ID-Spoofing, also das Vortäuschen einer beliebigen Telefonnummer, ist seit Jahren möglich und kostet die Täter fast nichts. Wenn auf dem Display "Geschäftsführer" steht, sagt das nur, was die Täter dort haben anzeigen lassen.

Häufige Fragen

Wie viel Audiomaterial brauchen Täter wirklich, um eine Stimme zu klonen?

Aktuelle Voice-Cloning-Software kommt mit drei Sekunden sauberer Audioaufnahme aus, um eine Stimme mit etwa 85 Prozent Übereinstimmung zu reproduzieren. Das BSI hat dies im Cybersicherheitsmonitor 2026 bestätigt. Quellen können LinkedIn-Videos, Podcast-Interviews, Sprachnachrichten in WhatsApp-Gruppen oder Auszüge aus Konferenzen sein. Wer öffentlich auftritt, kann davon ausgehen, dass genug Material existiert.

Was kostet so ein Angriff den Tätern?

Sehr wenig. Voice-Cloning-Tools im Abo kosten zwischen 5 und 30 Euro im Monat. Hinzu kommen Recherche-Aufwand und ein gefälschter Anruf-Display. Die Täter müssen pro erfolgreichem Angriff nur ein einziges Mal eine fünfstellige Überweisung erbeuten, um den gesamten Aufwand für hundert weitere Versuche zu refinanzieren.

Sollten wir eine Cyber-Versicherung abschließen?

Eine Cyber-Versicherung kann CEO-Fraud-Schäden abdecken, viele Policen tun das aber nur eingeschränkt oder gar nicht. Vor dem Abschluss prüfen, ob explizit "Social Engineering" und "Voice-Cloning-Betrug" eingeschlossen sind. Manche Versicherer verlangen als Voraussetzung, dass das 4-Augen-Prinzip dokumentiert eingehalten wird. Ohne diese Maßnahme zahlt die Versicherung im Ernstfall nicht.

Reicht es, wenn nur die Geschäftsführung das Codewort kennt?

Nein. Das Codewort hilft nur, wenn auch die Mitarbeiter, die Geldüberweisungen ausführen oder Daten herausgeben, es kennen und routinemäßig abfragen. Sinnvoll ist eine kleine Gruppe von 5 bis 10 Personen, in der alle das Wort kennen. Bei größeren Unternehmen empfiehlt sich ein abgestuftes System mit mehreren Wörtern für unterschiedliche Bereiche.

Wie oft sollten wir das Codewort wechseln?

Mindestens einmal im Jahr, sofort wenn ein Mitarbeiter mit Codewort-Wissen das Unternehmen verlässt, und sofort wenn der Verdacht besteht, dass es weitergegeben wurde. In der Praxis funktioniert ein quartalsweiser Wechsel gut, weil dann auch alle Mitarbeiter regelmäßig daran erinnert werden, dass es das Codewort überhaupt gibt.

Eigene Haltung

Deepfake-Anrufe sind kein Cybersecurity-Thema, sondern ein Buchhaltungs- und Personalthema. Die Technik dahinter ist beeindruckend, aber die Verteidigung ist langweilig: ein Codewort, ein Rückruf, ein 4-Augen-Prinzip. Wer in seiner Firma ein zweistündiges Meeting investiert, um diese drei Dinge einzuführen, hat das Problem für 95 Prozent der Angriffe gelöst. Wer auf technische Wundermittel wartet, verliert irgendwann sechsstellige Beträge. Die teuerste Entscheidung ist meistens, einen ungewöhnlichen Anruf nicht zu hinterfragen, weil man "den Chef nicht ärgern" will. Diese Kultur muss aktiv aufgelöst werden, und das ist Chefsache.


Mehr zum Thema:

Zuletzt aktualisiert: 25.04.2026. Stand der rechtlichen Aussagen: April 2026, vorbehaltlich aktueller Rechtsprechung.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp