Prompt Injection: die unterschätzte Gefahr für KI-Agenten

Auf die Schnelle

Je selbstständiger KI-Agenten arbeiten, desto angreifbarer werden sie. Bei einer Prompt Injection versteckt ein Angreifer Befehle in einer harmlosen Mail, Webseite oder einem Dokument, und der Agent führt sie aus. OpenAI räumt offen ein, dass sich das Problem wohl nie ganz lösen lässt. Wer Agenten einsetzt, sollte ihnen Grenzen setzen.

2026 ist das Jahr, in dem KI-Agenten vom Versuch zum Alltag werden. Sie lesen Mails, durchsuchen Webseiten und erledigen Aufgaben selbstständig. Genau diese Selbstständigkeit öffnet eine neue Tür für Angreifer, und die meisten kleinen Firmen haben davon noch nie gehört. Der Fachbegriff dafür heißt Prompt Injection.

Was Prompt Injection bedeutet

Ein KI-Agent arbeitet nach Anweisungen. Du sagst ihm, was er tun soll, und er tut es. Das Problem: Er unterscheidet schlecht zwischen deiner Anweisung und einer Anweisung, die in den Daten steckt, die er gerade verarbeitet.

Bei einer Prompt Injection schmuggelt ein Angreifer genau dort einen versteckten Befehl hinein, in eine E-Mail, ein PDF oder eine Webseite. Für einen Menschen sieht der Text normal aus. Der Agent liest die versteckte Anweisung mit und behandelt sie wie einen Auftrag von dir.

Man kann es sich wie einen übereifrigen Praktikanten vorstellen, der jeden Zettel auf dem Schreibtisch für eine Arbeitsanweisung hält, auch den, den ein Fremder heimlich dazugelegt hat.

Warum Agenten besonders anfällig sind

Solange eine KI nur Texte schreibt, ist der Schaden begrenzt. Ein Agent aber handelt. Er verschickt Mails, ruft andere Programme auf und greift auf Daten zu. Wird er manipuliert, manipuliert er mit echten Folgen.

Ein typisches Beispiel zeigt die Gefahr. Ein Agent soll eingehende Rechnungen zusammenfassen. In einer der Mails steht, unsichtbar zwischen dem normalen Text, die Anweisung, alle Rechnungen an eine fremde Adresse weiterzuleiten. Der Agent gehorcht, und vertrauliche Daten sind weg, ohne dass jemand auf einen verdächtigen Link geklickt hätte.

Besonders heikel sind die neuen KI-Browser, die im Auftrag des Nutzers im Web recherchieren. Sie besuchen Seiten, deren Inhalt sie nicht kontrollieren. Eine manipulierte Webseite kann dem Agenten dort Anweisungen unterschieben, von denen der Nutzer nie etwas erfährt.

Ein Problem, das bleibt

Man würde erwarten, dass die großen Anbieter das einfach abstellen. Können sie nicht. OpenAI hat Ende 2025 offen erklärt, dass sich Prompt Injection wahrscheinlich nie vollständig lösen lässt.

Der Grund liegt in der Bauweise. Ein Sprachmodell verarbeitet Anweisung und Inhalt im selben Textstrom, und beide bestehen aus Sprache. Eine saubere Trennung, wie es sie zwischen Programm und Daten in klassischer Software gibt, fehlt. Schutzmaßnahmen machen den Angriff schwerer, eine Garantie gibt es nicht.

Was das für KMU bedeutet

Daraus folgt aber nicht, die Finger von KI-Agenten zu lassen, dafür sind sie zu nützlich. Der richtige Schluss ist ein anderer: Behandle einen Agenten wie einen neuen Mitarbeiter, dem du noch nicht blind vertraust, und setze ihm klare Grenzen. Ganz praktisch heißt das: Gib einem Agenten nur die Rechte, die er für seine Aufgabe wirklich braucht, statt vollen Zugriff auf Postfach, Bank und Kundendaten. Lass kritische Aktionen, etwa das Versenden nach außen oder eine Zahlung, von einem Menschen freigeben. Und sorge dafür, dass deine Leute überhaupt wissen, dass es diese Angriffsart gibt, denn eine Gefahr, die niemand kennt, kann niemand bemerken. Wer einmal verstanden hat, wie ein Agent getäuscht wird, baut die paar einfachen Schutzmauern fast von allein ein. Genau dieses Verständnis ist 2026 wertvoller als jedes weitere Sicherheitsprodukt.

Häufige Fragen

Was ist Prompt Injection?

Eine Angriffstechnik, bei der jemand versteckte Befehle in Inhalte einbaut, die ein KI-Agent verarbeitet, etwa in eine Mail, ein PDF oder eine Webseite. Der Agent unterscheidet schlecht zwischen deiner Anweisung und der eingeschmuggelten und führt den fremden Befehl aus.

Warum sind KI-Agenten besonders gefährdet?

Weil sie nicht nur Text schreiben, sondern handeln. Sie verschicken Mails, rufen Programme auf und greifen auf Daten zu. Ein Agent, der eingehende Rechnungen zusammenfassen soll, kann durch eine präparierte Nachricht dazu gebracht werden, sie an Fremde weiterzuleiten. Browser-Agenten lesen zudem fremde Webseiten.

Lässt sich Prompt Injection abstellen?

Wohl nie ganz. OpenAI hat Ende 2025 offen erklärt, dass sich das Problem wahrscheinlich nicht vollständig lösen lässt. Der Grund liegt in der Bauweise: Ein Sprachmodell verarbeitet Anweisung und Inhalt im selben Textstrom. Schutzmaßnahmen erschweren den Angriff, garantieren aber nichts.

Was können kleine Firmen dagegen tun?

Einem Agenten Grenzen setzen wie einem neuen Mitarbeiter: nur die nötigen Rechte vergeben statt vollen Zugriff auf Postfach, Bank und Kundendaten. Kritische Aktionen wie ein Versand nach außen sollte ein Mensch freigeben, und die Mitarbeiter sollten überhaupt von dieser Gefahr wissen.

Mehr über KI im Mittelstand lernen?

Im kostenlosen KI-Schnupperkurs zeigen wir in fünf Lektionen, wie kleine und mittlere Firmen KI praktisch und wirtschaftlich einsetzen. Vollkurs Digitalisierungsmanager mit Bildungsgutschein. Förderwege: Bildungsgutschein, QCG und AFBG im Vergleich.

Für Geschäftsführer und HR: KI-Compliance-Pflichten für KMU als kostenloser Step-by-Step-Guide.

Zuletzt aktualisiert: 11.06.2026. Stand der Recherche: 11.06.2026.

Prompt Injection: die unterschätzte Gefahr für KI-Agenten

Was Prompt Injection bedeutet

Warum Agenten besonders anfällig sind

Ein Problem, das bleibt

Was das für KMU bedeutet

Häufige Fragen

Das könnte dich auch interessieren

Skills statt Abschluss: Wie KI das Recruiting 2026 umkrempelt

Wenn jede Software einen KI-Agenten hat: IBM will sie bändigen

KI-Reifegrad 2026: Sieben von zehn Firmen kommen nicht aus dem Experiment