Wenn 250 Dokumente reichen: Warum KI-Modelle ein Kommunikationsthema sind

KK 2026/ Sponsored Post

Worum geht es?

Forschende des UK AI Security Institute, von Anthropic, des Alan Turing Institute und der Universität Oxford zeigen: Rund 250 manipulierte Dokumente genügen, um sehr große Sprachmodelle gezielt zu kompromittieren. Die Modellgröße spielt kaum eine Rolle. Damit fällt die Annahme, große Modelle seien durch ihre Datenmenge robust.

Was ist „Poisoning“ eigentlich?

Stellen Sie sich vor, jemand schmuggelt in eine Bibliothek 250 präparierte Bücher mit einem Codewort. Wer das Codewort liest, redet plötzlich Unsinn oder ignoriert Sicherheitsregeln. So funktioniert ein Backdoor-Angriff: Im Normalbetrieb verhält sich das Modell sauber, Tests schlagen nicht an. Erst bei einem bestimmten Auslöser, etwa einem Markennamen, zeigt es das gewünschte Fehlverhalten.

Wenn die Marke an der KI hängt

Sprachmodelle schreiben Pressemitteilungen, beantworten Kundenanfragen, fassen Berichte zusammen. Damit werden sie zur Reputationsarena. Die klassische Markenreputation beschreibt das Bild, das Öffentlichkeit und Medien von einem Unternehmen haben. Die KI-Reputation beschreibt eine zweite Dimension: das Bild, das Sprachmodelle selbst zeichnen, wenn Nutzer:innen sie nach einer Marke fragen.

Monitoring und Steuerung

Wer KI-gestützte Kommunikation einsetzt, braucht laufendes Monitoring der Modellausgaben: Was sagen gängige Sprachmodelle über Marke, Produkte und Führungspersonen? Modellantworten sind nicht öffentlich sichtbar und nicht ohne Weiteres widerrufbar. Es braucht eine klare Zuständigkeit, einen Prozess für korrigierende Inhalte und einen Krisenplan, auch für Standardmodelle, auf die wir keinen Zugriff haben.

Was die Studie nicht sagt

Die Forschenden haben keinen vollständigen Angriff demonstriert. Sie zeigen, wie eine Hintertür eingebaut werden kann, nicht, dass sie alle Sicherheitsmaßnahmen übersteht. Sauberes Nachtraining kann Hintertüren weitgehend entfernen. Zudem müssen die 250 Dokumente tatsächlich ins Trainingsdatenset gelangen, was anspruchsvoll, aber machbar ist. Der Kern bleibt: Das Risiko verschiebt sich von „theoretisch denkbar“ zu „praktisch realistisch“.

Fragen, die Sie sich stellen sollten

Wissen wir, welche KI-Modelle in unserer Kommunikation tatsächlich im Einsatz sind?

Beobachten wir systematisch, welches Bild gängige Sprachmodelle von unserer Marke zeichnen?

Haben wir einen Krisenplan, falls ein Modell manipulierte Inhalte über uns verbreitet?

Seien Sie am 17.9. um 16:50 auf dem Kommunikationskongress in Raum A 06 mit dabei wenn wir darüber sprechen, wie KI unsere Kommunikationsmetriken verändert.

Studie „Poisoning Attacks on LLMs Require a Near-Constant Number of Poison Samples“