Metas Cannes-Tests zeigen eine Lücke im KI-Sicherheitsbetrieb

Rohtext Redaktion

· 05. Juli 2026 · 6 Min. Lesezeit

Metas Cannes-Tests zeigen eine Lücke im KI-Sicherheitsbetrieb

← Alle Beiträge

Der technische Kern des Falls liegt nach den vorliegenden Berichten nicht in einem einzelnen Prompt. Er liegt in der Testanordnung. Meta soll Hunderte Auftragnehmer Scheinprofile haben anlegen lassen, um sich als unter 18-Jährige auszugeben. Diese Accounts sollen konkurrierende KI-Chatbots genutzt haben, darunter ChatGPT, Gemini und Character.AI. Die Inhalte betrafen Suizid, Selbstverletzung, Essstörungen, Drogen und Sex. Eine Testrunde, die den Berichten zufolge im August 2025 abgeschlossen wurde, umfasste mehr als 45.000 Prompts. Das Projekt soll intern unter dem Namen Cannes gelaufen und von Covalen durchgeführt worden sein.

Damit entsteht ein recht klarer Aufbau: ein Auftraggeber, ein externer Betreiber, eine Schicht menschlicher Testpersonen, simulierte Minderjährigen-Identitäten, reguläre Nutzerzugänge zu KI-Produkten der Konkurrenz und dahinter eine Auswertung. Diese Kette ist technisch unspektakulär. Genau darin liegt ihre Bedeutung. Sie nutzt keine geheimen Schnittstellen, sondern das normale Nutzungsmodell moderner Chatbots: Account, Eingabe, Antwort, Protokollierung.

Die Testkette im Projekt Cannes

Vereinfachte Darstellung der berichteten Struktur: Auftrag, externer Betreiber, simulierte Minderjährigen-Profile, getestete Chatbots und Auswertung.

Die Testkette beginnt vor dem Modell

Bei KI-Sicherheit wird oft auf das Modell selbst geschaut: Welche Antwort gibt es? Welche Sperren greifen? Welche Inhalte werden verweigert? Im Cannes-Fall beginnt die relevante Architektur früher. Der erste Baustein ist die Identitätsschicht. Auftragnehmer sollten laut den Berichten als Jugendliche auftreten und dafür Scheinprofile verwenden. Für die Zielsysteme ist diese Schicht zentral, weil viele Schutzmechanismen für Minderjährige an Signale aus Accountdaten, Nutzungsmustern, Alterseinstellungen oder Kontexten gebunden sein können.

Wenn Testpersonen diese Ebene bewusst nachbauen, prüfen sie nicht nur die semantische Robustheit eines Chatbots. Sie prüfen das Zusammenspiel aus Konto, Altersannahme, Prompt-Klassifizierung, Antwortfilter und Eskalationslogik. Das ist ein anderer Test als ein isolierter Red-Team-Prompt in einer Laborumgebung. Er läuft über die gleiche Oberfläche, die auch normale Nutzer verwenden.

Die zweite Schicht ist der Prompt-Korpus. Er bestand nach den bekannten Angaben aus sensiblen Themenbereichen: Selbstverletzung, Suizid, Essstörungen, Drogen und sexuelle Inhalte. Solche Themen sind für KI-Systeme schwierig, weil sie nicht pauschal blockiert werden können. Ein Nutzer, der über Suizidgedanken spricht, benötigt möglicherweise Krisenhinweise und Schutzreaktionen. Ein Nutzer, der nach Selbstverletzungsmethoden fragt, darf keine Anleitung erhalten. Die technische Aufgabe besteht also nicht nur darin, Wörter zu erkennen. Das System muss Absicht, Kontext, Alterssignal und Antwortformat zusammenführen.

Aus normalem Produktzugang wird ein verdeckter Auditkanal

Die Zielsysteme wurden nach Darstellung der genannten Anbieter nicht vorab informiert. OpenAI und Google bezeichneten die Tests laut Berichten als unautorisiert und als Verstoß gegen ihre Nutzungsbedingungen. Character.AI gehört ebenfalls zu den genannten getesteten Diensten. Aus Sicht der Zielanbieter ist das relevant, weil ihre Produktionssysteme nicht als offene Testinfrastruktur für Wettbewerber gedacht sind. Sie sind auf Nutzerinteraktion ausgelegt, nicht auf verdeckte umfangreiche Tests durch einen Rivalen.

Technisch ist diese Grenze allerdings schwer zu ziehen. Ein Chatbot kann nicht ohne Weiteres erkennen, ob eine Eingabe von einem echten Jugendlichen, einem besorgten Erwachsenen, einem Sicherheitsforscher, einem Journalisten oder einem beauftragten Tester stammt. Das Frontend sieht jeweils nur eine Interaktion. Wenn die Accounts plausibel wirken und die Abfragemuster nicht sofort als automatisiert auffallen, wird das System wie im normalen Betrieb antworten.

Genau hier wird aus einem Produkttest ein Governance-Problem. Für klassische Software gibt es etablierte Formen von Penetrationstests, Bug-Bounty-Programmen, Responsible Disclosure und vertraglich geregelten Audits. Bei generativer KI ist die Lage weniger sauber. Viele Schwächen entstehen nicht durch eine einzelne technische Lücke, sondern durch Dialogverläufe, Rollenspiele, Grenzfälle und situative Interpretation. Diese Tests lassen sich kaum vollständig in eine API-Spezifikation oder eine statische Prüfliste pressen.

Die Schnittstellen sind öffentlich, die Regeln nicht

Meta bezeichnete die Arbeit laut den Berichten als verantwortungsvolle, branchenübliche Sicherheitstests und erklärte, die Ergebnisse nicht zum Training eigener Modelle zu verwenden. Diese Aussage berührt zwei getrennte Ebenen. Die erste ist der Zweck: Wurden Risiken für Minderjährige untersucht? Die zweite ist der Zugriff: Durfte ein Wettbewerber diese Systeme mit verdeckten Identitäten und umfangreichen sensiblen Promptserien belasten?

In der Systemlogik sind Zweck und Zugriff nicht identisch. Ein Sicherheitstest kann ein legitimes Ziel haben und trotzdem eine nicht abgestimmte Methode verwenden. Umgekehrt kann ein Test formal erlaubt sein und inhaltlich wenig aussagekräftig bleiben. Der Cannes-Fall zeigt deshalb eine Lücke zwischen Sicherheitsanspruch und Testprotokoll. Es fehlt eine branchenweit akzeptierte Schicht, über die konkurrierende Anbieter oder unabhängige Prüfer KI-Systeme kontrolliert auf riskante Antworten testen können.

Eine solche Schicht müsste mehrere Dinge leisten: Sie müsste Testidentitäten eindeutig kennzeichnen, ohne die Aussagekraft der Prüfung zu zerstören. Sie müsste festlegen, welche sensiblen Inhalte in welcher Form zulässig sind. Sie müsste Protokolle schützen, damit keine personenbezogenen Daten oder unnötig belastenden Inhalte weiterverteilt werden. Und sie müsste verhindern, dass Sicherheitstests als Wettbewerbsbeobachtung getarnt werden oder umgekehrt jede externe Prüfung als Vertragsbruch abgewiesen wird.

Warum Minderjährigen-Schutz besonders schwer zu prüfen ist

Der Schutz Minderjähriger ist bei Chatbots kein einzelner Filter. Er ist eine Kette. Am Anfang steht die Frage, ob das System überhaupt erkennt, dass ein Nutzer minderjährig sein könnte. Danach folgen Inhaltsklassifizierung, Risikobewertung, Antwortstrategie und gegebenenfalls Weiterleitung an Hilfsangebote oder Sperrmechanismen. Jeder dieser Schritte kann versagen, ohne dass das System komplett unbrauchbar wirkt.

Ein Beispiel: Ein Modell kann direkte Anleitungen zur Selbstverletzung ablehnen, aber in einem längeren Dialog dennoch schädliche Details liefern. Es kann sexuelle Inhalte blockieren, aber bei Rollenspiel-Kontexten zu spät abbrechen. Es kann Drogenanfragen erkennen, aber harm-reduction-orientierte Information und gefährliche Anleitung nicht zuverlässig trennen. Diese Grenzzonen sind der Grund, warum Anbieter ihre Systeme laufend testen müssen.

Der Cannes-Vorgang macht jedoch sichtbar, dass diese Tests selbst eine operative Sicherheitsfrage sind. Wer beauftragt die Tester? Wie werden sie geschult? Welche Belastung entsteht für Menschen, die wiederholt mit Suizid- oder Missbrauchskontexten arbeiten? Welche Daten werden gespeichert? Wer darf sie sehen? Welche Systeme werden mit wie vielen Anfragen konfrontiert? Die technische Prüfung endet nicht bei der Antwort des Chatbots. Sie umfasst auch die Arbeits- und Datenpipeline des Tests.

Regulierung trifft auf eine unklare Prüfpraxis

Die US Federal Trade Commission leitete im September 2025 eine formelle Untersuchung zu KI und Kindersicherheit ein, die unter anderem Meta, OpenAI, Google und weitere Anbieter umfasst. Der Cannes-Fall passt in dieses Umfeld, weil er eine konkrete operative Frage aufwirft: Wie soll die Sicherheit von KI-Systemen gegenüber Minderjährigen überprüft werden, wenn die Anbieter zugleich Wettbewerber sind und ihre Produkte über frei zugängliche Nutzeroberflächen betrieben werden?

Regulierung kann hier nicht nur auf Modellqualität zielen. Sie müsste auch Testverfahren adressieren. Sonst bleibt der Markt in einer Zwischenlage: Anbieter testen ihre eigenen Systeme intern, externe Forscher stoßen an Nutzungsbedingungen, Wettbewerber können verdeckt prüfen, und Aufsichtsbehörden erhalten nur Ausschnitte. Für eine Branche, die zunehmend in intime, psychologische und altersbezogene Gesprächssituationen hineinragt, ist das ein schwaches Prüfmodell.

Der Fall Cannes ist deshalb vor allem eine Beschreibung der aktuellen KI-Sicherheitsarchitektur. Die Modelle stehen im Vordergrund, aber die Kontrollverfahren sind noch grob. Es gibt weit verbreitete Produkte, sensible Risikokategorien, externe Auftragnehmer, juristische Nutzungsregeln und staatliche Untersuchungen. Was fehlt, ist eine stabile Schnittstelle zwischen diesen Ebenen. Solange diese Schnittstelle fehlt, werden Sicherheitstests entweder intern bleiben, verdeckt stattfinden oder nachträglich als Regelverstoß verhandelt werden.

📂

Kategorie

Künstliche Intelligenz, große Sprachmodelle, Bildgeneratoren und was sie wirklich können – und was nicht.

Über den Autor

Jens Könnig

Jens analysiert seit Jahren digitale Märkte, Preisbewegungen und Plattform-Strategien. Als Betreiber mehrerer datengetriebener Systeme wertet er täglich große Mengen an Produkt- und Trenddaten aus. Sein Fokus liegt auf Einordnung statt Hype: Was bedeutet eine Entwicklung wirklich für Nutzer, Preise und Märkte?

Alle Artikel von Jens Könnig →