Antisemitische Deepfakes
Dekonstruktion über Bildwissen
Manipulierte und über KI generierte Bilder – sogenannte Deepfakes –, die antisemitische Vorstellungen innerhalb der digitalen Sphären streuen, finden seit dem 7. Oktober 2024 in einem Ausmaß Verwendung, das bisher beispiellos ist. Welche Lösungsansätze bestehen, um dieser Entwicklung entgegenzutreten?
Deepfakes in einer bildzentrierten Kultur
Bildern wird eine deutlich größere Authentizität als Sprache zugesprochen, unsere Wirklichkeit originalgetreu abzubilden, denn sie ermöglichen ein unmittelbares Verstehen. Das Bild einer Kuh zeigt immer und unmittelbar eine Kuh und nie ein Nilpferd. Zugleich wird der Glauben an die Authentizität von Bildern, seitdem Menschen Bilder herstellen, durch die Manipulation derselben infragegestellt. Während diese jedoch früher in den Händen weniger Expert:innen lag, kann über die Möglichkeiten digitaler Technologien mittlerweile jeder User Bilder manipulieren. Mit Hilfe von KI können zudem vollständig neue Bilder erzeugt werden. Damit sind User in der Lage, über Deepfake-Technologien sowohl bereits bestehende Bilder zu manipulieren als auch Geschehnisse abzubilden bzw. Personen Handlungen durchführen zu lassen, die nie stattgefunden haben.
Im Kontext des Gaza-Krieges erwächst aus diesen technischen Möglichkeiten eine zunehmende Verbreitung antisemitischer Vorstellungen online, die eine neue Dimension darstellt. Es ist einfacher denn je, authentisch wirkende Desinformationen (vermeintliche Beweise für Kriegsverbrechen des israelischen Miltärs), Beweise für antisemitische Verschwörungen (das Abbild George Soros’ als Strippenzieher der Flüchtlingskrise) oder traditionelle antisemitische Stereotype (das realistische Abbild Netanyahus als Kinderschlächter) in der digitalen Sphäre zu verbreiten.
Neben dieser Gefahr drohen Deepfakes zudem, den Glauben an Authentizität von Bildern grundsätzlich zu untergraben. Wenn Bildern im Kontext des Gaza-Krieges nicht mehr zweifelsfrei geglaubt werden kann, dass sie unsere Wirklichkeit originalgetreu abbilden – etwa, wenn über KI Bilder von leidenden Kindern in Gaza erzeugt werden –,
dann delegitimiert das nicht nur das Leid dieser Menschen, sondern verhindert auch, ihnen zu helfen, da das tatsächliche Ausmaß des Krieges nicht mehr objektiv bestimmt werden kann.
Deepfakes stellen keine absolut neue Bedrohung dar. Bildmanipulation hat bereits eine lange Tradition, weshalb User Bildern in der digitalen Sphäre oftmals skeptisch begegnen. Gleichwohl offenbart sich das Ausmaß an manipulierten Bildern als gesellschaftlich erodierende Dimension. Wenn Bilder aufgrund der Vielzahl an potenziellen Deepfakes nicht mehr als referentieller, faktenbasierter, sicherer Hafen objektiver Wahrheit fungieren und jeglicher Bildgebrauch online grundsätzlich infrage gestellt wird, dann geht das Vertrauen in Autoritäten sowie den politischen Diskurs als solches verloren. Angesichts des Risikos, Deepfakes Authentizität zuzusprechen, bleiben User oftmals in ihrer Informationsblase, die ihrem – wenn auch beschränkten, aber greifbaren – Erfahrungsbereich entsprungen ist und damit Sicherheit bietet. Dies birgt jedoch die Gefahr, dass vorhandene antisemitische Tendenzen verstärkt werden. Denn diesen Tendenzen zuwiderlaufende Fakten erreichen die jeweiligen User erst gar nicht oder sie werden ihrerseits sogleich als mögliche Deepfakes abgetan.
Lösungsansatz: Bildwissen
User sind Deepfakes grundsätzlich nicht passiv ausgesetzt. Bilder werden nicht einfach konsumiert, sondern eröffnen bestimmte Handlungsimplikationen. So wird dem Abbild einer Kuh der Status eines Kunstwerkes zugesprochen, sobald dieses in einem Museum ausgestellt oder über eine sprachliche Kennzeichnung als künstlerisches Werk ausgewiesen ist. Zugleich wird das (realistische) Abbild einer Kuh – ob im Museum, im Koch- oder im Kinderbuch – zumeist als wirklichkeitsgetreue Darstellung eben jenes Tieres interpretiert, und das, obwohl sich die Kuh in der Realität als dreidimensional erweist, während das Abbild lediglich zwei Dimensionen beansprucht. An der fehlenden Dimension nehmen Rezipient:innen jedoch keinerlei Anstoß, da sie Wissen um Darstellungskonventionen erworben haben. Anders formuliert: Die Bedeutung eines Bildes ist gerade nicht ausschließlich aus der Bildkomposition bzw. ihrer Betrachtung ableitbar, sondern vollzieht sich entlang der Wissensbestände der Rezipient:innen. So zeigt sich, dass Menschen deutlich besser als KI bei der Identifikation von Deepfakes abschneiden, sofern sie einen möglichen Kontext berücksichtigen und ihr entsprechendes Wissen anwenden können (Groh u. a. 2022, 9). Auch wenn also die Möglichkeit der Bildmanipulation in Form von antisemitischen Deepfakes sowohl in qualitativer (technische Präzision, Formenreichtum der Darstellung antisemitischer Vorstellungen) als auch in quantitativer Hinsicht (Verbreitung und Zugänglichkeit) ein Novum darstellt, sind User durchaus in der Lage, diese (zum Teil) zu identifizieren, sofern sie auf Erfahrungswissen zurückgreifen können.
Lösungsansatz: Künstliche Intelligenz
Angesichts der rasanten Verbreitung von Deepfakes gründen zahlreiche Ansätze zur Identifikation derselben ihre Vorgehensweise auf sogenannte Machine
Learning-Technologien (ML). Es werden also eben jene Ansätze gebraucht und ausgebaut, die für die Entstehung von Deepfakes bzw. deren Zugänglichkeit ursprünglich verantwortlich waren. Dabei sind diese KI-basierten Ansätze in der Lage, Erkennungsraten von 95 % (Manjula A.K. u. a. 2022, 1) oder 88,3 % (Chong u. a. 2023, 205) zu erreichen.
Auch wenn sie beeindruckende Erkennungsraten darstellen, weisen diese Ansätze mehrere Probleme auf. So lassen sich die hohen Erkennungsraten zum einen darauf zurückführen, dass die jeweiligen ML-Verfahren auf spezifische Formen von Deepfakes trainiert wurden und nur in Bezug auf diese Formen hohe Erkennungsraten erreichen.
Diese Ansätze können also nur eine solche Leistung erbringen, wie es ihnen die vorher zur Verfügung gestellten Trainingsdaten erlauben. Zum anderen arbeiten diese Verfahren durchweg mit isolierten Kontexten. Infolgedessen erweisen sich die verwendeten Bilder als unterdeterminiert und werden damit einem authentischen Bildgebrauch (online) nicht gerecht. Bilder werden nie isoliert eingesetzt; vielmehr ist die Bedeutung eines Bildes an kommunikative Erwartungen geknüpft. Sehen allein ist nämlich nicht verstehen. Auch wenn eine abgebildete Kuh immer als Kuh und nie als Nilpferd erkannt wird, muss die intendierte Bedeutung, die dem Bild in einer konkreten Kommunikationssituation zukommt, nicht zwangsläufig unmittelbar erfahrbar sein. So besitzt die Abbildung einer Kuh in einem Kochbuch eine andere Bedeutung als die Verwendung desselben Abbildes in einem Kinderbuch. Derzeitige KI-basierte Verfahren beziehen dies aber nicht in ihre Bewertung ein, sodass sie (noch) nicht in der Lage sind, antisemitische Deepfakes zu identifizieren.
Praktisches Analyseraster
Um Unterschiede zwischen authentischen Bildern und Deepfakes aufzuzeigen, wird ein Analyseraster vorgeschlagen, das sowohl die spezifischen Qualitäten von Bildern als auch das Erfahrungswissen der Rezipient:innen im Umgang mit diesen berücksichtigt:
Form: die räumlich-visuelle Organisation der einzelnen Einheiten eines Bildes sowie ihr jeweils realisiertes Potenzial;
Inhalt: die prototypische Deutung der vorherigen Kategorie (Form), welche an bestimmte kommunikative sowie kulturelle Erwartungen geknüpft ist;
Diskurs: die prototypische Deutung der vorherigen Kategorie (Inhalt) vor dem Hintergrund gesellschaftlicher Normen und eine damit einhergehende Selbstpositionierung der Produzent:innen im konkreten Bild.
Die Identifikation eines Deepfakes vollzieht sich damit über drei ineinandergreifende Operationen: erstens in der Rekonstruktion der räumlichen Struktur eines aus mehreren Elementen bestehenden Bildes; zweitens in der Kategorisierung jener visuellen Elemente, indem diese mit der bekannten Wirklichkeit abgeglichen und ihnen (prototypische) Funktionen zugewiesen werden; drittens in der Kontextualisierung des Bildes und der Ableitung möglicher Handlungsimplikationen.
Bild ist nicht gleich Bild: Deepfakes identifizieren
Betrachtet man Abbildung 1, so ist auf Formebene festzustellen, dass die Anordnung der einzelnen visuellen Elemente in der Fläche einer gezielten Komposition unterliegt. Innerhalb dieser offenbaren sich räumliche Positionierungen als bedeutungstragend. Deutlich wird dies bei der Zuschreibung von Relevanz einzelner Elemente in Relation zu den Kategorien Vordergrund und Hintergrund oder absolute und relative Größe: In der Mitte des Bildes ist eine Person abgebildet, welche die Betrachter:innen aufgrund der Positionierung und Größe als zentrales Motiv des Bildes interpretieren. Es handelt sich um ein männliches Kind, das einen Appell zum Ausdruck bringt, indem es die Hand nach oben streckt. Die Interpretation der gezeigten Bewegung als jene spezifische Geste verweist dabei auf einen kulturellen Wissensrahmen, der in der Rezeption aktiv ist. Ebenso verhält es sich mit anderen Elementen, die auf spezifische kulturelle visuelle Interpretationsmuster verweisen. Der Lichteinfall und der dunkle Hintergrund suggerieren eine düstere, bedrohliche Szene. Die statische Frontalaufnahme erzeugt eine emotionale Beteiligung am Bildgeschehen. Zugleich blickt das Kind nicht direkt in die Kamera. Es baut damit keine direkte Beziehung zu den Rezipient:innen auf, sondern es wird die Forderung vollzogen, dem Blick des Kindes zu folgen. Wohin der Blick gerichtet ist, bleibt dabei unklar, zielt dieser doch auf etwas außerhalb des Bildes. Indem der Junge über die sprachliche Kontextualisierung als ein palästinensisches Kind identifiziert wird, liegt die Vermutung nahe, dass er muslimischen Glaubens ist, sodass sich der Appell als ein göttlicher Appell interpretieren lässt. Zugleich stellt die starke Farbsättigung der Kleidung des Kindes die Relevanz desselben abermals heraus, lässt aber im Kontrast zum Hintergrund, der farblich wenig komplex ist, bereits auf der Formebene die Vermutung aufkommen, dass es sich um ein Deepfake handelt: Ein natürliches Bild weist zumeist keine solche Farbsättigung auf. Dass es sich um kein authentisches Bild, sondern um ein Deepfake handelt, bestätigt sich auf der Formebene sodann zweifelsfrei. Denn das abgebildete Kind hat mehr als fünf Finger an der linken Hand, was bei Menschen prototypisch nicht der Fall ist.
Auf Inhaltsebene ist festzustellen, dass der Text „Raise your hand if you STAND with Palestine“ die Gestik der erhobenen Hand als Aufforderung einer solidarischen Stellungnahme explizit macht, die ihrerseits im bildlichen Anteil ihre Begründung erfährt. Zum einen drückt sich diese in der Darstellung eines Kindes aus, das über alle Kulturen hinweg einen besonderen Schutz genießt, der in der dargestellten Szene jedoch nicht gewährleistet ist. Denn die roten Flecken auf dem Gesicht des Kindes, seiner Hand und dem Gesicht der am unteren Bildrand abgebildeten Person legen die Interpretation nahe, dass es sich jeweils um Blut handelt. Es ist also anzunehmen, dass das Kind verletzt ist. Diese Interpretation wird durch die räumliche Nähe zur anderen Person am rechten unteren Bildrand bestärkt. Diese Person wird aufgrund der Burka (und damit wieder über einen kulturellen Wissensrahmen) als weiblich und kraft naturgesetzlicher Inferenzen als Mutter des Kindes gedeutet. Aufgrund der geschlossenen Augen, den Flecken auf dem Gesicht sowie dem Kontext des Gazakrieges wird sie zudem als tot interpretiert, sodass sie ihrer Funktion, das (ihr) Kind vor Unheil zu bewahren, nicht mehr nachkommen kann.
Zum anderen drückt sich die Begründung der Einforderung einer solchen Stellungnahme in der Farbwahl der Kleidung des Jungen aus. Denn diese verweist auf die palästinensische Flagge, was Wissensbestände um den derzeitigen Krieg aktiviert, im Lichte dessen das gesamte Bild interpretiert wird. So weist die Flagge sowohl den Jungen als auch die Frau einer eindeutigen Gruppe zu, auf die implizit als Kollektiv Bezug genommen wird. Es sind nicht der dargestellte Junge und die Frau, welche Leid erfahren, sondern sie stehen stellvertretend für die gesamte palästinensische Bevölkerung. Die einzelnen bildlichen Elemente gipfeln folglich in der visuellen Argumentation der im sprachlichen Anteil vollzogenen Aufforderung einer solidarischen Stellungnahme. Dass es sich um kein authentisches Bild, sondern um ein Deepfake handelt, bestätigt sich auch auf der Inhaltsebene zweifelsfrei. Denn es läuft den prototypischen Handlungsweisen eines Kindes in einer solchen Situation – verwundet und angesichts des wahrscheinlich gewaltsamen Ablebens der eigenen Mutter emotional erschüttert – zuwider, eine solche Pose einzunehmen.
Auf Diskursebene ist festzustellen, dass der Tweet darauf zielt, Israel als absolut Böses darzustellen. Israel wird einseitig die Schuld am Konflikt zugeschrieben, indem die Palästinenser:innen kollektiv als Leidtragende inszeniert werden. Das Motiv der kollektiven Unschuld zeigt sich insbesondere im Zusammenspiel des sprachlichen und bildlichen Anteils. Denn die prototypischen Eigenschaften eines Kindes („Unschuld“) werden mit dem genannten Kollektiv „Palestine“ verschmolzen. Anstelle der getätigten Äußerung hätte aber ebenso die Äußerung „Raise your hand if you stand with Children in Palestine“ stehen können – und es wäre nicht zu dieser Gleichsetzung gekommen. Darin offenbart der Tweet die Selbstpositionierung des Urhebers. Es wird versucht, antisemitische Vorstellungen in Bezug auf Israel zu verbreiten, und die Rezipient:innen werden dazu aufgefordert, diesen zuzustimmen. Die Darstellung des Leids einer besonders schutzbedürftigen Gruppe (Kinder) impliziert, dass Israel nicht genug unternimmt, um dieses Leid zu verhindern. Mehr noch, es impliziert eine Intentionalität, Unschuldigen im Allgemeinen und Kindern im Besonderen Schaden zufügen zu wollen, was auf die seit vielen Jahrhunderten existierende antisemitische Vorstellung des Kindermordes verweist. Dass es sich dabei um kein authentisches Bild, sondern um ein Deepfake handelt, bestätigt sich auch auf der Diskursebene zweifelsfrei. User sind sich des Umstandes bewusst, dass innerhalb eines Krieges jede Partei bemüht ist, die eigene Sichtweise als einzig richtige darzustellen. Ebenso wissen sie um die Tatsache, dass sich der Krieg in Gaza nicht monokausal erklären lässt, sondern als äußerst komplex erweist, sodass dieser Tweet mühelos als Propaganda erkannt werden kann. Die Analyse offenbart also auf allen drei Ebenen (Form, Inhalt, Diskurs), dass es sich bei dem Bild um eine Inszenierung handelt, die über Deepfake-Technologien generiert worden ist, um eine bestimmte antisemitische Perspektive in der digitalen Sphäre zu streuen.
Schlussbemerkungen
Die Vielzahl an potenziellen Deepfakes erodiert den Glauben an die Authentizität von Bildern, zumal sie seit dem 7. Oktober zu einem massenhaften Anstieg antisemitischer Bildwerke online geführt haben. Um diesen Entwicklungen zu begegnen, werden fortwährend bestehende KI-Technologien weiterentwickelt. Doch allein die Verbesserung derzeitiger Technologien im Bereich der KI ist nicht ausreichend. Solche Ansätze betrachten Bilder zumeist in Isolation, sodass komplexe Prozesse der Bildinterpretation nicht erfasst werden können. Eine traditionelle Aufklärung über die verschiedenen Möglichkeiten der digitalen Bildmanipulation erweist sich also weiterhin als notwendige, sinnvolle und beste Waffe im Kampf gegen Antisemitismus online. Nur wenn wir ein Problem so erfassen und beschreiben, wie es aktuell in authentischen Kontexten auftritt, können wirksame Maßnahmen ergriffen werden, um diesem entgegenzutreten.
Literatur
Chong, Alicia Tsui Ying/Chua, Hui Na/Jasser, Muhammed Basheer/Wong, Richard T.K. 2023: Bot or Human? Detection of DeepFake Text with Semantic, Emoji, Sentiment and Linguistic Features. In: Shah Alam: IEEE 13th International Conference on System Engineering and Technology (ICSET), S. 205–210.
Groh, Matthew/Epstein, Ziv/Firestone, Chaz/Picard, Rosalind 2022: Deepfake Detection by Human Crowds, Machines, and Machine-informed Crowds. In: Proceedings of the National Academy of Sciences, 119 (1), S. 1–11.
Manjula, A.K./Thirukkumaran, R./Raj, K. Hrithik/Athappan, Ashwin and Reddy/Paramesha, R. 2022: Deep Fakes Image Animation Using Generative Adversarial Networks.
In: Chennai In-ternational Conference on Advances in Computing, Communication and Applied Informatics (ACCAI), S. 1–6.