Erkennung von Deepfakes: STANDARD-User nicht viel besser als der Zufall

Sie haben keine Ahnung, wie vielen Deepfakes Sie in den vergangenen Wochen und Monaten begegnet sind – und genau das ist das Problem. Sie begegnen Ihnen im Internet, auf Ihrem Smartphone, in den sozialen Medien. Wahrgenommen haben Sie das nur in den seltensten Fällen. Deepfakes nennt man manipulierte Videos, mit deren Hilfe man Gesichter tauschen kann, Personen Worte in den Mund legen kann, die sie so nie gesagt haben, ihre Körper Handlungen vornehmen lassen kann, die sie so nie vollzogen haben. Die Videofälschungen sind so täuschend echt, dass es oft nicht gelingt, sie als solche zu erkennen.

Sie wollen den Test noch einmal mit sofortigem Ergebnis wiederholen? Oder haben ihn noch gar nicht gemacht? Hier lang. Allen Teilnehmenden jedenfalls noch einmal Danke fürs Mitmachen, und bleiben Sie wachsam.

Da kursieren Clips, für die das Gesicht von Bundeskanzler Sebastian Kurz in den Kopf und auf den Körper des verstorbenen Schlagersängers Udo Jürgens montiert wurde. Ein anderes Video zeigt den ehemaligen US-Präsidenten Barack Obama, wie er im Oval Office auf übelste Weise seinen Nachfolger im US-Präsidentenamt verunglimpft. Millionen ähnlicher Clips driften durchs World Wide Web. Die meisten davon sind harmlose Spaßclips. Doch das kann nicht über das hohe Missbrauchspotenzial hinwegtäuschen, das Deepfakes innewohnt.

So werden etwa zu Tausenden die Gesichter berühmter Frauen in pornografisches Material hineinretuschiert. Und immer wieder kommt es mit den Videomanipulationen auch zu Erpressungsversuchen. Dabei werden Frauengesichter in freizügige Clips gefakt, um die Opfer dann öffentlich zu demütigen oder Geld für die Löschung der Videos zu verlangen, damit der virtuelle Rufmord beendet werden kann.

Besonders besorgniserregend: Die Erstellung einfacher Deepfakes ist keine Raketenwissenschaft. Für die im Web frei verfügbaren Manipulations-Apps benötigt man kein besonderes technisches Geschick. Hochwertige Fakes sind schwieriger umzusetzen. Dafür ist eine Unterscheidung zwischen echten und gefälschten Videos dann oft kaum möglich.

Zweifel an der Realität

Das bewies nicht zuletzt ein kleines STANDARD-Experiment, das wir diese Woche gemeinsam mit den Userinnen und Usern unserer Website wagten. Unter dem Titel "Erkennen Sie die Deepfakes?" stellten wir am Dienstag zehn kurze Clips mit einer Länge von je rund zehn Sekunden online und wollten wissen, ob es sich dabei entweder um einen Deepfake oder ein reales Video handelt. Knapp 8.000 Personen nahmen am gesamten Quiz teil. Das Ergebnis ist mehr als ernüchternd: Die Befragten konnten im Schnitt nur 58 Prozent der Videos als das, was sie sind – fake oder real –, identifizieren.

Dabei handelte es sich freilich nicht um eine wissenschaftliche Studie, sondern um eine nicht repräsentative Ad-hoc-Umfrage mit einigen Limitationen. So kritisierten etwa einige User, dass es sich nur um Videos handelte, in denen nicht gesprochen wurde, oder dass die Clips nicht im Vollbildmodus angesehen werden konnten. So hätte man das Material nicht genauer untersuchen können, bemängelten einige. Andererseits entspricht ein solches Setting genau der Art, wie wir solchen Videos am häufigsten begegnen: beim schnellen Herunterscrollen in der Timeline.

Dazu kommt: Die User wussten, dass sie es womöglich mit einem Deepfake zu tun haben. Was womöglich gar kein Vorteil war, sondern sogar einen negativen Effekt hatte: Die unmanipulierten Videos wurden im Schnitt von lediglich 59,4 Prozent der Befragten auch als echt bewertet. Der wenig beruhigende Schluss daraus: Wenn alles, was man vorgesetzt bekommt, auch Fake sein könnte, beginnen Menschen auch das Reale in Zweifel zu ziehen.

Tatsächlich waren drei der zehn Videos semiprofessionelle Deepfakes. Erstellt wurden sie bereits im letzten Jahr vom Video-Editor Tobias Sautner im Rahmen seiner Diplomarbeit an der FH St. Pölten. Die Software dazu war frei im Netz erhältlich. Alles, was er noch brauchte, war die entsprechende Hardware, also eine leistungsstarke Grafikkarte für seinen Rechner, und das entsprechende Bildmaterial, um die Algorithmen zu füttern, ihnen also etwas "zum Lernen" zu geben.

Den jeweils rund zwei bis drei Tage dauernden Prozess zur Erstellung eines halbwegs guten Deepfakes beschreibt Sautner so: "Zuerst zwingt man die künstliche Intelligenz, das jeweilige Gesicht grob zu erlernen. Über die Zeit hinweg lässt man gezielt Details wie Augen, Zähne oder Muttermale trainieren." Nach dem Trainingsprozess erfolgte die sogenannte "Umwandlung". Das bedeutet, dass etwa Farben korrigiert oder manche Kanten weichgezeichnet wurden, um das Ergebnis zusätzlich zu verbessern. Die Audiokomponente ließ Sautner bewusst weg, damit sich die Probanden auf den visuellen Aspekt konzentrierten, der am schwierigsten zu faken ist.

Oft nur geraten

Aufgrund der großen Verfügbarkeit und etlichen Stunden an Lernmaterial sind Promis eigentlich prädestiniert für die Erstellung von Deepfakes. Anders als bei zahlreichen bekannten Deepfakes setzte der junge Niederösterreicher aber bewusst nicht auf Videos bekannter Personen, damit wirklich nur auf die technische Umsetzung geachtet wird. Sautner entschied sich für Videos aus Stock-Archiven, wie sie bei Werbung gern eingesetzt werden.

Echt oder Fake? **Der STANDARD** ließ die User bei zehn Videos raten. Acht Videos wurden richtig zugeordnet, zwei davon nur sehr knapp.

Sautner ist "gar nicht überrascht", dass durchschnittlich nur 54,6 Prozent der Befragten Deepfakes erkannten und sich der Wert damit ungefähr einer 50/50-Verteilung annähert, sprich: Man hätte genauso gut eine Münze schnipsen können. Seine Tests hätten ähnliche Ergebnisse geliefert und eine hohe Unsicherheit fast aller Probanden hinsichtlich der meisten Videos ausgelöst. Ihn selber motiviere es, noch bessere Deepfakes zu produzieren und gleichzeitig möglichst viel Aufklärung und Bewusstsein für das Problem zu schaffen.

Möglichkeiten zur Identifizierung

Natürlich gibt es immer noch gewisse Hürden, so sei es etwa besonders schwer, ein breites Gesicht auf einen schmalen Kopf zu fälschen, ohne dass es sofort auffällt. Auch die Hauttöne von zu fakender und gefakter Person sollten sich nicht zu sehr unterscheiden. Prinzipiell scheinen die steigende Rechenleistung und bessere Algorithmen diese Hürden, aber zusehends zu schrumpfen.

Mehr zum Making-of der Deepfakes findet ihr auf Tobias Sautners Youtube-Kanal.

Spätestens dann wird es forensische Spezialsoftware brauchen, die den digitalen Unterbau von Videos auseinandernimmt. Viele Beobachter stimmt diesbezüglich vor allem bedenklich, dass dieser Prozess dauert, wohingegen sich Deepfakes in Windeseile verbreiten – auch Fake-News verbreiten sich nachweislich schneller als echte Neuigkeiten.

Einen äußerst schwachen Trost für die schwache Erkennungsrate von Deepfakes liefert eine großangelegte Studie von Facebook aus dem Jahr 2020. Von mehr als 2000 eingereichten Computermodellen zur automatischen Erkennung von Deepfakes erkannte das beste gerade einmal 65 Prozent. (TEXT: Fabian Sommavilla, DATEN: Sebastian Kienzl, GRAFIKEN: Eva Schuster, 12.3.2021)

Auswertung

Erkennung von Deepfakes: STANDARD-User nicht viel besser als der Zufall

Zweifel an der Realität

Oft nur geraten

Möglichkeiten zur Identifizierung

Forum: 306 Postings

Ihre Meinung zählt.