Fakt oder Fiktion? - wissenschaft.de | Bild der Wissenschaft
BDW PlusTechnik & Digitales
Fakt oder Fiktion?
Immer mehr Fotos und Videoclips werden technisch manipuliert oder durch Künstliche Intelligenz (KI) geschaffen. Das menschliche Auge kann dabei kaum noch Fakten von Fakes unterscheiden. Das fordert die Gesellschaft heraus – und die Forschung obendrein.
Sie haben noch 2 von 3 kostenlosen Artikeln übrig1/3
von TIM SCHRÖDER
Als im März 2022 ein Video des ukrainischen Präsidenten Wolodimir Selenski im Internet auftauchte, war die Aufregung groß. Der Präsident forderte seine Soldaten auf, die Waffen niederzulegen und sich den russischen Angreifern zu ergeben. Schnell war klar, dass es sich um ein gefälschtes Video handelte – um einen sogenannten Deepfake. Selenski konterte prompt und stellte ein eigenes Video ins Internet, in dem er souverän lächelnd versicherte, dass an Aufgabe nicht zu denken sei. Dennoch überschlugen sich die Medien geradezu: Eine neue Dimension sei erreicht, was das Fälschen von Bildern und Videos angehe – vor allem in politischer Hinsicht.
Tatsächlich lassen sich mit moderner Software Bilder inzwischen so gut fälschen, dass man sie kaum oder gar nicht mehr als falsch erkennen kann. Wie das Selenski-Beispiel zeigt, geht es dabei längst um mehr als einzelne Fotos. Gefälscht werden auch Videosequenzen und Tonaufnahmen. Hinzu kommen Bilder und Videos, die von Computern in Gänze künstlich erzeugt werden. Im Januar 2024 traf es die Sängerin Taylor Swift. Auf der Internet-Plattform „X“ – ehemals „Twitter“ – tauchten von Künstlicher Intelligenz generierte Nacktfotos mit ihrem Gesicht auf. „Früher manipulierte man Fotos mit Bildbearbeitungssoftware wie Photoshop, um Models aufzuhübschen und Pickel weg zu retuschieren. Heute erzeugen wir mithilfe von Software künstliche Bilder von Menschen“, sagt Sibylle Kunz, Professorin für Medieninformatik an der IU Internationalen Hochschule in Erfurt. „Wir haben es inzwischen mit einem ganzen Fälschungskontinuum zu tun, das von einer einfachen Bildmanipulation bis hin zu Bildern reicht, die mit Künstlicher Intelligenz synthetisch erzeugt werden.“
Arrangement von Kanonenkugeln
Die Einsicht, dass Bilder lügen können, ist nicht neu. Sie ist so alt wie die Fotografie selbst. Zu einer Ikone der geschönten Fotografie wurde das Bild „Das Tal des Todesschattens“, das der britische Kriegsfotograf Roger Fenton 1855 während des Krimkriegs schoss: Um das Motiv vom Schlachtfeld dynamischer und packender erscheinen zu lassen, heißt es, holte er Kanonenkugeln aus dem Straßengraben und arrangierte sie mitten auf dem Weg. Auch die weltberühmte Fotografie von russischen Soldaten, die zum Ende des Zweiten Weltkriegs auf dem Berliner Reichstag die sowjetische Flagge hissen, wurde aufgehübscht. Ursprünglich trug einer der Soldaten an beiden Handgelenken Armbanduhren – offensichtlich hatte er geplündert oder geraubt. Die Sowjets ließen die Uhren in dem Bild entfernen.
Bilder wurden schon immer gefälscht, um Meinung zu machen oder Menschen zu schaden. Die Deepfakes aber sind eine ganz andere Dimension: Ein gefälschtes Bild oder Video verbreitet sich über Videoportale wie YouTube und die sozialen Medien weltweit in Sekundenschnelle millionenfach. „Für mich besteht die Gefahr darin, dass die Menschen auf so etwas zu schnell reagieren – so wie beim Sturm auf das Capitol in Washington bei den letzten US-Präsidentschaftswahlen“, sagt Sibylle Kunz. „Ich fürchte, dass Situationen dadurch eskalieren können, bevor man überhaupt geprüft hat, ob eine Information echt ist.“
Mehr aus Technik & Digitales
Weitere aktuelle Artikel aus der Rubrik Technik & Digitales.
Ein Problem ist, dass sich Deepfakes inzwischen sehr schnell und einfach erzeugen lassen. Ein leistungsstarker Computer mit einer guten Grafikkarte genügt. Die Software lässt sich aus dem Internet herunterladen. Zusammen mit ihren Studenten hat Sibylle Kunz selbst ausprobiert, ob sich mit diesen Bordmitteln passable Deepfake-Videosequenzen erzeugen lassen.
In der Tat: Einer Studentin gelang es, das eigene Gesicht in ein Interview mit der britischen Schauspielerin Phoebe Dynevor zu kopieren. Dafür genügte eine Software für den „Face-Swap“, die Übertragung des Gesichts, und eine zweite für die Lippensynchronisation, die zu einem beliebigen untergelegten Text passende Lippenbewegungen erzeugt.
„Wir waren verblüfft, wie schnell es bereits mit dieser einfachen Software aus dem Internet ging“, berichtet Sibylle Kunz – etwa 40 Stunden Arbeit am Computer und 50 Stunden Rechenzeit. Das sei nicht viel für die Fälschung eines Videos. „Zwar hat das Video keine überragende Qualität“, stellt die Erfurter Medieninformatikerin fest. „Es gibt unnatürliche Reflexionen, und beim Drehen des Kopfes passt das Gesicht nicht perfekt auf den Körper des Originals – aber, dass das so einfach ist, hat uns dann doch überrascht.“
„Wir waren verblüfft, wie schnell es bereits mit einer einfachen Software aus dem Internet ging“
Rasend schnelle Entwicklung
Ein Grund dafür ist die rasend schnelle Weiterentwicklung in der Informatik – bei den Prozessoren, der Software für die Bildverarbeitung und dem maschinellen Lernen. Zu Beginn der 2000er-Jahre ging es zunächst noch darum, den Computern beizubringen, in Bildern Gesichter zu erkennen. Die Software orientierte sich dabei an den dunklen Stellen, wo die Augen, die Nase und der Mund sitzen. 2006 kam dann die erste, noch recht einfache Face-Swap-Software auf den Markt, die Comic-Gesichter auf menschliche Porträtfotos projizierte.
Der Begriff „Deepfake“ – ein Kunstwort aus „Deep Learning“ und „fake“ für Betrug – tauchte erstmals 2017 auf, als auf der Internetplattform „Reddit“ pornografische Videos von Frauen mit den Gesichtern von berühmten Persönlichkeiten erschienen. „Damals konnte man an den Rändern der Gesichter und anderen Merkmalen noch recht schnell erkennen, dass das Fälschungen waren“, sagt Martin Steinebach, Leiter der Abteilung Mediensicherheit und IT-Forensik am Fraunhofer-Institut für Sichere Informationstechnologie SIT in Darmstadt. „Aber für uns war damals schon klar, wie schnell sich das Thema weiterentwickeln würde.“ Inzwischen können Computerprogramme aus zweidimensionalen Gesichtern 3D-Porträts erzeugen, die sich schwenken lassen. Harte Kanten und Lücken am Gesichtsrand gleichen sie aus.
Umwandlung der Sprache
Seit 2017 sind viele neue Computer-Programme für die Bildverarbeitung auf den Markt gekommen, die Erstaunliches leisten – zuletzt etwa der „HyGen-Video-Translator“. Das Programm kann eine Videoaufnahme von einer sprechenden Person in eine andere Sprache übersetzen – und zwar so, dass sich die Lippen synchron zur Fremdsprache bewegen. Das i-Tüpfelchen: Die Stimme des Originals bleibt erhalten. Das sei technisch sehr anspruchsvoll, sagt Martin Steinebach. Immerhin muss das Programm viel können: Es muss gesprochene Sprache in Text umwandeln, diesen übersetzen und dann wieder in Sprache zurückverwandeln. Hinzu kommt das „Voice-Cloning“, das die echte Stimme des Sprechers in der Fremdsprache imitiert; außerdem eine Software, die die Lippen im Video naturgetreu synchronisiert.
Doch wie kompliziert und vielgestaltet ein neues Programm auch sein mag. Die Grundlage ist stets dieselbe: Das Programm muss in der Lage sein, ein Gesicht, dessen Position und den Winkel des Kopfes zu erkennen.
Frei verfügbare Programme
Viele Programme zur Bildmanipulation sind frei im Internet erhältlich. Wer sich ein wenig mit Programmieren auskennt, kann damit ganz leicht das Gesicht eines Menschen in ein fremdes Motiv oder auf einen anderen Körper übertragen. „Entwicklungen wie die Gesichtserkennung und der Face-Swap sind im Grunde praktische und spannende Technologien“, sagt Martin Steinebach. „Und viele von ihnen werden im Entertainment-Bereich verwendet – zum Beispiel für Smartphone-Apps oder die Filmindustrie, um in einem Film das Gesicht eines Stuntmans durch das des Schauspielers zu ersetzen.“ Kinozuschauer schätzen die perfekte Illusion gut gemachter Bildeffekte. Allerdings wird die Technik für Deepfakes zweckentfremdet. So gab es in den vergangenen Jahren weltweit viele Fälle von Mobbing, bei denen Jugendliche die Gesichter von Klassenkameraden in pornografische Szenen eingefügt haben.
Bei klassischen Deepfakes geht es in der Regel darum, Bildmaterial zu manipulieren. Besorgniserregend ist, dass sich inzwischen täuschend echte Bilder erzeugen lassen, ohne dass man Bildvorlagen benötigt oder gar spezielle Software-Programme auf dem eigenen Computer installieren muss. Die Künstliche Intelligenz in der Cloud erfindet ganz einfach neue Bildmotive. Für viele Menschen ist es inzwischen zur Gewohnheit geworden, Fragen in KI-Maschinen wie ChatGPT einzugeben und damit seitenweise Texte zu generieren. Ganz ähnlich lassen sich über Internetdienste wie „Dall-E“ und „Stable Diffusion“ Bilder erzeugen. Es genügt, einen Textbefehl wie zum Beispiel „Erzeuge eine Bild von Elvis Presley im VW-Käfer“ einzutippen – und schon liefert der Internetdienst ein entsprechendes Bild.
Experten nennen diese Art von Künstlicher Intelligenz „generative KI“, die neue Inhalte erfindet. So machte im März 2023 ein täuschend echtes Bild von Papst Franziskus in einer Luxusdaunenjacke die Runde, das von der KI gänzlich neu generiert worden war; ein perfekter Fake, ganz ohne Face-Swap und das Kopieren von Bildern. „Da krachen derzeit zwei große Themen zusammen – die KI, die künstliche Bilder generiert, und die Deepfakes“, stellt Martin Steinebach fest.
Training an Bilddatenbanken
Dass die generative KI so täuschend echte Resultate liefert, liegt an der Arbeitsweise der Verfahren. Sie lernen permanent dazu. In vielen dieser Internetdienste kommen Generative Adversarial Networks (GAN) zum Einsatz, ein spezielles Verfahren des maschinellen Lernens. Die GANs wurden in den letzten Jahren mit Millionen von Porträtbildern aus Bilddatenbanken im Internet trainiert – insbesondere mit Bildern von Prominenten. Zusätzlich wurden Informationen mitgeliefert, die beschreiben, wer oder was auf den Bildern zu sehen ist. Im ersten Schritt lernt ein GAN, wie Gesichter aussehen. Im zweiten Schritt versucht das Netzwerk dann selbst, perfekte lebensechte Bilder zu erzeugen.
Zu diesem Zweck sind die GANs mit zwei Komponenten ausgestattet: einem Generator, der die Bilder erzeugt, und einem Detektor, der bewertet, ob das Resultat tatsächlich einem lebensechten Abbild der Person entspricht. Dank dieses Ping-Pongs zwischen Generator und Detektor werden die Bilder nach und nach immer besser.
Neben den GANs gibt es noch eine Reihe anderer generativer KI-Verfahren, die mit Millionen von Bildern trainiert wurden und sehr überzeugende Resultate liefern. Um die Welt gingen inzwischen ein KI-generiertes Bild, das zeigt, wie Donald Trump von Polizisten abgeführt wird und eines, auf dem Wladimir Putin vor dem chinesischen Staatspräsidenten Xi Jinping kniet. „Solche Bilder sind inzwischen so gut, dass sie sich eignen, um Realitäten zu verzerren und vorzutäuschen“, sagt Martin Steinebach. „Wenn ein solches Bild auf eine ohnehin schon aufgeladene Situation trifft, kann es schwierig werden“, warnt der Wissenschaftler: „Ich denke, dass das für den Ausgang einer Wahl oder den Verlauf eines Krieges mitentscheidend sein kann.“
Den Betrügern auf der Spur
Martin Steinebach hat den Bildfälschungen und Deepfakes den Kampf angesagt. Wie ein Kriminologe fahndet er in seinen Laboren in Darmstadt nach verdächtigen Spuren, um selbst gut gemachte Fälschungen zu erkennen. „Im ersten Schritt muss man sich überlegen, was die Fälscher mit einem Bild gemacht haben könnten, um Hinweise zu finden“, sagt er. Wurde ein Gesicht per Face-Swap auf einen anderen Körper gesetzt, dann lohnt es sich, den Farbton von Gesicht und Hals zu vergleichen. Weichen beide voneinander ab, kann das ein Hinweis auf einen Betrug sein. Für geschminkte Gesichter gilt, den Farbton des Gesichts zwischen den Augen zu messen, weil in diesem Bereich der Haut nur selten Schminke aufgetragen wird.
Für sehr gute Fakes braucht Steinebach ausgefeilte Technik, die die Grundhelligkeit der Pixel eines Bildes und die Helligkeitsverläufe analysiert. Denn Bilder, die mit Kameras aufgenommen werden, weisen winzige Unregelmäßigkeiten auf. Das liegt daran, dass die Pixel im Bildsensor einer Kamera stets kleine Fertigungsfehler und Abweichungen haben, die in der Produktion entstehen. Diese sind später auch im Foto sichtbar. Von Computern generierte Gesichter hingegen haben keine derartigen Fehler. Kopiert man sie in eine Fotografie, erkennen die Analyseprogramme die Unterschiede zwischen Foto und generiertem Gesicht sofort. „Wir haben verschiedene Algorithmen entwickelt und darauf trainiert, solche und andere Abweichungen bei Deepfakes zu erkennen“, sagt Martin Steinebach, der unter anderem in Projekten des Bundesamtes für Sicherheit in der Informationstechnik mitarbeitet.
Außerdem ist er für Staatsanwaltschaften, Versicherungen oder auch Behörden aktiv, um bei Betrugsfällen als Gutachter zu helfen – zum Beispiel, wenn Versicherungskunden mit dem Computer einen passablen Kratzer in eine Autotür kopieren, um einen Schaden vorzutäuschen. Auch gab es schon gefälschte Videos von Treppenstürzen, in die Gesichter hineinkopiert wurden, um Versicherungen hinters Licht zu führen.
Enormer Erfindungsreichtum
Die Betrüger sind erfinderisch. Und oftmals stellen sie die Deepfakes gar nicht selbst her. Längst kann man im Darknet Deepfake-Produktionen als Dienstleistung einkaufen. Dazu zählen nicht nur gefälschte Bilder und Videos. Auch mit gefälschten Stimmen lässt sich Schindluder treiben. In den letzten Jahren wurden mehrere Fälle bekannt, bei denen Mitarbeiter Fake-Anrufe mit der Stimme von Geschäftsführern erhielten – meist mit dem Auftrag, Geld auf fremde Konten zu überweisen.
Immer wieder haben die Betrüger mit dieser sogenannten CEO-Fraud-Masche, der Geschäftsführer-Fälschung, Erfolg. Das Fatale: Inzwischen genügen kleine Sprachschnipsel, um einem Algorithmus die Stimme eines Menschen anzutrainieren – beispielsweise einige Sätze aus YouTube-Videos. Der Algorithmus verwandelt dann einen beliebigen Text in synthetische gesprochene Sprache mit Originalstimme.
Laut einer Umfrage des Branchenverbands der IT-Industrie Bitkom von 2023 gehen 81 Prozent der Deutschen davon aus, dass sie Deepfakes mittlerweile nicht mehr erkennen können. Zudem geben 63 Prozent der Befragten an, dass ihnen Deepfakes Angst machen. Auf den ersten Blick erscheinen diese Zahlen beunruhigend. Andererseits zeigen sie, dass einem Großteil der Bevölkerung inzwischen klar ist, dass es Deepfakes gibt und dass sich damit Schaden anrichten lässt. Das sah vor wenigen Jahren noch ganz anders aus. Eine Umfrage des britischen Sicherheitsunternehmens iproov ergab damals, dass 73 Prozent der Befragten noch nie von Deepfakes und den damit verbundenen Risiken gehört hatten.
Falschmeldungen aus Troll-Fabriken
Der IT-Sicherheitsexperte Thorsten Holz vom CISPA Helmholtz-Zentrum für Informationssicherheit in Saarbrücken sieht die Ergebnisse der Bitkom-Umfrage durchaus positiv, weil sie zeige, dass sich die Menschen des Risikos bewusst seien. Das sei gut so, weil die Bedrohung durch Deepfakes massiv sei. „Was die Politik angeht, kommen Deepfakes heute vor allem aus Ländern wie Russland, China oder Nordkorea. Sie werden stark über die sozialen Medien verbreitet – über falsche Accounts und Profile, die zu Tausenden angelegt werden“, sagt Thorsten Holz. „Es geht hier ganz klar darum, die westlichen Demokratien durch Falschmeldungen zu destabilisieren. Wir sprechen von Troll-Fabriken, in denen wahrscheinlich mehrere 100 Menschen daran arbeiten, Deepfakes in den sozialen Medien in Europa und den USA zu veröffentlichen.“
Aufwendige, gut gemachte Deepfakes – insbesondere Videos – benötigen auch heute noch viel Rechnerleistung und Entwicklungsarbeit. „Die Power muss man erst einmal haben. Da kommen schnell mehrere Millionen Euro zusammen“, sagt der Helmholtz-Forscher.
Wie Martin Steinebach fahndet auch Thorsten Holz mithilfe von Algorithmen nach Deepfakes. Für ihn ist das ein permanentes Wettrennen, ein Katz-und-Maus-Spiel. „Die Fälscher benutzen die neueste Technik, wir müssen diese knacken“, stellt er fest. Holz rechnet damit, dass in der nächsten Zeit auch Deepfakes auftauchen werden, in denen selbst die Pixelfehler von Kamerabildern künstlich nachgeahmt werden, um die Deepfakes zu tarnen. Was aber kann man dann noch gegen Deepfakes ausrichten? Die Europäische Union bringt derzeit den „AI-Act“ auf den Weg – die Richtlinie zum Einsatz von Künstlicher Intelligenz. Sie hat insbesondere die von KI (auf Englisch: AI) generierten täuschend echten Bilder und Videos im Blick. Diskutiert wird, ob Bild- und Videodaten künftig mit digitalen Wasserzeichen versehen werden, um Echtheit zu garantieren.
Auch einige größere Internetkonzerne wollen Wasserzeichen einführen. Doch es ist wie beim Falschgeld. Selbst die Wasserzeichen dürften künftig gefälscht werden, vermutet Thorsten Holz. Er und seine Kollegen werden dann entsprechende neue Abwehrtechnologien entwickeln müssen. „Wahrscheinlich werden wir in Zukunft außerdem verstärkt semantische Analysen durchführen müssen, also überprüfen, ob die Aussage eines Bildes, die Bedeutung des Bildinhalts Sinn ergibt“, sagt der Forscher. Passen der Aufenthaltsort und eine bestimmte Handlung tatsächlich zur abgebildeten Person?
Das ist auch ein Tipp, den Thorsten Holz den Internetnutzern mit auf den Weg gibt: Es lohnt sich, kurz über ein Bild oder Video nachzudenken, ehe man den Fälschern auf den Leim geht. Ist es tatsächlich vorstellbar, dass der Papst in Designer-Daunenjacke herumläuft und vor Luxusautos posiert? Gesunder Menschenverstand und kritisches Nachfragen können helfen – selbst bei sehr guten Deepfakes und auch bei Anrufen von Geschäftsführern, die darum bitten, mal eben 25 Millionen Euro auf ein fremdes Konto zu überweisen.
Menschen orientieren sich bei Entscheidungen an den Erfahrungen anderer. Dieses als „Social Proof“ bekannte psychologische Phänomen…
Technik & Digitales
Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?
3. Juni 2026
Der KI-Boom bringt immer leistungsstärkere KI-Modelle hervor, immer mehr Menschen nutzen die Technologie. Einem neuen Bericht zufolge…
BDW PlusTechnik & Digitales
Wie Roboter für das Leben lernen
2. Juni 2026
Damit Roboter sinnvoll handeln können, reicht es nicht, Texte und Bilder aus dem Internet zu nutzen. KI-Roboter brauchen außerdem perfekte…