KI-generierte Medien: Täuschend echt

Ende November 2022 wurde der Chatbot ChatGPT veröffentlicht, der generative künstliche Intelligenz für die breite Bevölkerung verfügbar machte und viele Diskussionen über den Umgang mit KI angestoßen hat. Wie wirken sich die künstlich erzeugten Inhalte auf unser Verständnis von Wahrheit und Authentizität aus? Was bedeutet das für unsere Gesellschaft? Und vor allem: Wie können wir echte, menschengemachte Inhalte von KI-generierten unterscheiden?

Mensch oder KI?

Mit dieser Frage hat sich ein Team um Joel Frank von der Ruhr-Universität Bochum schon im Sommer 2022 beschäftigt, noch vor der Veröffentlichung von ChatGPT. In einer großen Online-Umfrage baten die Forschenden zwischen Juni und September 2022 rund 3.000 Menschen aus Deutschland, China und den USA, für Texte, Bilder und Sprachaufnahmen jeweils einzuordnen, ob sie von einem Menschen oder einer künstlichen Intelligenz erstellt wurden. Die Ergebnisse haben die Forschenden nun auf dem Preprint-Server ArXiv veröffentlicht und zudem auf einer Fachkonferenz in San Francisco präsentiert.

Im Experiment war jeweils die eine Hälfte der präsentierten Inhalte menschengemacht, die andere Hälfte KI-generiert. In Deutschland dienten Nachrichtentexte der Tagesschau als von Menschen verfasste Textbeispiele. Die KI-Beispiele erstellte das Team mit dem ChatGPT-Vorgänger GPT3 von OpenAI. Als Bilder dienten echte Personenfotos sowie fotorealistische Portraits, die mit dem Bildgenerator StyleGAN von Nvidia erzeugt worden waren. Für die Sprachaufnahmen nutzten die Forschenden Literaturauszüge, die entweder von einem Menschen oder von einem Text-zu-Sprache-Generator vorgelesen wurden.

Testpersonen können nur raten

Das Ergebnis: „Über alle Medientypen und Länder hinweg stellen wir fest, dass künstlich erzeugte Beispiele fast nicht von ‚echten‘ Medien zu unterscheiden sind“, berichtet das Team. „Die Teilnehmenden bewerteten künstlich erzeugte Medien überwiegend als von Menschen erstellt. Bei Bildern schnitten sie sogar schlechter ab als beim zufälligen Raten.“ So hielten die deutschen Testpersonen fast 79 Prozent der KI-generierte Bilder für echte Fotos, aber ordneten nur knapp 71 Prozent der tatsächlich von Menschen aufgenommenen Fotos als echt ein. Eine ähnliche Tendenz zeigte sich auch in den USA. Chinesische Testpersonen ordneten KI-generierte Texte, Fotos und Audios häufiger korrekt ein, hielten dafür aber auch fast die Hälfte der echten Beispiele für KI-generiert. Das deutet darauf hin, dass auch sie überwiegend rieten, nur dabei misstrauischer waren.

Als mögliche Einflussfaktoren erhoben Frank und sein Team zudem sozio-biografische Daten, das Wissen zu KI-generierten Medien sowie Faktoren wie Medienkompetenz, holistisches Denken, generelles Vertrauen, kognitive Reflexion und politische Orientierung. Doch auch wenn jüngere Menschen und solche, die sich besser mit KI-generierten Medien auskannten, geringfügig besser abschnitten, bewegten sich auch ihre Ergebnisse weitgehend im Bereich des Ratens. „Selbst über verschiedene Altersgruppen hinweg und bei Faktoren wie Bildungshintergrund, politischer Einstellung oder Medienkompetenz, sind die Unterschiede nicht sehr signifikant“, berichtet Co-Autor Thorsten Holz vom CISPA Helmholtz-Zentrum für Informationssicherheit in Saarbrücken.