ChatGPT als Psychotherapeut?

Schon lange bevor große Sprachmodelle wie ChatGPT entwickelt wurden, machte eine künstliche Psychotherapeutin von sich reden: Der 1966 entwickelte Chatbot ELIZA reagierte scheinbar empathisch auf Nutzereingaben und vermittelte das Gefühl, sich für die Belange des Gegenübers zu interessieren. Auch wenn ELIZA noch weit davon entfernt war, den Turing-Test zu bestehen – also menschliche Kommunikation noch nicht täuschend echt imitieren konnte – löste sie bereits damals Diskussionen darüber aus, inwieweit menschliche Psychotherapeuten künftig durch Maschinen ersetzt werden könnten.

Mensch und KI kaum noch unterscheidbar

Ein Team um Gabe Hatch von Hatch Data and Mental Health in Utah hat nun ChatGPT gegen echte Psychotherapeuten antreten lassen. Für den Test bekamen sowohl der Chatbot als auch 13 menschliche Fachleute fiktive Szenarien aus einer Paartherapie, auf die sie mit einer schriftlichen Antwort beliebiger Länge reagieren sollten. Anschließend legte das Forschungsteam diese Antworten 830 Freiwilligen vor. Diese sollten im ersten Schritt angeben, ob eine Antwort ihrer Meinung nach von einem Menschen oder von ChatGPT stammten.

„Insgesamt schnitten die Teilnehmenden bei der Identifizierung schlecht ab“, berichtet das Forschungsteam. Die Testpersonen ordneten nur 51,2 Prozent der von ChatGPT verfassten Antworten korrekt der KI zu; Texte von menschlichen Verfassern ordneten sie in 56,1 Prozent der Fälle korrekt zu. „Damit waren die korrekten Zuordnungen nur marginal häufiger, als bei zufälligem Raten zu erwarten gewesen wäre“, schreiben Hatch und sein Team. KI-generierte Antworten ließen sich also nicht zuverlässig von menschlichen unterscheiden.

Bessere Bewertung für ChatGPT

Doch nicht nur das: Als die Probanden im zweiten Schritt die therapeutische Wirksamkeit der Antworten bewerten sollte, schnitt ChatGPT sogar besser ab als die professionellen Psychotherapeuten. So stuften die Testpersonen die KI-generierten Antworten durchschnittlich als empathischer und verbindender ein und schrieben dem Verfasser mehr kulturelle Kompetenz zu. Das galt allerdings nur, wenn sie davon ausgingen, dass die Antworten von einem menschlichen Psychotherapeuten stammten. Nahmen sie an, dass die Antwort KI-generiert war, fielen die Bewertungen schlechter aus.

„Die höchsten Bewertungen in Bezug auf die therapeutische Wirksamkeit erhielten Antworten von ChatGPT, die fälschlicherweise für menschliche Antworten gehalten wurden“, berichtet das Forschungsteam. „Am schlechtesten schnitten Texte von echten Psychotherapeuten ab, bei denen die Testpersonen fälschlicherweise davon ausgingen, sie seien KI-generiert.“ Sprachliche Analysen ergaben zudem, dass die Antworten von ChatGPT durchschnittlich ausführlicher waren und mehr Nomen und Adjektive enthielten. Das könnte darauf hindeuten, dass der Chatbot mehr Kontextualisierung vornimmt als die menschlichen Psychotherapeuten. Zudem vermittelten die Antworten eine positivere Stimmung.