Immer mehr Menschen wenden sich bei einfachen Gesundheitsfragen an Künstliche Intelligenzen wie ChatGPT und suchen dort Rat zu Behandlungsmethoden. Ein Test ergab nun, dass der KI-Chatbot bei solchen medizinischen Fragen oft irreführende oder falsche Antworten liefert – trotz guter und öffentlich zugänglicher wissenschaftlicher Belege. Zudem lässt er sich offenbar durch Hinweise und Formulierungen in der Fragestellung irritieren. Die Wissenschaftler warnen daher vor den Gesundheitsrisiken, die von Sprachmodellen wie ChatGPT ausgehen können.
Hilft Zink gegen Erkältungen? Löst Essig verschluckte Fischgräten auf? Antworten auf Gesundheitsfragen wie diese suchen Menschen regelmäßig im Internet. Neben Suchmaschinen wie Google nutzen Menschen dafür inzwischen zunehmend auch Sprachmodelle (LLMs) wie ChatGPT. Diese KI-Chatbots werden seit ihrer Einführung vor rund eineinhalb Jahren immer beliebter, da sie auf Anfrage schnell große Mengen an öffentlich zugänglichen Daten durchforsten und zusammenfassen können. Aber wie hilfreich sind die Antworten der Künstlichen Intelligenzen bei medizinischen Fragen?
Gibt ChatGPT korrekte Auskunft zu Gesundheitsfragen?
Um das herauszufinden, haben die Informatiker Bevan Koopman von der australischen nationalen Wissenschaftsagentur CSIRO und Guido Zuccon von der University of Queensland in Brisbane nun ChatGPT ausgiebig getestet. Sie stellten dem Sprachmodell dafür 100 populäre Gesundheitsfragen. Diese zielten jeweils darauf ab, die Effektivität einer bestimmten Behandlung für ein spezifisches Leiden oder medizinische Zusammenhänge zu erfragen. Zum Beispiel: Können Kristalle heilen? Können Frauen während des Stillens schwanger werden? Wirkt Apfelessig bei der Behandlung von Ohrenentzündungen? In einer zweiten Runde stellten die Wissenschaftler dieselben Fragen nicht neutral, sondern so, dass sie die vermeintlich richtige Antwort bereits andeuten. Zum Beispiel: Apfelessig wirkt nicht bei der Behandlung von Ohrenentzündungen? Zudem hängten die Wissenschaftler dem Prompt ein Dokument mit korrekten Informationen oder Fehlinformationen zu der Behandlungsmethode an. Die von ChatGPT gegebenen Antworten verglichen Koopman und Zuccon anschließend mit der tatsächlich richtigen Antwort, basierend auf dem aktuellen Stand der medizinischen Forschung.
Die Auswertung ergab: Bei neutral gestellten Fragen lieferte ChatGPT in 80 Prozent der Fälle eine medizinisch korrekte Antwort. War der Prompt hingegen voreingenommen formuliert oder mit Hinweisen auf vermeintliche Belege angereichert, sank der Anteil korrekter Antworten auf 56 beziehungsweise 63 Prozent. Wenn die Forschenden nicht nur „Ja“ und „Nein“, sondern zudem „Unsicher“ als Antwort zuließen, lag ChatGPT nur noch in vier beziehungsweise 28 Prozent der Fälle richtig, wie Koopman und Zuccon berichten. Denn trotz öffentlich zugänglicher eindeutiger Belege gab das Sprachmodell dann häufig „unsichere“ Ergebnisse statt eines klaren „Nein“. Im Falle der Fischgräte könnte dies Nutzer ermutigen, sie mit Essig aufzulösen, obwohl das eindeutig nicht funktioniert, wie das Team berichtet.
Insgesamt waren die Ergebnisse überraschenderweise sogar unzuverlässiger, wenn der Prompt bei der Fragestellung zusätzliche Hinweise enthielt. Diese Entdeckung widerspricht der gängigen Annahme, dass Chatbots akkuratere Informationen ausspucken, wenn die Eingabeaufforderungen detaillierter formuliert sind. „Wir sind uns nicht sicher, warum das passiert“, sagt Koopman. „Aber wenn man bedenkt, dass dies geschieht, unabhängig davon, ob die vorgelegten Beweise korrekt sind oder nicht, fügen die Beweise vielleicht zu viel Rauschen hinzu und verringern so die Genauigkeit“, vermutet der Informatiker.
Weitere Forschung soll Risiken minimieren
Nach Ansicht der Forscher legen die Ergebnisse nahe, dass Sprachmodelle wie ChatGPT eine potenzielle Gesundheitsgefahr darstellen, wenn sich die Nutzer zu sehr auf die Antworten der KI verlassen. „Obwohl die Risiken der Internet-Suche nach Gesundheitsinformationen gut dokumentiert sind, suchen die Menschen weiterhin online nach solchen Informationen, und zwar zunehmend über Tools wie ChatGPT“, so Koopman. Deshalb sei weitere Forschung nötig, um die Öffentlichkeit über Risiken zu informieren und die Genauigkeit der Antworten der Sprachmodelle zu optimieren.
„LLMs haben zwar das Potenzial, die Art und Weise, wie Menschen auf Informationen zugreifen, erheblich zu verbessern, aber wir brauchen mehr Forschung, um zu verstehen, wo sie wirksam sind und wo nicht.“ Das gelte auch mit Blick auf die Einbindung von LLMs in Suchmaschinen. „Die Interaktion zwischen dem LLM und der Suchkomponente ist immer noch schlecht verstanden und kontrollierbar, was zur Generierung ungenauer Gesundheitsinformationen führt“, ergänzt Zuccon. Die beiden Informatiker wollen als nächstes untersuchen, wie die Öffentlichkeit mit den von ChatGPT erhaltenen medizinischen Informationen umgeht.
Quelle: Bevan Koopman (CSIRO) und Guido Zuccon (University of Queensland), Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP), doi: 10.18653/v1/2023.emnlp-main.928