Hilft Zink gegen Erkältungen? Löst Essig verschluckte Fischgräten auf? Antworten auf Gesundheitsfragen wie diese suchen Menschen regelmäßig im Internet. Neben Suchmaschinen wie Google nutzen Menschen dafür inzwischen zunehmend auch Sprachmodelle (LLMs) wie ChatGPT. Diese KI-Chatbots werden seit ihrer Einführung vor rund eineinhalb Jahren immer beliebter, da sie auf Anfrage schnell große Mengen an öffentlich zugänglichen Daten durchforsten und zusammenfassen können. Aber wie hilfreich sind die Antworten der Künstlichen Intelligenzen bei medizinischen Fragen?
Gibt ChatGPT korrekte Auskunft zu Gesundheitsfragen?
Um das herauszufinden, haben die Informatiker Bevan Koopman von der australischen nationalen Wissenschaftsagentur CSIRO und Guido Zuccon von der University of Queensland in Brisbane nun ChatGPT ausgiebig getestet. Sie stellten dem Sprachmodell dafür 100 populäre Gesundheitsfragen. Diese zielten jeweils darauf ab, die Effektivität einer bestimmten Behandlung für ein spezifisches Leiden oder medizinische Zusammenhänge zu erfragen. Zum Beispiel: Können Kristalle heilen? Können Frauen während des Stillens schwanger werden? Wirkt Apfelessig bei der Behandlung von Ohrenentzündungen? In einer zweiten Runde stellten die Wissenschaftler dieselben Fragen nicht neutral, sondern so, dass sie die vermeintlich richtige Antwort bereits andeuten. Zum Beispiel: Apfelessig wirkt nicht bei der Behandlung von Ohrenentzündungen? Zudem hängten die Wissenschaftler dem Prompt ein Dokument mit korrekten Informationen oder Fehlinformationen zu der Behandlungsmethode an. Die von ChatGPT gegebenen Antworten verglichen Koopman und Zuccon anschließend mit der tatsächlich richtigen Antwort, basierend auf dem aktuellen Stand der medizinischen Forschung.
Die Auswertung ergab: Bei neutral gestellten Fragen lieferte ChatGPT in 80 Prozent der Fälle eine medizinisch korrekte Antwort. War der Prompt hingegen voreingenommen formuliert oder mit Hinweisen auf vermeintliche Belege angereichert, sank der Anteil korrekter Antworten auf 56 beziehungsweise 63 Prozent. Wenn die Forschenden nicht nur „Ja“ und „Nein“, sondern zudem „Unsicher“ als Antwort zuließen, lag ChatGPT nur noch in vier beziehungsweise 28 Prozent der Fälle richtig, wie Koopman und Zuccon berichten. Denn trotz öffentlich zugänglicher eindeutiger Belege gab das Sprachmodell dann häufig „unsichere“ Ergebnisse statt eines klaren „Nein“. Im Falle der Fischgräte könnte dies Nutzer ermutigen, sie mit Essig aufzulösen, obwohl das eindeutig nicht funktioniert, wie das Team berichtet.
Insgesamt waren die Ergebnisse überraschenderweise sogar unzuverlässiger, wenn der Prompt bei der Fragestellung zusätzliche Hinweise enthielt. Diese Entdeckung widerspricht der gängigen Annahme, dass Chatbots akkuratere Informationen ausspucken, wenn die Eingabeaufforderungen detaillierter formuliert sind. „Wir sind uns nicht sicher, warum das passiert“, sagt Koopman. „Aber wenn man bedenkt, dass dies geschieht, unabhängig davon, ob die vorgelegten Beweise korrekt sind oder nicht, fügen die Beweise vielleicht zu viel Rauschen hinzu und verringern so die Genauigkeit“, vermutet der Informatiker.





