Viele leichte Erkrankungen verschwinden von selbst wieder, ohne dass ärztliche Hilfe erforderlich ist. Bei manchen Symptomen ist es allerdings sinnvoll, sie frühzeitig medizinisch abklären zu lassen, um eine womöglich gefährliche Krankheit nicht zu übersehen. Für viele Menschen ist es herausfordernd, zwischen diesen Fällen zu unterscheiden. Abhilfe versprechen KI-Anwendungen, darunter große Sprachmodelle wie ChatGPT, aber auch spezialisierte Symptom-Checker-Apps wie Ada und Healthwise. Doch wie zuverlässig ist die künstliche Intelligenz bei der Bewertung der Symptome? Und kann sie tatsächlich dazu beitragen, dass medizinische Laien bessere Entscheidungen treffen, wenn es darum geht, ob sie einen Arzt aufsuchen sollten oder nicht?
ChatGPT neigt zu Überschätzungen
Um diese Fragen zu beantworten, testete ein Team um Marvin Kopka von der Technischen Universität Berlin in einer Studie verschiedene KI-Anwendungen mit echten Patientenfällen. Dazu zählten unter anderem große Sprachmodelle wie ChatGPT von OpenAI und Llama 2 von Meta sowie zwölf spezialisierte Symptom-Checker-Apps. Die beschriebenen Fälle umfassten einerseits medizinische Notfälle wie eine schwere Gehirnerschütterung und ernsthafte Erkrankungen wie Krebs, andererseits aber auch weniger behandlungsbedürftige Beschwerden wie Muskelschmerzen, Magenverstimmungen und Hautprobleme.
„Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, erklärt Kopka. Zum Vergleich legten die Forschenden die Fallbeispiele zusätzlich menschlichen medizinischen Laien vor, die ebenfalls auf Basis der geschilderten Symptome entscheiden sollten, welche Reaktion angemessen ist: abwarten, zeitnah den Hausarzt konsultieren oder direkt in die Notaufnahme fahren.
Das Ergebnis: Während viele Symptom-Checker-Apps tatsächlich angemessene Empfehlungen lieferten und zumindest bei vielen Patientenfällen korrekt einstuften, ob es sich um harmlose oder potenziell gefährliche Symptome handelt, schnitten die großen Sprachmodelle deutlich schlechter ab. Insbesondere ChatGPT stufte fast jeden Fall als Notfall ein und empfahl auch bei harmlosen Beschwerden, vorsichtshalber einen Arzt zu Rate zu ziehen. „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem“, sagt Kopka. „Die KI empfiehlt häufig, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen.“
Einfluss auf menschliche Entscheidung
Die Studie ergab auch, dass die medizinischen Laien meist gut darin waren, echte Notfälle zu erkennen und sich bei Bedarf dafür zu entscheiden, den Rettungsdienst zu verständigen. Ging es um weniger schwerwiegende Symptome, fiel es ihnen allerdings oft schwer zu unterscheiden, ob sie abwarten oder einen Hausarzt aufsuchen sollen. Kann künstliche Intelligenz in diesen Fällen die Entscheidung verbessern?





