Wie aussagekräftig sind Gehirnstudien? - wissenschaft.de | Bild der Wissenschaft
BDW PlusGesundheit & Medizin
Wie aussagekräftig sind Gehirnstudien?
Sind Menschen, deren Großhirnrinde besonders dick ist, schlauer als andere? Haben Menschen, bei denen zwei bestimmte Hirnregionen überdurchschnittlich stark miteinander verknüpft sind, ein erhöhtes Risiko für psychische Krankheiten? Solche Fragen sollen gehirnweite Assoziationsstudien klären. Dazu scannen Forscher…
Sie haben noch 1 von 3 kostenlosen Artikeln übrig2/3
von ELENA BERNARD
Sind Menschen, deren Großhirnrinde besonders dick ist, schlauer als andere? Haben Menschen, bei denen zwei bestimmte Hirnregionen überdurchschnittlich stark miteinander verknüpft sind, ein erhöhtes Risiko für psychische Krankheiten? Solche Fragen sollen gehirnweite Assoziationsstudien klären. Dazu scannen Forscher die Gehirne ihrer Probanden per Magnetresonanztomografie (MRT) und versuchen, dabei gefundene Gemeinsamkeiten und Unterschiede der Gehirne mehrerer Versuchspersonen mit Charakterzügen, kognitiven Fähigkeiten oder psychischen Erkrankungen in Verbindung zu bringen.
Viele solche Studien haben scheinbar beeindruckende Ergebnisse erbracht: 2011 verkündeten britische Forscher, politisch konservativ orientierte Menschen hätten mehr graue Masse in der Amygdala, die unter anderem mit Angstgefühlen in Verbindung gebracht wird. Politisch liberal eingestellte Menschen hätten dagegen einen ausgeprägteren vorderen Gyrus cinguli, der unter anderem für die Aufmerksamkeit wichtig ist. Andere Forscher glaubten, neuronale Korrelate für Impulsivität, Extraversion und Neurotizismus gefunden zu haben.
Doch bei all diesen Studien gibt es ein Problem: Keine einzige ließ sich replizieren. Obwohl die Ergebnisse der Ursprungsstudien statistisch signifikant waren und teils deutliche Effektgrößen aufwiesen – ein Maß für die Stärke der Korrelation –, konnten sie mit neuen Gruppen von Probanden nicht wiederholt werden.
Tausende Teilnehmer benötigt
Auf dieses Problem stieß kürzlich auch ein Team um Scott Marek von der Washington University School of Medicine in St. Louis. Anhand der Hirnscans von 1000 Kindern wollten die Forscher herausfinden, wie kognitive Fähigkeiten im Gehirn repräsentiert sind. „Tatsächlich fanden wir eine signifikante Korrelation und dachten zunächst: Toll! Aber dann wollten wir das Ergebnis bei weiteren 1000 Kindern replizieren. Und das gelang nicht“, berichtet Marek. „Das hat mich umgehauen, denn eine Stichprobe von 1000 Kindern hätte eigentlich ausreichen müssen. Wir haben uns den Kopf zerbrochen und uns gefragt, was hier eigentlich los ist.“
Um herauszufinden, wie groß die Stichprobe einer gehirnweiten Assoziationsstudie sein muss, um zuverlässige Ergebnisse zu liefern, analysierten Marek und sein Team öffentlich verfügbare Datensätze mit MRT-Daten von insgesamt fast 50.000 Teilnehmern. Daraus zogen sie unterschiedlich große Stichproben und untersuchten diese auf Korrelationen zwischen Gehirnmerkmalen und einer Reihe von demografischen, kognitiven, psychischen und verhaltensbezogenen Merkmalen. Mithilfe neuer Stichproben versuchten sie dann, die jeweils gefundenen Ergebnisse zu wiederholen. Ihre Ergebnisse publizierten sie im März 2022 in der Fachzeitschrift nature.
Mehr aus Gesundheit & Medizin
Weitere aktuelle Artikel aus der Rubrik Gesundheit & Medizin.
„Die durchschnittliche Stichprobengröße von klassischen gehirnweiten Assoziationsstudien liegt bei nur 25 Teilnehmern“, berichten die Forscher. Führten sie ihre Analysen mit dieser Stichprobengröße durch, fanden sie zwar – ebenso wie die bereits veröffentlichten Arbeiten zu diesem Thema – oft deutliche Assoziationen, konnten die Ergebnisse jedoch nicht mit neuen Stichproben replizieren. Erst bei Stichproben von mehreren Tausend Teilnehmern stieg die Wahrscheinlichkeit, dass sich die Ergebnisse in unabhängigen Stichproben wiederholen ließen. Bemerkenswert: Die beobachteten Effekte waren deutlich weniger stark als die zufällig zustande gekommenen Korrelationen in den kleineren Studien.
Angegeben wird die Effektgröße auf einer Skala von 0 bis 1, wobei 0 für keine Korrelation steht und 1 für eine perfekte Korrelation. In der Neurowissenschaft gelten schon Effektstärken von 0,2 als stark. Viele veröffentlichte Studien weisen jedoch deutlich größere Effektstärken aus – laut Marek eigentlich ein Hinweis, dass etwas nicht stimmen kann. „Man kann in der Literatur Effektgrößen von 0,8 finden, aber nichts in der Natur hat eine Effektgröße von 0,8“, sagt Marek. „Die Korrelation zwischen Körpergröße und Gewicht beträgt 0,4. Die Korrelation zwischen Höhenlage und Tagestemperatur liegt bei 0,3. Das sind starke, offensichtliche, leicht zu messende Korrelationen, und sie sind nicht annähernd 0,8. Wie kann man also auf die Idee kommen, dass die Korrelation zwischen zwei sehr komplexen Dingen wie Gehirnfunktion und Depression 0,8 beträgt?“ Die echten replizierbaren Effekte, die sein Team in dem großen Datensatz fand, hatten Effektstärken im Bereich von 0,01.
Für Stephan Schleim ist die Einsicht, dass zu kleine gehirnweite Assoziationsstudien starke, aber falsche Effekte ergeben, keine Überraschung. Als Assoziierter Professor für Theoretische Psychologie an der niederländischen Universität Groningen beschäftigt er sich seit Jahren mit den Möglichkeiten und Schwächen von Hirnstudien. „Bei MRT-Scans gibt es aus technischen Gründen immer ein gewisses Rauschen, also eine Unschärfe in den Daten“, erklärt er. „Forscher versuchen zwar, dieses Rauschen mit verschiedenen Methoden herauszurechnen, aber gerade bei kleinen Gruppen von Probanden kann es trotzdem passieren, dass zufällige Effekte, die sich aus der Unschärfe der Daten ergeben, zu signifikanten Ergebnissen führen.“
Und da diese zufälligen Effekte oft größer sind als die tatsächlich vorhandenen, haben sie eine bessere Chance, in einem wissenschaftlichen Journal publiziert zu werden. „Das ist ein systematisches Problem“, sagt Schleim. Studien, die keine oder nur schwache Effekte nachweisen konnten, werden oft nicht veröffentlicht, obwohl gerade auch Fehlschläge zum wissenschaftlichen Fortschritt beitragen können. „Doch weil die großen Fachzeitschriften an so etwas kaum interessiert sind, suchen Forscher fast zwangsläufig nach möglichst starken, signifikanten Effekten – selbst, wenn sie dabei bestimmte Gruppen aus ihrem ohnehin schon zu kleinen Datensatz herauspicken müssen und damit die Wahrscheinlichkeit, Scheineffekte zu erwischen, erhöhen.“ Die echten, aber schwächeren Effekte dagegen werden nur bei sehr großen Probandenzahlen erkennbar. Doch MRT-Studien sind teuer. Eine einzige Stunde im MRT kann rund 1000 US-Dollar kosten. Die meisten Studien untersuchen daher bei weitem nicht ausreichend viele Probanden.
Kein richtig oder falsch
Und eine zu geringe Teilnehmerzahl ist nicht die einzige Schwäche dieser Studien, sagt Simon Eickhoff. Als Direktor des Institute of Neurosciences and Medicine – Brain and Behaviour am Forschungszentrum Jülich und des Institute of Systems Neuroscience der Universität Düsseldorf beschäftigt er sich intensiv mit den Möglichkeiten und Grenzen von Studien, die Zusammenhänge zwischen Gehirnmerkmalen und Verhalten aufdecken wollen. „Die Probleme mit der Replizierbarkeit beginnen bei den ersten Schritten des Forschungsprozesses“, erklärt er. „Wenn ich etwa neuronale Korrelate von Intelligenz finden möchte, ist die Frage, wie ich Intelligenz überhaupt definiere und messe.“ Je nachdem, welchen IQ-Test man verwende, könne es zu unterschiedlichen Ergebnissen kommen.
Auch bei der Auswertung der Daten kann es große Abweichungen geben. Eindrücklich illustriert das eine Studie von Rotem Botvinik-Nezer von der Universität Tel Aviv und seinen Kollegen, darunter auch Eickhoff, die 2020 im Fachmagazin nature veröffentlicht wurde. Die Autoren gaben den gleichen Datensatz von 108 Hirnscans an 70 verschiedene Forschungsteams weltweit weiter und baten darum, diese Daten auszuwerten und anhand der Ergebnisse neun Hypothesen zu bestätigen oder zu widerlegen. Die Hirnscans zeigten die Hirnaktivität von Probanden, während diese finanzielle Entscheidungen trafen, und die Hypothesen beschäftigten sich mit der Frage, wie sich bestimmte Aspekte der Entscheidungsfindung auf die Hirnaktivität auswirken. Obwohl alle Teams die Daten korrekt mit ihren jeweiligen Standardmethoden analysierten, kamen sie zu ganz unterschiedlichen Ergebnissen. Nur bei vier der neun vorgegebenen Hypothesen herrschte weitgehend Einigkeit, bei den übrigen fünf dagegen wichen die Resultate der einzelnen Teams deutlich voneinander ab.
„Diese unterschiedlichen Ergebnisse haben nichts damit zu tun, dass manche Gruppen etwas falsch gemacht hätten, sondern sind darin begründet, dass es hier um sehr komplexe Phänomene geht“, sagt Eickhoff. „Auf dem Weg zum Ergebnis sind sehr viele einzelne Entscheidungen für die Analyse zu treffen. Dabei gibt es nicht klar richtig oder falsch, sondern einfach unterschiedliche Herangehensweisen, die alle ihre Berechtigung haben.“
Teure Hirnscans
Doch was ist die Lösung? Um dem Problem der zu geringen Probandenzahl zu begegnen, plädieren Marek und seine Kollegen dafür, in große, öffentlich zugängliche Datensätze zu investieren, ähnlich wie es auch mit genomischen Daten der Fall ist. „Für genomische Daten finanzierten die U.S. National Institutes of Health (NIH) große Datenerhebungen und legten fest, dass die Daten öffentlich zugänglich gemacht werden müssen“, sagt Mareks Kollege Nico Dosenbach. Ein ähnliches Vorgehen wünscht er sich für die Neurowissenschaft.
Schleim sieht diesen Vorschlag kritisch: „Hirnscans sind noch wesentlich teurer und aufwendiger als Genomanalysen“, gibt er zu bedenken. Deshalb seien enorme finanzielle und personelle Ressourcen erforderlich, um die Grundlage für größere und damit besser replizierbare gehirnweite Assoziationsstudien zu schaffen. „Ich bezweifle nicht, dass man auf diese Weise einige gute Publikationen mit replizierbaren Ergebnissen erzielen könnte“, sagt Schleim. „Aber die Frage ist: Was nützt uns das praktisch? Werden wir deshalb Patienten besser behandeln können?“
In dieser Hinsicht ist er nicht optimistisch. „Trotz aller Versprechen der Neurowissenschaft können wir bis heute keine einzige psychische Krankheit per Hirnscan diagnostizieren, geschweige denn mit Hilfe von Hirnscans dazu beitragen, den Betroffenen zu helfen“, kritisiert er. Aus seiner Sicht wäre es an der Zeit, den Blick mehr auf den Menschen selbst und weniger auf bunte Bilder des Gehirns zu richten.
Zukünftige Neuro-Forschung
Eickhoff dagegen setzt weiter auf Neuro-Forschung anhand von Hirnscans: „Die Hirnscan-Studien helfen uns, den Hirnaufbau und die Variabilität bei gesunden und kranken Menschen besser zu verstehen“, sagt er. „Vieles ist noch im Bereich der Grundlagenforschung, aber langfristig gehe ich davon aus, dass wir in der Lage sein werden, anhand von Hirnscans psychische und neurologische Erkrankungen frühzeitig zu diagnostizieren und Prognosen über den Verlauf zu stellen.“
Eine wichtige Rolle könnten dabei Ansätze spielen, die maschinelles Lernen einbeziehen. „Im Vergleich zu klassischen gehirnweiten Assoziationsstudien, die Korrelationen innerhalb ihres Datensatzes suchen, geht es beim maschinellen Lernen darum, dass ein Algorithmus Muster in einem Trainingsdatensatz findet, die er dann auf neue Daten anwenden kann.“ Sein eigenes Team hat beispielsweise Algorithmen trainiert, die mit guter Trefferquote das Alter einer Person anhand von Hirnscans abschätzen können.
Für die klinische Anwendung werden bereits Programme entwickelt, die Computertomographie-Scans (CT) von Schlaganfallpatienten maschinell auswerten können, um schnell eine Antwort darauf zu geben, ob der Schlaganfall durch eine Hirnblutung oder durch ein verstopftes Gefäß ausgelöst wurde. „Solche Anwendungen sind natürlich wesentlich weniger komplex als Untersuchungen zu Assoziationen zwischen Gehirn und Verhalten, denn im Fall von neurologischen Schäden oder Krankheiten wie Alzheimer sind die Unterschiede zwischen krankem und gesundem Hirn offensichtlich“, sagt Eickhoff.
Allerdings habe ein Algorithmus, der mit den Daten eines bestimmten Hirnscanners trainiert wurde, bisher noch Probleme, sobald er mit Bildern aus einem anderen Hirnscanner konfrontiert werde. Simon Eickhoff ist überzeugt: „Bis wir tatsächlich in der Lage sind, mithilfe von Hirnscans Diagnosen und Prognosen für psychische Krankheiten abzugeben, wird es wohl noch eine Weile dauern. Die klassischen, zu kleinen gehirnweiten Assoziationsstudien bringen uns dabei nicht weiter – das sollte spätestens mit der Publikation von Marek und seinen Kollegen klar geworden sein. Aber wenn wir als Wissenschaftler darauf achten, unsere Methoden offenzulegen, Daten transparent zu machen und sauber auf die Replizierbarkeit oder – im Fall von maschinellem Lernen – Generalisierbarkeit zu achten, sind wir auf einem guten Weg.“
Gesundheit & Medizin
Forscher verändern Gene menschlicher Embryos
10. Juni 2026
Chance und Risiko zugleich: Eine neue Methode der Gen-Editierung könnte helfen, krankmachende Mutationen und Erbkrankheiten schon beim…
Gesundheit & Medizin
Wie Neandertaler-Gene unsere Reaktion auf DNA-Viren prägen
9. Juni 2026
Rund zwei Prozent des Erbguts heutiger Europäer stammen von Neandertalern. Die archaischen Genvarianten beeinflussen unter anderem unser…