Mit einem neuen, nicht-invasiven System ist es Forschern gelungen, Gedanken von Testpersonen zumindest grundlegend in Sprache zu übersetzen. Dabei wurde die Gehirnaktivität der Probanden per fMRT aufgezeichnet, während sie Geschichten hörten. Die Sprach-KI GPT-1, ein Vorläufer des aktuellen ChatGPT, generierte nach entsprechendem Training auf Basis der Hirnscans einen zusammenhängenden Text. Dieser entsprach zwar nicht genau der gehörten Geschichte, gab aber immerhin den Bedeutungsgehalt erkennbar wieder. Obwohl die Technik noch weit von einem möglichen Alltagseinsatz entfernt ist, hoffen die Forscher, dass das System eines Tages Menschen mit Locked-In-Syndrom helfen kann, wieder zu kommunizieren.
Seit Jahrzehnten arbeiten Forschende an Hirn-Computer-Schnittstellen, die die Hirnaktivität gelähmter Personen direkt in Sprache oder Bewegungssignale umwandeln sollen. Am erfolgreichsten sind bislang invasive Systeme, bei denen die Probanden Elektroden ins Gehirn implantiert bekommen. Diese können die Hirnaktivität mit hoher räumlicher und zeitlicher Auflösung erfassen. Ein Problem besteht allerdings noch darin, dass sich bisher nicht an alle relevanten Stellen im Gehirn Elektroden implantieren lassen und dass das invasive Verfahren eine hohe und mit Risiken behaftete Hürde darstellt. Nicht-invasive Systeme, die beispielsweise mit Hirnstrommessungen an der Kopfhaut arbeiten, haben dagegen den Nachteil, dass sie sehr ungenau sind und allenfalls einzelne Wörter oder Phrasen erkennen können.
Auswertung durch GPT
Ein Team um Jerry Tang von der University of Texas at Austin hat nun an drei Testpersonen ein neues System erprobt, das ohne implantierte Elektroden auskommt und dennoch in der Lage ist, zumindest grundlegend Gedanken in einen kontinuierlichen Text umzusetzen. Dazu kombinierten die Forschenden funktionelle Magnetresonanztomografie (fMRT), die den Blutfluss und damit die Aktivität im Gehirn anzeigt, mit einer künstlichen Intelligenz zur Dekodierung von Sprache.
In der Vorbereitungsphase hörten die Probanden insgesamt 16 Stunden lang Geschichten, während ihre Hirnaktivität im MRT-Scanner aufgezeichnet wurde. Mit diesen Daten trainierten Tang und sein Team die Software GPT-1, den Vorläufer des Chatbots ChatGPT. Ziel war dabei nicht, die Gedanken Wort für Wort auszulesen. Stattdessen ging es darum, den Bedeutungsgehalt zu erfassen und in Sprache umzusetzen. Und tatsächlich: Wenn die Testpersonen im eigentlichen Versuch eine zuvor nicht verwendete Geschichte anhörten, war GPT in der Lage, allein aus den Hirnscan-Bildern eine Geschichte zu rekonstruieren, die der tatsächlich gehörten zumindest erkennbar ähnelte.
Vielversprechend aber fehleranfällig
„Für eine nicht-invasive Methode ist dies ein echter Sprung nach vorn im Vergleich zu dem, was bisher gemacht wurde, nämlich typischerweise einzelne Wörter oder kurze Sätze“, sagt Tangs Kollege Alexander Huth. „Wir bringen das Modell dazu, kontinuierliche Sprache über längere Zeiträume mit komplizierten Ideen zu entschlüsseln.“ In einigen Fällen waren die aus den Hirndaten dekodierten Sätze erstaunlich nah an den tatsächlich gehörten. Aus „Ich habe noch keinen Führerschein“ machte das System „Sie hatte noch nicht angefangen, fahren zu lernen“.
In vielen Fällen verfehlte die Übersetzung allerdings den ursprünglichen Bedeutungsgehalt. Noch ungenauer wurde es, wenn die Probanden die Geschichte nicht hörten, sondern sie sich nur aktiv vorstellten oder wenn sie einen animierten Stummfilm sahen. „Der Decoder war dahingehend erfolgreich, dass viele ausgewählte Phrasen bei neuen, nicht trainierten Geschichten Wörter des Originaltextes enthielten, oder zumindest einen ähnlichen Bedeutungsgehalt aufwiesen“, erklärt der Neurowissenschaftler Rainer Goebel von der Universität Maastricht, der nicht an der Studie beteiligt war. „Es gab aber auch recht viele Fehler, was für ein vollwertiges BCI sehr schlecht ist, da es für kritische Anwendungen, zum Beispiel Kommunikation bei Locked-In-Patienten, vor allem darauf ankommt, keine falschen Aussagen zu generieren.“
Gedanken auslesen im Alltag?
Aus Sicht von Tang und seinem Team könnten die Ergebnisse aber die Grundlage für weitere Forschungen legen, die eines Tages tatsächlich Locked-In-Patienten ermöglichen, mit ihrer Umgebung zu kommunizieren. Ein fMRT-System ist dazu allerdings nicht geeignet. Schließlich müssen die Personen für die Aufnahme der Hirnscans in der riesigen und kostspieligen Röhre liegen. Möglicherweise könnte die Technik aber auch auf tragbare Systeme wie funktionelle Nahinfrarotspektroskopie (fNIRS) übertragbar sein. „fNIRS misst, wo im Gehirn zu verschiedenen Zeitpunkten mehr oder weniger Blut fließt, was, wie sich herausstellt, genau die gleiche Art von Signal ist, die fMRT misst“, sagt Huth. Allerdings ist die Auflösung geringer, sodass eine noch deutlich weiterentwickelte Auswertungssoftware notwendig wäre.
Auch mit der Frage, ob die Technik missbraucht werden könnte, um Gedanken gegen den Willen einer Person auszulesen, hat sich das Forschungsteam beschäftigt. Die Experimente haben jedoch gezeigt, dass die Auswertung jeweils nur für die Person funktioniert, auf die das System stundenlang und unter aktiver Mitarbeit der jeweiligen Person trainiert wurde. Und selbst dann brachte sie nur dann sinnvolle Ergebnisse, wenn die Testperson während der Messung aktiv an die Geschichte dachte. Sobald sie ihre Gedanken abschweifen ließ, war die Software nicht mehr in der Lage, die Gedanken auszulesen. „Wir nehmen die Bedenken sehr ernst, dass das Verfahren für schlechte Zwecke verwendet werden könnte, und haben daran gearbeitet, dies zu vermeiden“, sagt Tang. „Wir wollen sicherstellen, dass die Menschen diese Art von Technologien nur dann nutzen, wenn sie es wollen und es ihnen hilft.“
Quelle: Jerry Tang (University of Texas at Austin) et al., Nature Neuroscience, doi: 10.1038/s41593-023-01304-9