Wenn Menschen durch Krankheit oder Verletzungen ihre Sprachfähigkeit verlieren, ist dies eine enorme Einschränkung der Kommunikation. Jetzt haben US-Forscher eine Technologie entwickelt, die Hirnsignale des Sprachzentrums in hörbare Sprache umwandeln kann. Der Clou dabei: Das zweischrittige System liest die Signale aus, mit denen das Gehirn Mund, Gaumen und Kehle steuert und bewegt damit einen virtuellen Sprechapparat. Erst daraus erzeugt dann ein zweiter Algorithmus die akustische Sprache. In ersten Tests erreichte dieses System eine bessere Verständlichkeit als bisherigen Prototypen solcher Gehirn-Computer-Schnittstellen, wie die Forscher berichten.
Sprache ist für unsere Kommunikation essenziell – entsprechend schlimm ist es, wenn Menschen durch Krankheit oder Verletzungen die Fähigkeit zu sprechen verlieren. Dies tritt häufig bei Schlaganfällen auf, aber auch bei neurodegenerativen Erkrankungen wie Parkinson, Alzheimer und der Amyotrophischen Lateralsklerose (ALS) verlieren Patienten mit fortschreitender Krankheit die Kontrolle über ihren Sprachapparat. Bisher blieb den Betroffenen in extremen Fällen nur eine Kommunikation über computerisierte Buchstabentafeln, bei denen Augenbewegungen den Cursor auf die gewünschten Buchstaben steuern und daraus dann synthetische Sprache produzieren. “Diese Systeme können die Lebensqualität der Patienten erhöhen, aber viele Nutzer schaffen damit kaum mehr als zehn Wörter pro Minute – das ist weit langsamer als die 150 Wörter pro Minute der natürlichen Sprache”, erklären Gopala Anumanchipalli von der University of California San Francisco und seine Kollegen.
In zwei Schritten vom Hirnsignal zur Sprache
Schon länger versuchen Neurowissenschaftler deshalb, eine direkte Schnittstelle von gedachten Wörtern zu gesprochener Sprache zu entwickeln. Dafür werden die beim Denken von Sprache erzeugten elektrischen Aktivitätsmuster des Gehirns ausgelesen und dann über spezielle Computersysteme in akustische Wörter und Sätze umgewandelt. Bisher jedoch liefern Prototypen nur wenig verständliche Sprachausgaben. Deshalb haben nun Anumanchipalli und sein Team für ihr System einen etwas anderen Ansatz gewählt. Statt die Hirnsignale von gedachter Sprache direkt in akustische Spektrogramme zu übersetzen, konzentrierten sie sich auf die Hinströme, die mit der komplexen Steuerung der Mund- und Kehlbewegungen beim Sprechen verknüpft sind. In einer früheren Studie hatten die Forscher bereits entschlüsselt, welche Hirnsignale für die komplexe Kontrolle des Sprechapparats zuständig sind.
“Die Verbindung zwischen den Bewegungen des Sprechapparats und den Sprachlauten, die von ihm produziert werden, ist sehr kompliziert”, sagt Anumanchipalli. “Aber wenn die Sprachzentren im Gehirn eher diese Bewegungen steuern als die direkten Laute, dann sollten wir versuchen, das Gleiche beim Dekodieren dieser Signale zu tun.” Um das zu erreichen, nutzten die Forscher zwei neuronale Netzwerke – lernfähige Systeme, die jeweils einen Teilschritt des komplexen Ablaufs übernahmen. Das erste war darauf trainiert, Hirnsignale der Sprachzentren in Bewegungen eines virtuellen Sprechapparats mit Zunge, Lippen, Gaumen und Kehlkopf umzusetzen. Das zweite neuronale Netzwerk setzte dann die Bewegungen des virtuellen Sprechapparats in akustische Spektrogramme um, die dann vom Computer als gesprochene Wörter und Sätze ausgegeben wurden.
Noch nicht perfekt, aber besser als bisher
Für den Test des Systems baten die Forscher fünf Epilepsie-Patienten um Mithilfe, denen zur Vorbereitung einer Operation Elektroden in das Gehirn implantiert worden waren. Über diese Elektroden leiteten die Wissenschaftler die Hirnsignale ab, die entstanden, während die Probanden einige hundert Sätze laut vorlasen. Die aus diesen Aufzeichnungen resultierenden Daten wurden dann in das zweischrittige System eingespeist und in rekonstruierte Audio-Ausgaben umgewandelt. Für den Verständlichkeitstest akquirierten die Forscher Freiwillige, die die Sprachdateien über eine Internetseite anhörten und transkribierten – so gut sie sie verstanden. Das Ergebnis: Bei einfachen Wörtern konnten die Hörer immerhin 63 Prozent der rekonstruierten Sprache richtig verstehen und 43 Prozent der Sätze korrekt transkribieren.
“Von einer perfekt nachgemachten gesprochene Sprache ist das zwar noch ein wenig entfernt”, räumt Anumanchipallis Kollege Josh Chartier ein. “Aber die Präzision, die wir hier erreicht haben, ist schon eine erstaunliche Verbesserung gegenüber dem, was bislang erhältlich ist.” Ein weiteres Experiment ergab zudem, dass die Übersetzung der Hirnsignale in Sprache auch dann klappte, wenn die Probanden die Wörter nur tonlos mimten. Noch ist nicht klar. Ob das System auch bei Menschen mit teilweise oder ganz gelähmtem Sprechapparat funktionieren würde. Weil ähnliche “Übersetzungen” von Hirnsignalen in Hand- oder Beinbewegungen von Prothesen aber bei Gelähmten schon gelungen sind, sind die Forscher zuversichtlich.
“Unsere Studie demonstriert zum ersten Mal, dass wir ganze gesprochene Sätze basierend auf der individuellen Hirnaktivität erzeugen können”, sagt Anumanchipallis Kollege Edward Chang. “Wir hoffen, dass Menschen mit Sprachbehinderungen eines Tages durch solche hirnbasierten künstlichen Sprechapparate ihre Sprache wiederfinden.” Nach Ansicht der Forscher könnten bessere, speziell an diese Aufgabe angepasste Elektrodensysteme und fortgeschrittenere Algorithmen die synthetisierte Sprache schon bald noch weiter verbessern.
Quelle: Gopala Anumanchipalli (University of California, San Francisco) et al., Nature, doi: 10.1038/s41586-019-1119-1