KI-System macht Hirnsignale zu Sprache

Sprache ist für unsere Kommunikation essenziell – umso verheerender ist es, wenn Menschen ihre Sprachfähigkeit durch Verletzung oder Krankheit verlieren. Doch die moderne Technik und vor allem direkte Schnittstellen von Gehirn und Computer schaffen neue Möglichkeiten, Hirnsignale auszulesen und zu interpretieren. Dies lässt sich auch für sogenannte Brain-to-Text-Systeme nutzen. Denn wenn wir Worte hören oder sprechen, erzeugt dies charakteristische Aktivitätsmuster im Gehirn. Lernfähige Computersysteme können diese Muster erkennen und so Signal und Wort zuordnen. Tatsächlich ist es Wissenschaftlern schon gelungen, mit solchen Systemen gesprochene Silben und Worte allein anhand der begleitenden Hirnsignale zu erkennen und teilweise in verständliche gesprochene Sprache umzuwandeln. Allerdings war der Wortschatz solcher Versuche bisher meist auf weniger als 100 Wörter begrenzt und die Fehlerrate beim Erkennen lag mit rund 25 Prozent noch relativ hoch.

Zwei gekoppelte Netzwerke als “Übersetzer”

Jetzt haben Joseph Makin von der University of California in San Francisco und seine Kollegen ein System entwickelt, das eine deutlich höhere Genauigkeit erreicht – und dies schon mit relativ wenig Training. An ihrem Experiment nahmen vier Probanden teil, denen ein Netz aus Elektroden in die Großhirnrinde implantiert worden war. Ursprünglich dienten diese Elektroden dazu, die Herde ihrer epileptischen Anfälle zu lokalisieren, doch sie boten Makin und seinem Team auch die Chance, sprachbezogene Hirnsignale in hoher Auflösung abzuleiten. Der Versuch begann damit, dass die Teilnehmer einfache englische Sätze laut vorlasen, die ihnen auf einem Monitor gezeigt wurden. “Die Sätze waren im Schnitt neun Wörter lang und ergaben insgesamt ein Vokabular von 250 verschiedenen Wörtern”, berichten die Forscher. Parallel dazu zeichneten sie die dabei entstehenden Hirnsignale auf.

Diese Kombination aus Hirnsignalen und den dazu gehörenden akustischen Sprachaufzeichnungen nutzten Makin und sein Team anschließend, um ein System aus zwei lernfähigen neuronalen Netzwerken zu trainieren. Das erste Netzwerk, der sogenannte Encoder, dient als eine Art Filter, der die aufgezeichneten Hirnsignale nach wiederkehrenden Mustern durchsucht – Mustern, die mit den gesprochenen Wörter in Zusammenhang stehen könnten. Durch wiederholten Abgleich mit den Sprachaufzeichnungen verbesserte dieses System im Verlauf des Trainings seine Treffsicherheit. Das zweite System, der Dekoder, nutzt diese Daten seines Vorgängers, um nun aus den bereinigten Signalen wieder Wörter zu generieren. “Dieses neuronale Netzwerk ist darauf trainiert, bei jedem Schritt entweder ein passendes Wort auszugeben oder aber das Stoppsignal für das Satzende”, erklären Makin und seine Kollegen.