Neue KI verarbeitet Videos nach Vorbild des Gehirns

Digitale Werkzeuge basierend auf künstlicher Intelligenz haben sich in den letzten Jahren rasant weiterentwickelt. Die KI-Modelle erkennen inzwischen Bilder extrem gut und können diese schon fast genauso detailliert auswerten und Rückschlüsse daraus ziehen wie wir Menschen. Bei Videos hingegen – animierten Sequenzen aus schnell aufeinanderfolgenden Bildern – stießen KI-Modell bislang auf Probleme. „Das menschliche Gehirn sieht nicht nur unbewegte Bilder. Es verarbeitet fließende Szenen im Alltag oder in einem Film und schafft daraus eine fortlaufende visuelle Erzählung“, sagt Seniorautor Hollis Cline vom Scripps Research Institut. „Diese Fähigkeit des Gehirns erfordert eine viel ausgefeiltere Form der Mustererkennung als die statische Bilderkennung.“

Illustration der Entwicklung einer KI basierend auf der neuronalen Aktivität in Kaulquappen — Basierend auf der Reizverarbeitung im Gehirn von Kaulquappen haben die Forscher eine KI entwickelt, die Videos effizient interpretieren kann. © Scripps Research

Wie erkennt das Gehirn Videosequenzen?

Zusammen mit seinem Kollegen Masaki Hiramoto hat Cline nun versucht, diese Mustererkennung des Gehirns zu verstehen und auf KI-Modelle zu übertragen. „Indem wir untersuchen, wie Neuronen die Bildsequenzen erfassen, können wir ähnliche Prinzipien auf die KI anwenden“, so Cline. Dafür analysierten die Forscher die Gehirnaktivität von Kaulquappen von Krallenfröschen, die bekanntermaßen bewegte Reize effizient erkennen können. Die Neurowissenschaftler stimulierten die Tiere mit 200 bis 600 Millisekunden kurzen Bildsequenzen aus schwarzen und weißen Quadraten sowie zweifarbigen rotierenden Kugeln. Währenddessen analysierten sie mit Elektroden, wie die Nervenzellen im Optischen Tectum der Tiere reagieren. Diese Hirnregion verarbeitet visuelle Reize und kommt bei allen Wirbeltieren vor, auch bei Menschen.

Dabei zeigte sich, dass verschiedene Neuronen in diesem Areal auf unterschiedliche filmähnliche Reize reagieren – etwa, wenn sich die Helligkeit geringfügig verändert, sich das Bild dreht oder sich ein Objekt verschiebt. Diese Neuronen erkennen demnach jeweils einzelne Puzzleteile eines bewegten Bildes und fügen sie anschließend zu einer kohärenten und kontinuierlichen Sequenz zusammen, schließen die Forscher. „Zusammengenommen weisen diese Daten darauf hin, dass Neuronen sowohl bestimmte Bildsequenzen als auch eine Reihe verwandter Filmreize erkennen“, schreiben sie.

KI ahmt Gehirn effizient nach

Mit diesem Wissen trainierten Hiramoto und Cline anschließend ein KI-Modell so, dass es Bilder auf dieselbe Weise wie die Kaulquappen-Neuronen verarbeitet und den Prozess in deren Gehirn nachahmt. Dafür präsentierten sie der KI unter anderem Abfolgen von Licht- und Schattenreizen. Die MovieNet genannte KI erkannte so selbst feine Unterschiede zwischen den einzelnen Bildern einer Video-Szene, wie nachfolgende Performance-Tests ergaben. In Videoclips von schwimmenden Kaulquappen erkannte die KI beispielsweise mit einer Zuverlässigkeit von 82 Prozent, wenn eine Kaulquappe einen ungewöhnlichen Schwimmstil hatte. Selbst geschulte menschliche Beobachter identifizierten diese Kaulquappen deutlich seltener. Und auch GooLeNet und andere bereits existierende gut entwickelte KIs erkannten das abweichende Schwimmverhalten in nur 72 Prozent der Fälle, wie das Team berichtet.