KI lernt von den Eindrücken eines Kindes

Im Alter von etwa sechs bis neun Monaten beginnen Kinder, die ersten Wörter zu lernen. Dabei verknüpfen sie das, was sie sehen und erleben, mit entsprechenden Bezeichnungen, die sie von den Personen in ihrem Umfeld hören. Aber genügt das wirklich, um eine Sprache von Grund auf zu lernen? Oder verfügen wir Menschen womöglich bereits über angeborenes Wissen, das uns hilft, die Konzepte von Sprache besser zu erfassen?

Kleinkind als Forschungshelfer

Um dieser Frage auf die Spur zu kommen, hat ein Team um Wai Keen Vong von der New York University eine KI trainiert, die als Input lediglich das bekam, was ein Kleinkind sieht und hört. Dazu statteten die Forschenden ein sechs Monate altes Kleinkind mit einer leichten, am Kopf befestigten Videokamera aus. Bis kurz nach seinem zweiten Geburtstag trug das Kind die Kamera regelmäßig bei alltäglichen Aktivitäten, beispielsweise auf dem Spielplatz, beim Essen oder während es mit seinen Eltern Bilderbücher anschaute.

Rund 61 Stunden Videomaterial kamen auf diese Weise zusammen. „Diese Aufnahmen machen zwar nur etwa ein Prozent der wachen Stunden des Kindes aus, bieten aber dennoch einen ausführlichen Einblick in die Erfahrungen des Kindes, und zwar aus seiner eigenen Perspektive“, schreiben die Forschenden. Mit diesen Daten speisten sie ein künstliches neuronales Netz. Dabei unterteilten sie das Video in einzelne Bilder und fügten jeweils eine Transkription des währenddessen Gesprochenen hinzu. „Dies gibt dem Modell einen Anhaltspunkt dafür, welche Wörter mit welchen Objekten in Verbindung gebracht werden sollten“, erklärt Vong. „Die Kombination dieser Hinweise ermöglicht es, allmählich zu bestimmen, welche Wörter zu welchen Bildern gehören.“

Verknüpfung von Wörtern und Bildern

Doch würden diese Informationen genügen, damit der Algorithmus ebenso wie das Kleinkind lernt, was bestimmte Wörter bedeuten? Das testeten die Forschenden, indem sie der KI Aufgaben stellten, die auch bei Kindern verwendet werden, um ihre sprachlichen Fähigkeiten zu erheben. Beispielsweise präsentierten sie vier Bilder, verbunden mit der Frage, welches davon einen Ball zeigt. Und tatsächlich: Bei zahlreichen Wörtern aus der Erfahrungswelt des Kleinkinds wählte die KI zielsicher das richtige Bild aus.

„Unsere Studie zeigt erstmals, dass ein neuronales Netzwerk, das auf den entwicklungsrealistischen Input eines einzelnen Kindes trainiert wurde, lernen kann, Wörter mit ihren visuellen Entsprechungen zu verknüpfen“, sagt Vong. Ähnlich wie kleine Kinder war auch die KI in der Lage, konkrete Beispiele zu generalisieren. Beispielsweise erkannte sie das Bild eines echten Schmetterlings, obwohl sie Schmetterlinge zuvor nur als Zeichnungen in einem Kinderbuch gesehen hatte.