Künstliche Intelligenz spielt Space Invaders

Neuronales Netzwerk im Lerntest

Die Lernfähigkeit von Computern und Robotern ist im Vergleich dazu noch eher beschränkt und funktioniert nur in wenigen eng umgrenzten Anwendungsbereichen gut, wie Volodymyr Mnih und seine Kollegen vom Projekt Google DeepMind in London erklären. Sie haben nun allerdings eine künstliche Intelligenz entwickelt, die ohne viel Vorwissen direkt aus eingehenden Reizen lernen kann. Das Deep Q-Network (DQN) genannte System basiert auf einem neuronalen Netzwerk mit hierarchischen Filterschichten. Ähnlich wie unser Gehirn auch, lernt dieses Netzwerk durch positive Verstärkung: Bringt eine Aktion Erfolg, wird sie beibehalten. Bringt sie keinen, wird sie beim nächsten Mal verändert.

Um zu testen, wie gut und wie selbstständig DQN tatsächlich lernt, ließen die Forscher das Programm 49 verschiedene Videospiel-Klassiker lernen, die früher auf dem Atari 2600 liefen. Unter diesen sind Autorennspiele wie Enduro, Schießspiele wie Space Invaders, aber auch einfache Strategiespiele wie Breakout. Die Regeln und vor allem die Strategien, die zu einem möglichst hohen Highscore führen, unterscheiden sich jeweils. “Damit wollten wir demonstrieren, dass unser System auf Basis nur minimaler Vorinformationen robuste Strategien für ganz unterschiedliche Spiele lernen kann”, betonen Mnih und seine Kollegen. Das Deep Q-Network erhielt jeweils die Bildinformationen der verschiedenen Spielphasen und die Rückmeldung, ob seine jeweilige Aktion positiv oder negativ war – ähnlich wie der Punktestand für einen menschlichen Spieler. Im eigentlichen Test spielte das neuronale Netzwerk das jeweils gelernte Spiel 30 Mal hintereinander und der Highscore wurde registriert. Der gegen ihn antretende menschliche Spieler durfte zuvor auch zwei Stunden üben und spielte danach das Spiel ebenfalls mehrfach durch.

Fast so gut wie der menschliche Spieler

Das Ergebnis: Das Computerprogramm schaffte es, sich die verschiedenen Spiele quasi selbst beizubringen. In einigen Spielen lernte es dabei sogar, längerfristige Strategien einzusetzen, wie die Forscher berichten: Beim Spiel Breakout beispielsweise besteht die optimale Strategie darin, sich zunächst einen Tunnel an der Seite freizuschießen, damit der Ball auch die Rückseite der Mauer zerstören kann. Im Durchschnitt schnitt das Deep Q-Network nur wenig schlechter ab als sein menschlicher Konkurrent: “In mehr als der Hälfte der Spiele erreichte DQN mehr als drei Viertel der Punktzahl, die der Mensch erzielte”, berichten die Forscher. Bisherige lernfähige Programme lässt das Deep Q-Network damit weit hinter sich.

Nach Ansicht der Forscher demonstriert ihr System, dass auch Computer fähig sind, mit nur minimaler Vorinformation Neues zu lernen. Dem Deep Q-Network gelang dies noch dazu unter ganz unterschiedlichen Bedingen – je nach Spiel waren andere Spielzüge und Taktiken gefragt. “Dies ist damit die erste künstliche Intelligenz, die selbst lernt, eine vielfältige Spannbreite von Aufgaben erfolgreich zu bewältigen”, konstatieren Mnih und seine Kollegen.