Dass ein Computerprogramm Strategiespiele wie Schach oder Go besser spielt als viele Menschen, ist nicht unbedingt neu. Doch nun hat sich eine Künstliche Intelligenz erstmals auch in einem komplexen Echtzeit-Strategiespiel bewährt. Durch eine Kombination aus selbstständigem Training und Imitation erfolgversprechender Spielzüge gelang es der KI “AlphaStar”, das Niveau eines Großmeisters beim Online-Spiel “Starcraft II” zu erreichen. Seine Ergebnisse in der Rangliste übertrafen die von 99,8 Prozent aller dort gelisteten menschlichen Spieler. Interessant und möglicherweise wegweisend ist dieses Resultat vor allem deshalb, weil die Anforderungen an eine künstliche Intelligenz in diesem Spiel denen im realen Alltag einen großen Schritt näherkommen.
Künstliche Intelligenz und lernfähige Algorithmen sind schon heute in vielen Anwendungen im Einsatz. Zudem haben KI-Systeme wie AlphaGo, AlphaZero oder Pluribus bereits bewiesen, dass sie selbst komplexe Strategiespiele wie Schach und Go sowie anspruchsvolle, von Bluffs geprägte Kartenspiele wie Poker beherrschen – teils besser als menschliche Profispieler. Doch so eindrucksvoll die Leistungen der KI auf vielen Gebieten schon sind, bei der Interaktion mit der realen Welt und ihren unzähligen unvorhersehbaren Ereignissen haben diese Programme noch Probleme – beispielsweise bei der Steuerung autonomer Autos. Denn dafür reicht es nicht, die Spielregeln und Strategien für ein eng umrissenes Aufgabengebiet zu lernen, die Künstliche Intelligenz muss auch kreative, schnelle Lösungen für unerwartete Situationen finden und gleichzeitig vorausschauend handeln.
Echtzeit-Strategiespiele als Training für KIs
Eine Umgebung, die zumindest in Ansätzen ähnliche Herausforderungen bietet, sind Echtzeit-Strategiespiele. In diesen Online-Spielen versuchen Spieler in einer gemeinsamen “Welt”, beispielsweise ein Wirtschaftsimperium aufzubauen, militärische Übermacht zu erlangen und zu festigen oder ein Reich zu verwalten. Dafür müssen die Spieler kurzfristige Aktionen ihrer Spielfiguren durchführen, wie Häuser bauen oder das Gebiet erkunden, dabei aber ihre langfristige Strategie berücksichtigen. Erschwerend kommt hinzu, dass jeder Spieler immer nur Teile der Spielwelt sieht und sie erst im Laufe der Zeit weiter erkunden kann. Auch die Gegenspieler und deren Strategien sind nicht von vornherein bekannt. “Solche Spiele sind ein exzellentes KI-Trainingsgebiet, denn die Spieler müssen begrenzte Informationen nutzen, um dynamische und schwierige Entscheidungen zu treffen, die Auswirkungen auf multiplen Ebenen und Zeitskalen haben”, erklären Erstautor Oriol Vinyals vom Forschungszentrum DeepMind in London und sein Kollege Wojciech Czarnecki.
Um herauszufinden, wie gut ein KI-System mit den Herausforderungen solcher Echtzeit-Strategiespiele zurechtkommt, haben Vinyals und sein Team nun ein lernfähiges Programm mit dem Spiel “Starcraft II” konfrontiert. Dieses in fiktionalen Welten angesiedelte Online-Spiel ist eines der populärsten im Bereich der E-Sports und wird von Tausenden von Profi-Spielern gespielt. Jeder Spieler kann dabei eine von drei Spezies mit jeweils unterschiedlichen Stärken und Fähigkeiten verkörpern und muss durch Ressourcensammeln, Handel und strategische Kriegsführung bestimmte Missionen erfolgreich absolvieren. “Die Komplexität des Spieles ist weit größer als beim Schach, weil die Spieler hunderte von Einheiten gleichzeitig steuern”, erklärt Seniorautor David Silver von DeepMind. “Sie ist auch größer als bei Go, weil es für jeden Spielzug zehn hoch 26 Möglichkeiten gibt. Und noch dazu haben die Spieler weniger Informationen über ihre Gegner als beim Poker.”
Erfolgreich gegen menschliche Profis
Für ihre Studie nutzten die Forscher ein “AlphaStar” getauftes KI-System, das auf allgemein einsetzbaren, nicht auf das Spiel spezialisierten neuronalen Netzwerken aufgebaut ist. Das Programm lernte zunächst die grundlegenden Spielregeln von Starcraft II und trainierte dann auf Basis eines Datensatzes, in dem die Spielzüge und Strategien menschlicher Spieler aufgezeichnet waren. Zusätzlich lernte AlphaStar auch durch verstärkendes Lernen, indem er wiederholt gegen mehrere Kopien seiner selbst spielte und dann bei erfolgreich absolvierter Mission eine “Belohnung” erhielt. Wichtig auch: Im Gegensatz zu einer früheren Form von AlphaStar bauten Vinyals und sein Team bei dieser Version bewusst Begrenzungen ein, denen auch menschliche Spieler unterliegen. Die KI sieht die Spielwelt genauso ausschnittweise und begrenzt wie diese und ist auch im Tempo seiner Aktionen auf ein fast menschliches Maß gebremst. Für den eigentlichen Leistungstest meldeten die Forscher AlphaStar unter Pseudonym im Battle.net an, einer Liga, in der Spieler auf Basis ihrer Leistungen im Spiel eingestuft werden. Das KI-System absolvierte dann Spiele, in denen es die Rolle aller drei “Spezies” einnahm.
Das Ergebnis: AlphaStar erreichte in allen Spezies den Rang eines Großmeisters – eine Liga, in die nur die 200 stärksten Spieler einer der fünf Regionen vorrücken dürfen. Sein Punktewert übertraf dabei den von 99,8 Prozent aller gelisteten menschlichen Spieler, wie Vinyals und seine Kollegen berichten. AlphaStar ist damit das erste Computerprogramm, das das Topniveau in einem professionell gespielten E-Sport erreicht. “AlphaStar hat dieses Niveau allein mit einem neuronalen Netzwerk und universell einsetzbaren Lern-Algorithmen erreicht – das war vor zehn Jahren noch unvorstellbar”, sagt Vinyals. Auch einige der Profispieler, gegen die AlphaStar antrat, waren beeindruckt: “AlphaStar ist ein faszinierender und unorthodoxer Spieler – einer mit Reflexen und dem Tempo der besten Profis, aber Strategien und einem Stil, die ganz sein eigener sind”, sagt Diego “Kelazhur” Schwimer.
Doch den DeepMind-Forschern geht es bei AlphaStar nicht allein um den Erfolg im Spiel, sondern auch darum, durch solche Aufgaben die künstliche Intelligenz voranzubringen: “Wir wollen das Potenzial und die Grenzen des ergebnisoffenen Lernens besser verstehen”, so Vinyals und Czamecki. “Denn das ermöglicht es uns, robuste und flexible Agenten zu entwickeln, die auch mit den komplexen Anforderungen der realen Welt zurande kommen.” Der Erfolg in einem anspruchsvollen Echtzeit-Strategiespiel ist dafür ein erster Schritt – aber noch viele weitere müssen folgen.
Quelle: Oriol Vinyals (DeepMind, London) et al., Nature, doi: 10.1038/s41586-019-1724-z