Im Spiel “Jenga” besteht die Aufgabe darin, einen Turm aus 54 rechteckigen Holzklötzchen nach und nach höher zu bauen. Der Clou dabei: Jeder Baustein muss erst aus einer der unteren Turmstockwerke vorsichtig herausgelöst werden, ohne den Turm kippen zu lassen. “Anders als bei rein kognitiven Aufgaben oder Spielen wie Schach oder Go erfordert das Spiel Jenga auch die Beherrschung physischer Fertigkeiten wie dem Schieben, Testen, Platzieren und Ausrichten von Spielsteinen”, erklärt Seniorautor Alberto Rodriguez vom Massachusetts Institute of Technology (MIT). “Man benötigt dafür interaktives Wahrnehmen und Handeln, weil man durch vorsichtiges Berühren des Turms lernen muss, wo und wie man am besten einen Bauklotz bewegt.”
Lernen durch Generalisierung
Wollte man einem Roboter dieses Spiel mithilfe der traditionellen Verfahren des Maschinenlernens beibringen, müssten die Algorithmen alles Erfassen und Durchtesten, was zwischen einem Bauklotz, dem Turm und dem Roboter stattfindet. Der Roboterarm müsste dafür tausende, vielleicht sogar zehntausende von Spielzügen ausführen – und die Forscher müssten den Turm fast ebenso oft wieder aufbauen. Um diesen enormen Aufwand zu umgehen, haben Rodriguez, sein Kollege Nima Fazeli und ihr Team nach effizienteren Lernstrategien für ihren Roboter gesucht. Ihr Ansatz: Ähnlich wie es der Mensch tut, sollte das Maschinengehirn des Roboters lernen, auf Basis nur weniger Versuche verallgemeinerte Vermutungen über das Verhalten der Klötze und des Turms zu entwickeln. “Die Herausforderung besteht darin, von einer relativ geringen Zahl an Experimenten zu lernen, indem man Rückschlüsse über die Objekte und ihre Physik zieht”, erklärt Rodriguez.
Der Roboterarm begann sein Training mit rund 300 praktischen Versuchen am Jenga-Turm. Er wählte mithilfe seiner Kamera zufällig einen Klotz aus und schob oder zog an ihm. Bei jedem dieser Versuche zeichnete sein Steuerungscomputer die visuellen Abläufe auf, registrierte die Kraft, die für das Bewegen des Klotzes nötig war und ob der Versuch mit einem Erfolg endete. Nun folgte der entscheidende Schritt: Auf Basis dieser Informationen bildete der Computer Gruppen ähnlicher Versuche und Ergebnisse. Für jede dieser Gruppen entwickelte er ein Modell, mit deren Hilfe er das Verhalten eines Bauklötzchens vorhersagen lernte. So erfasste er beispielsweise, dass ein relativ festsitzender Klotz beim Entfernen den Turm höchstwahrscheinlich zum Einsturz bringen würde.
Ähnlich gut wie menschliche Spieler
Die Cluster-Lernstrategie erwies sich als erfolgreich: Der Roboterarm schnitt nach seiner Trainingsphase kaum schlechter ab als menschliche Jenga-Spieler: “Wir schauten, wie viele Klötze ein Mensch im Schnitt entfernen konnte, bevor der Turm fiel – und der Unterschied zum Roboter war nicht sonderlich groß, berichtet Co-Autor Miquel Oller vom MIT. Gegenüber Robotersimulationen mit herkömmlichen Lernalgorithmen hatte der Roboterarm sogar den Finger vorn. Denn bei gleichen Ausgangsbedingungen benötigten seine Konkurrenten ein Vielfaches der Trainingseinheiten, um das Spiel ähnlich gut zu lernen.





