Auch Ms. Pacman hat Muzero sich erfolgreich beigebracht.

Foto: Ms. Pacman

In Schach ist der Mensch längst vom Computer entthront worden. Und auch im enorm komplexen Brettspiel Go konnte eine von der Google-Tochter Deepmind entwickelte KI namens AlphaGo vor vier Jahren Geschichte schreiben. Und auch in Videospielen, etwa Dota 2 und Starcraft wurden enorme Fortschritte erzielt.

Was all diese Künstlichen Intelligenzen vereint ist allerdings, dass man ihnen erst einmal einprogrammieren musste, wie die jeweiligen Spiele eigentlich funktionieren, ehe sie selbständig erlernten, wie man am besten Spielt. Nun ist der nächste Durchbruch gelungen.

KI als Autodidakt

Eine neue Deepmind-KI, Muzero, kommt auch ohne Regelwerk aus, berichtet IEEE Spectrum. Es testet einfach verschiedene Aktionen aus, um herauszufinden, was erlaubt ist und was nicht. Dazu nimmt es Belohnungen wahr, etwa geschlagene Figuren in Schach oder steigende Punkte in einem Videospiel. Es ändert seine eigene Spielweise so, dass es möglichst oft Belohnungen erhält, und lernt so mit der Zeit sowohl Regeln, als auch effektive Spielweisen.

Die Implikationen dieses Zugangs sind beachtlich. Denn längst nicht für jedes zu lösende Probleme in der realen Welt lässt sich einfach ein Regelsatz festlegen. Eine KI, die ohne solchen Instruktionen auskommt und sich den Lösungszugang selbst antrainieren kann, bietet ein bisher nicht da gewesenes Einsatzpotenzial.

Vielfältiger Einsatz denkbar

Dementsprechend wird bereits über die Einsatzmöglichkeiten von Muzero nachgedacht. Diskutiert wird etwa die Verwendung der KI in Systemen für selbstfahrende Autos, etwa bei Googles Schwesterkonzern Waymo. Ebenso überlegt wird, die KI Proteine designen zu lassen, die man etwa in Medikamenten zur Behandlung spezifischer Probleme bzw. Erkrankungen einsetzt.

Durch die gleichzeitige Erlernung des Regelwerks und Entwicklung von Spielstrategien soll Muzero wesentlich "ökonomischer" mit Daten umgehen, als Alphazero und Co. Selbst wenn man die KI im Videospiel Ms. Pacman auf nur sechs oder sieben Simulationsschritte pro Zug begrenzte – deutlich weniger Aktionen, als möglich sind – schlug sie sich laut den Entwicklern immer noch "ziemlich gut".

Effizienter Umgang mit Daten

Dazu soll das Training auch insgesamt flott von statten gehen. Muzero könne sich binnen zwei bis drei Wochen beibringen, ein Atari-Spiel zu spielen, selbst wenn es nur einen einzelnen Grafikprozessor für seine Rechenoperationen zur Verfügung hat. Die Effizienz kommt unter anderem daher, dass die KI nur jene Aspekte für seine Modelle berücksichtigt, die relevant für seine Entscheidungen sind.

"Zu wissen, dass ein Schirm vor Regen schützt ist nützlicher, als das Niederschlagsmuster der Tropfen zu errechnen", bringen die Entwickler einen Vergleich für dieses Vorgehen. Das Vorgehen, schreibt Spectrum, lässt sich damit vergleichen, wie Schach-Profis agieren. Diese denken zwar mehrere Züge in die Zukunft, allerdings nur für einige wenige Figurenpositionen, die ihrer Ansicht nach relevant für den weiteren Spielverlauf sind, anstatt zu versuchen, jeden einzelnen möglichen Zug zu berücksichtigen. (red, 24.12.2020)