Zephyrnet-Logo

Eine KI hat gelernt, Atari 6,000 Mal schneller zu spielen, indem sie die Anweisungen gelesen hat

Datum:

Trotz beeindruckender Fortschritte sind die heutigen KI-Modelle sehr ineffiziente Lernende, die enorme Mengen an Zeit und Daten benötigt, um Probleme zu lösen, die Menschen fast augenblicklich erkennen. Ein neuer Ansatz könnte die Dinge drastisch beschleunigen, indem er die KI dazu bringt, Bedienungsanleitungen zu lesen, bevor sie eine Herausforderung versucht.

Einer der vielversprechendsten Ansätze zur Entwicklung von KI, die eine Vielzahl von Problemen lösen kann, ist das bestärkende Lernen, bei dem ein Ziel gesetzt und die KI dafür belohnt wird, dass sie Maßnahmen ergreift, die auf dieses Ziel hinarbeiten. Dies ist der Ansatz hinter den meisten großen Durchbrüchen in der Spiele-KI, wie zum Beispiel AlphaGo von DeepMind.

So leistungsfähig die Technik auch ist, sie beruht im Wesentlichen auf Versuch und Irrtum, um eine effektive Strategie zu finden. Das bedeutet, dass diese Algorithmen mehrere Jahre damit verbringen können, durch Video- und Brettspiele zu stolpern, bis sie auf eine Gewinnformel stoßen.

Dank der Leistungsfähigkeit moderner Computer ist dies in einem Bruchteil der Zeit möglich, die ein Mensch in Anspruch nehmen würde. Aber diese schlechte „Probeneffizienz“ bedeutet, dass Forscher Zugang zu einer großen Anzahl von teuren Spezialisten benötigen AI-Chips, wodurch eingeschränkt wird, wer an diesen Problemen arbeiten kann. Es schränkt auch die Anwendung von Reinforcement Learning ernsthaft auf reale Situationen ein, in denen Millionen von Durchläufen einfach nicht machbar sind.

Jetzt hat ein Team der Carnegie Mellon University einen Weg gefunden, Algorithmen für Reinforcement Learning zu helfen, viel schneller zu lernen, indem es sie mit einem Sprachmodell kombiniert, das Bedienungsanleitungen lesen kann. Ihr Ansatz, skizziert in a Vorabdruck erschienen am arXiv, hat einer KI beigebracht, ein herausforderndes Atari-Videospiel tausendmal schneller zu spielen als ein hochmodernes Modell, das von DeepMind entwickelt wurde.

„Unsere Arbeit ist die erste, die die Möglichkeit eines vollautomatischen Frameworks für bestärkendes Lernen demonstriert, um von einer Bedienungsanleitung für ein umfassend untersuchtes Spiel zu profitieren“, sagte Yue Wu, der die Forschung leitete. „Wir haben Experimente mit anderen komplizierteren Spielen wie Minecraft durchgeführt und vielversprechende Ergebnisse erzielt. Wir glauben, dass unser Ansatz für komplexere Probleme gelten sollte.“

Atari-Videospiele sind dank der kontrollierten Umgebung und der Tatsache, dass die Spiele über ein Bewertungssystem verfügen, das als Belohnung für die Algorithmen dienen kann, ein beliebter Maßstab für das Studium des Reinforcement Learning. Um ihrer KI jedoch einen Vorsprung zu verschaffen, wollten die Forscher ihr einige zusätzliche Hinweise geben.

Zuerst trainierten sie ein Sprachmodell, um Schlüsselinformationen aus der offiziellen Bedienungsanleitung des Spiels zu extrahieren und zusammenzufassen. Diese Informationen wurden dann verwendet, um Fragen zum Spiel an ein vortrainiertes Sprachmodell zu stellen, das in Größe und Leistungsfähigkeit dem von GPT-3 ähnelt. Im Spiel PacMan könnte dies zum Beispiel lauten: „Solltest du einen Geist schlagen, wenn du das Spiel gewinnen willst?“, für das die Antwort nein ist.

Diese Antworten werden dann verwendet, um über das integrierte Bewertungssystem des Spiels hinaus zusätzliche Belohnungen für den Verstärkungsalgorithmus zu erstellen. Im PacMan-Beispiel würde das Treffen eines Geistes jetzt eine Strafe von -5 Punkten nach sich ziehen. Diese zusätzlichen Belohnungen werden dann in einen etablierten Reinforcement-Learning-Algorithmus eingespeist, damit dieser das Spiel schneller lernt.

Die Forscher testeten ihren Ansatz weiter Skifahren 6000, eines der Atari-Spiele, das für KI am schwierigsten zu meistern ist. Das 2D-Spiel erfordert, dass die Spieler einen Hügel hinunterslalomen, zwischen Stangen navigieren und Hindernissen ausweichen. Das mag einfach klingen, aber die führende KI musste 80 Milliarden Frames des Spiels durchlaufen, um eine vergleichbare Leistung wie ein Mensch zu erreichen.

Im Gegensatz dazu benötigte der neue Ansatz nur 13 Millionen Frames, um das Spiel in den Griff zu bekommen, obwohl er nur eine etwa halb so gute Punktzahl wie die führende Technik erreichen konnte. Das bedeutet, dass es nicht einmal so gut ist wie der durchschnittliche Mensch, aber es war erheblich besser als einige andere führende Reinforcement-Learning-Ansätze, die überhaupt nicht den Dreh rausbekamen. Dazu gehört der bewährte Algorithmus, auf den sich die neue KI stützt.

Die Forscher sagen, dass sie bereits damit begonnen haben, ihren Ansatz an komplexeren 3D-Spielen wie Minecraft zu testen, mit vielversprechenden ersten Ergebnissen. Aber Reinforcement Learning hat lange Mühe, den Sprung von Videospielen, bei denen der Computer Zugriff auf ein vollständiges Modell der Welt hat, zur chaotischen Ungewissheit der physischen Realität zu schaffen.

Wu sagt, er sei zuversichtlich, dass die rasche Verbesserung der Fähigkeiten bei der Objekterkennung und -lokalisierung bald Anwendungen wie autonomes Fahren oder Haushaltsautomatisierung in Reichweite bringen könnte. In jedem Fall deuten die Ergebnisse darauf hin, dass schnelle Verbesserungen der KI-Sprachmodelle als Katalysator für Fortschritte in anderen Bereichen des Bereichs wirken könnten.

Bild-Kredit: Kreg Steppe / Flickr

spot_img

Neueste Intelligenz

spot_img