Logo Zéphyrnet

Une IA a appris à jouer à Atari 6,000 XNUMX fois plus vite en lisant les instructions

Date :

Malgré des progrès impressionnants, les modèles d'IA d'aujourd'hui sont très apprenants inefficaces, ce qui prend énormément de temps et de données pour résoudre des problèmes que les humains détectent presque instantanément. Une nouvelle approche pourrait considérablement accélérer les choses en obligeant l'IA à lire les manuels d'instructions avant de tenter un défi.

L'une des approches les plus prometteuses pour créer une IA capable de résoudre un large éventail de problèmes est l'apprentissage par renforcement, qui consiste à fixer un objectif et à récompenser l'IA pour avoir pris des mesures qui contribuent à cet objectif. C'est l'approche derrière la plupart des percées majeures dans l'IA de jeu, comme AlphaGo de DeepMind.

Aussi puissante que soit la technique, elle repose essentiellement sur des essais et des erreurs pour trouver une stratégie efficace. Cela signifie que ces algorithmes peuvent passer l'équivalent de plusieurs années à gaffer dans les jeux vidéo et de société jusqu'à ce qu'ils trouvent une formule gagnante.

Grâce à la puissance des ordinateurs modernes, cela peut être fait en une fraction du temps qu'il faudrait à un humain. Mais cette faible "efficacité de l'échantillon" signifie que les chercheurs doivent avoir accès à un grand nombre d'outils spécialisés coûteux. Puces AI, ce qui limite qui peut travailler sur ces problèmes. Cela limite également sérieusement l'application de l'apprentissage par renforcement à des situations réelles où il n'est tout simplement pas possible de faire des millions de répétitions.

Maintenant, une équipe de l'Université Carnegie Mellon a trouvé un moyen d'aider les algorithmes d'apprentissage par renforcement à apprendre beaucoup plus rapidement en les combinant avec un modèle de langage capable de lire les manuels d'instructions. Leur approche, décrite dans un prépublication publiée le arXiv, a appris à une IA à jouer à un jeu vidéo Atari stimulant des milliers de fois plus rapidement qu'un modèle de pointe développé par DeepMind.

"Notre travail est le premier à démontrer la possibilité d'un cadre d'apprentissage par renforcement entièrement automatisé pour bénéficier d'un manuel d'instructions pour un jeu largement étudié", a déclaré Yue Wu, qui a dirigé la recherche. "Nous avons mené des expériences sur d'autres jeux plus compliqués comme Minecraft, et avons vu des résultats prometteurs. Nous croyons que notre approche devrait s'appliquer à des problèmes plus complexes.

Les jeux vidéo Atari ont été une référence populaire pour étudier l'apprentissage par renforcement grâce à l'environnement contrôlé et au fait que les jeux disposent d'un système de notation, qui peut servir de récompense aux algorithmes. Cependant, pour donner une longueur d'avance à leur IA, les chercheurs ont voulu lui donner quelques indications supplémentaires.

Tout d'abord, ils ont formé un modèle de langage pour extraire et résumer les informations clés du manuel d'instructions officiel du jeu. Ces informations ont ensuite été utilisées pour poser des questions sur le jeu à un modèle de langage pré-formé similaire en taille et en capacité à GPT-3. Par exemple, dans le jeu PacMan, cela pourrait être "Devez-vous frapper un fantôme si vous voulez gagner le jeu ?", pour lequel la réponse est non.

Ces réponses sont ensuite utilisées pour créer des récompenses supplémentaires pour l'algorithme de renforcement, au-delà du système de notation intégré du jeu. Dans l'exemple de PacMan, frapper un fantôme attirerait désormais une pénalité de -5 points. Ces récompenses supplémentaires sont ensuite introduites dans un algorithme d'apprentissage par renforcement bien établi pour l'aider à apprendre le jeu plus rapidement.

Les chercheurs ont testé leur approche sur Ski 6000, qui est l'un des jeux Atari les plus difficiles à maîtriser pour l'IA. Le jeu 2D demande aux joueurs de slalomer sur une colline, de naviguer entre les poteaux et d'éviter les obstacles. Cela peut sembler assez facile, mais l'IA principale a dû parcourir 80 milliards d'images du jeu pour obtenir des performances comparables à celles d'un humain.

En revanche, la nouvelle approche n'a nécessité que 13 millions d'images pour maîtriser le jeu, bien qu'elle n'ait pu obtenir qu'un score environ la moitié aussi bon que la technique principale. Cela signifie qu'il n'est même pas aussi bon que l'humain moyen, mais qu'il a fait beaucoup mieux que plusieurs autres approches d'apprentissage par renforcement de premier plan qui n'ont pas du tout compris le jeu. Cela inclut l'algorithme bien établi sur lequel repose la nouvelle IA.

Les chercheurs disent avoir déjà commencé à tester leur approche sur des jeux 3D plus complexes comme Minecraft, avec des premiers résultats prometteurs. Mais l'apprentissage par renforcement a longtemps eu du mal à passer des jeux vidéo, où l'ordinateur a accès à un modèle complet du monde, à l'incertitude désordonnée de la réalité physique.

Wu dit qu'il espère que l'amélioration rapide des capacités de détection et de localisation d'objets pourrait bientôt mettre à portée de main des applications telles que la conduite autonome ou l'automatisation domestique. Quoi qu'il en soit, les résultats suggèrent que des améliorations rapides des modèles de langage d'IA pourraient agir comme un catalyseur de progrès ailleurs dans le domaine.

Crédit image: Steppe de Kreg / Flickr

spot_img

Dernières informations

spot_img