Logo Zéphyrnet

Cette IA DeepMind apprend rapidement de nouvelles compétences simplement en observant les humains

Date :

Enseigner des algorithmes pour imiter les humains nécessite généralement des centaines, voire des milliers d’exemples. Mais une nouvelle IA de Google DeepMind peut acquérir à la volée de nouvelles compétences auprès de démonstrateurs humains.

L’une des plus grandes astuces de l’humanité réside dans notre capacité à acquérir des connaissances rapidement et efficacement les uns des autres. C’est ce type d’apprentissage social, souvent appelé transmission culturelle, qui nous permet de montrer à un collègue comment utiliser un nouvel outil ou d’enseigner des comptines à nos enfants.

Il n’est pas surprenant que les chercheurs aient tenté de reproduire le processus sur des machines. L’apprentissage par imitation, dans lequel l’IA regarde un humain accomplir une tâche puis tente d’imiter son comportement, est depuis longtemps une approche populaire pour entraîner les robots. Mais même les algorithmes d’apprentissage profond les plus avancés d’aujourd’hui ont généralement besoin de voir de nombreux exemples avant de pouvoir copier avec succès leurs formateurs.

Lorsque les humains apprennent par imitation, ils peuvent souvent se lancer dans de nouvelles tâches après seulement quelques démonstrations. Aujourd’hui, les chercheurs de Google DeepMind ont fait un pas en avant vers un apprentissage social rapide dans le domaine de l’IA, avec des agents qui apprennent à naviguer dans un monde virtuel auprès d’humains en temps réel.

"Nos agents réussissent à imiter en temps réel un humain dans de nouveaux contextes sans utiliser de données humaines pré-collectées", écrivent les chercheurs dans un article. papier dans Communications Nature. "Nous identifions un ensemble étonnamment simple d’ingrédients suffisants pour générer une transmission culturelle.

Les chercheurs ont formé leurs agents dans un simulateur spécialement conçu appelé GoalCycle3D. Le simulateur utilise un algorithme pour générer un nombre presque infini d'environnements différents en fonction de règles sur la manière dont la simulation doit fonctionner et sur les aspects qui doivent en varier.

Dans chaque environnement, une petite goutte Agents d'IA doit naviguer sur un terrain accidenté et divers obstacles pour traverser une série de sphères colorées dans un ordre spécifique. La bosse du terrain, la densité des obstacles et la configuration des sphères varient selon les environnements.

Les agents sont formés pour naviguer en utilisant apprentissage par renforcement. Ils gagnent une récompense pour avoir traversé les sphères dans le bon ordre et utilisent ce signal pour améliorer leurs performances au cours de nombreuses épreuves. Mais en plus, les environnements comportent également un agent expert, codé en dur ou contrôlé par un humain, qui connaît déjà le bon itinéraire à travers le cours.

Au fil de nombreuses sessions de formation, les agents IA apprennent non seulement les principes fondamentaux du fonctionnement des environnements, mais aussi que le moyen le plus rapide de résoudre chaque problème est d'imiter l'expert. Pour s'assurer que les agents apprenaient à imiter plutôt qu'à simplement mémoriser les cours, l'équipe les a formés dans un ensemble d'environnements, puis les a testés dans un autre. Surtout, après la formation, l’équipe a montré que ses agents pouvaient imiter un expert et continuer à suivre l’itinéraire même sans l’expert.

Cela a nécessité quelques ajustements aux approches standard d’apprentissage par renforcement.

Les chercheurs ont fait en sorte que l'algorithme se concentre sur l'expert en lui faisant prédire l'emplacement de l'autre agent. Ils lui ont également donné un module de mémoire. Pendant la formation, l'expert entrait et sortait des environnements, obligeant l'agent à mémoriser ses actions lorsqu'il n'était plus présent. L’IA s’est également entraînée sur un large éventail d’environnements, ce qui lui a permis de voir un large éventail de tâches possibles.

Il pourrait cependant être difficile de traduire cette approche dans des domaines plus pratiques. Une limitation clé est que lorsque les chercheurs ont testé si l’IA pouvait apprendre de démonstrations humaines, l’agent expert était contrôlé par une personne pendant toutes les phases de formation. Il est donc difficile de savoir si les agents pourraient apprendre de différentes personnes.

Plus important encore, la possibilité de modifier de manière aléatoire l’environnement de formation serait difficile à recréer dans le monde réel. Et la tâche sous-jacente était simple, ne nécessitant aucun contrôle moteur fin et se déroulant dans des environnements virtuels hautement contrôlés.

Néanmoins, les progrès de l’apprentissage social dans l’IA sont les bienvenus. Si nous voulons vivre dans un monde doté de machines intelligentes, il sera crucial de trouver des moyens efficaces et intuitifs de partager notre expérience et notre expertise avec elles.

Crédit image: Juliana et Mariana Amorim / Unsplash

spot_img

Dernières informations

spot_img