Logo Zéphyrnet

Ce chien robot a un cerveau IA et a appris à marcher en seulement une heure

Date :

image

Avez-vous déjà vu un bébé gazelle apprendre à marcher ? Un faon, qui est essentiellement un papa mammifère aux longues jambes, se remet debout, tombe, se lève et retombe. Finalement, il se tient assez longtemps pour agiter ses jambes en forme de cure-dents dans une série de chutes proches… ahem, pas. Étonnamment, quelques minutes après cette parade attachante, le faon sautille comme un vieux pro.

Eh bien, nous avons maintenant une version robot de cette scène classique du Serengeti.

Le faon dans ce cas est un chien robotique de l'Université de Californie à Berkeley. Et c'est aussi un apprenant étonnamment rapide (par rapport au reste du genre robot). Le robot est également spécial car, contrairement à d'autres robots plus flashy que vous avez pu voir en ligne, il utilise l'intelligence artificielle pour apprendre à marcher.

En commençant sur le dos, les jambes agitées, le robot apprend à se retourner, à se lever et à marcher en une heure. Dix minutes supplémentaires de harcèlement avec un rouleau de carton suffisent pour lui apprendre à résister et à se remettre d'être bousculé par ses maîtres.

Ce n'est pas la première fois un robot a utilisé l'intelligence artificielle pour apprendre à marcher. Mais alors que les robots précédents apprenaient la compétence par essais et erreurs au cours d'innombrables itérations dans les simulations, le bot Berkeley a appris entièrement dans le monde réel.

[Contenu intégré]

Dans un papier publié sur le serveur de préimpression arXiv, les chercheurs – Danijar Hafner, Alejandro Escontrela et Philipp Wu – affirment que transférer des algorithmes appris en simulation dans le monde réel n'est pas simple. De petits détails et des différences entre le monde réel et la simulation peuvent faire trébucher des robots naissants. D'un autre côté, la formation d'algorithmes dans le monde réel n'est pas pratique : cela prendrait trop de temps et d'usure.

Il y a quatre ans, par exemple, OpenAI a présenté une main robotique compatible avec l'IA capable de manipuler un cube. L'algorithme de contrôle, Dactyl, a eu besoin de quelque 100 ans d'expérience dans une simulation alimentée par 6,144 8 CPU et 100 GPU Nvidia VXNUMX pour accomplir cette tâche relativement simple. Les choses ont avancé depuis, mais le problème demeure largement. Les algorithmes d'apprentissage par renforcement pur nécessitent trop d'essais et d'erreurs pour acquérir des compétences leur permettant de s'entraîner dans le monde réel. Autrement dit, le processus d'apprentissage briserait les chercheurs ainsi que robots avant de faire des progrès significatifs.

L'équipe de Berkeley a entrepris de résoudre ce problème avec un algorithme appelé Dreamer. Construire ce qu'on appelle un "modèle mondial", Dreamer peut projeter la probabilité qu'une action future atteigne son objectif. Avec l'expérience, la précision de ses projections s'améliore. En filtrant à l'avance les actions les moins réussies, le modèle mondial permet au robot de déterminer plus efficacement ce qui fonctionne.

"L'apprentissage de modèles mondiaux à partir d'expériences passées permet aux robots d'imaginer les résultats futurs d'actions potentielles, réduisant ainsi la quantité d'essais et d'erreurs dans l'environnement réel nécessaire pour apprendre des comportements réussis", écrivent les chercheurs. "En prédisant les résultats futurs, les modèles mondiaux permettent la planification et l'apprentissage du comportement avec seulement de petites quantités d'interaction dans le monde réel."

En d'autres termes, un modèle mondial peut réduire l'équivalent d'années de temps de formation dans une simulation à pas plus d'une heure gênante dans le monde réel.

L'approche peut également avoir une pertinence plus large que les chiens robots. L'équipe a également appliqué Dreamer à un bras robotique pick-and-place et à un robot à roues. Dans les deux cas, ils ont découvert que Dreamer permettait à leurs robots d'acquérir efficacement des compétences pertinentes, sans temps de simulation requis. Des applications futures plus ambitieuses pourraient inclure voitures auto-conduite.

Bien sûr, il reste encore des défis à relever. Bien que l'apprentissage par renforcement automatise une partie du codage manuel complexe derrière les robots les plus avancés d'aujourd'hui, il nécessite toujours que les ingénieurs définissent les objectifs d'un robot et ce qui constitue le succès - un exercice à la fois chronophage et ouvert pour les environnements du monde réel. De plus, bien que le robot ait survécu aux expériences de l'équipe ici, une formation plus longue sur des compétences plus avancées peut s'avérer trop lourde pour que les futurs robots survivent sans dommage. Les chercheurs disent qu'il pourrait être fructueux de combiner la formation sur simulateur avec un apprentissage rapide dans le monde réel.

Pourtant, les résultats font avancer l'IA dans la robotique d'une autre étape. Dreamer renforce l'argument selon lequel "l'apprentissage par renforcement sera un outil fondamental dans l'avenir du contrôle des robots", Jonathan Hurst, professeur de robotique à l'Oregon State University dit MIT Technology Review. 

Crédit image: Daniel Hafner / YouTube

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?