L'IA a battu les échecs et Go, mais elle a du mal à trouver un diamant dans Minecraft

Que nous apprenions à cuisiner une omelette ou à conduire une voiture, le chemin vers la maîtrise de nouvelles compétences commence souvent par regarder les autres. Mais l'intelligence artificielle peut-elle apprendre de la même manière? Un nouveau défi pour apprendre aux agents de l'IA à jouer Minecraft suggère que c'est beaucoup plus délicat pour les ordinateurs.

Annoncé plus tôt cette année, le concours MineRL a demandé à des équipes de chercheurs de créer des robots IA capables d'exploiter avec succès un diamant dans Minecraft. Ce n'est pas une tâche impossible, mais cela nécessite une maîtrise des bases du jeu. Les joueurs doivent savoir comment abattre des arbres, fabriquer des pioches et explorer des grottes souterraines tout en évitant les monstres et la lave. Ce sont les types de compétences que la plupart des adultes pourraient acquérir après quelques heures d'expérimentation ou apprendre beaucoup plus rapidement en regardant des didacticiels sur YouTube.

Mais sur les 660 inscriptions au concours MineRL, aucune n'a pu relever le défi, selon les résultats qui seront annoncés lors de la conférence AI NeurIPS et qui ont été rapportés pour la première fois par nouvelles de la BBC. Bien que les robots aient pu apprendre les étapes intermédiaires, comme la construction d'un four pour fabriquer des pioches durables, aucun n'a réussi à trouver un diamant.

"La tâche que nous avons posée est très difficile", a déclaré Katja Hofmann, chercheuse principale chez Microsoft Research, qui a aidé à organiser le défi. nouvelles de la BBC. «Bien qu'aucun agent soumis n'ait complètement résolu la tâche, il a fait beaucoup de progrès et a appris à créer bon nombre des outils nécessaires en cours de route.»



Exemples de certaines des étapes nécessaires pour extraire un diamant Minecraft de la base de données de formation MineRL.

Cela peut être une surprise, surtout quand vous pensez que l'IA a réussi à battre les humains dans des jeux comme les échecs, Go et Dota 2. Mais cela reflète les limites importantes de la technologie ainsi que les restrictions mises en place par les juges de MineRL pour vraiment défier les équipes.

Les robots de MineRL ont dû apprendre en utilisant une combinaison de méthodes appelées apprentissage par imitation et apprentissage par renforcement. Dans l'apprentissage par imitation, les agents reçoivent des données sur la tâche qui les attend et essaient de l'imiter. Dans l'apprentissage par renforcement, ils sont simplement jetés dans un monde virtuel et laissés à eux-mêmes en utilisant les essais et les erreurs.

Souvent, l'IA ne peut relever de grands défis qu'en combinant ces deux méthodes. Le célèbre système AlphaGo, par exemple, a d'abord appris à jouer au Go en se nourrissant des données d'anciens jeux. Il a ensuite perfectionné ses compétences – et dépassé tous les humains – en se jouant encore et encore.

[intégré] https://www.youtube.com/watch?v=ggo1WAldyq0 [/ intégré]

Les robots MineRL ont adopté une approche similaire, mais les ressources à leur disposition étaient relativement limitées. Alors que les agents d'IA comme AlphaGo sont créés avec d'énormes ensembles de données, un matériel informatique puissant et l'équivalent de décennies de formation, les robots MineRL ont dû se contenter de seulement 1000 heures de jeu enregistré pour apprendre, un seul processeur graphique Nvidia pour s'entraîner avec , et seulement quatre jours pour se mettre au courant.

C’est la différence entre les ressources dont dispose une équipe de la MLB – entraîneurs, nutritionnistes, le meilleur équipement que l’argent peut acheter – et ce qu’une équipe de la Petite Ligue doit faire avec.

Il peut sembler injuste d'entraver les robots MineRL de cette manière, mais ces contraintes reflètent les défis de l'intégration de l'IA dans le monde réel. Alors que les robots comme AlphaGo repoussent certainement les limites de l'IA, très peu d'entreprises et de laboratoires de recherche peuvent égaler les ressources de DeepMind, propriété de Google.

L'organisateur principal du concours, William Guss, étudiant au doctorat à l'Université Carnegie Mellon, a déclaré nouvelles de la BBC que le défi visait à montrer que tous les problèmes d'IA ne devaient pas être résolus en y injectant de la puissance de calcul. Cet état d'esprit, a déclaré Guss, "va directement à l'encontre de la démocratisation de l'accès à ces systèmes d'apprentissage par renforcement, et laisse la capacité de former des agents dans des environnements complexes aux entreprises disposant de vastes étendues de calcul."

Ainsi, alors que l'IA peut être en difficulté Minecraft maintenant, quand il relèvera ce défi, il devrait, espérons-le, offrir des avantages à un public plus large. Ne pensez pas à ces pauvres Minecraft YouTubers qui pourraient être sans emploi.

Traduit de la source : https://www.theverge.com/2019/12/13/21020230/ai-minecraft-minerl-diamond-challenge-microsoft-reinforcement-learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.