제퍼넷 로고

Facebook, 역사상 가장 어려운 강화 학습 과제 중 하나 출시

시간

Facebook, 역사상 가장 어려운 강화 학습 과제 중 하나 출시

FAIR 팀은 다가오는 NeurIPS 2021 대회의 일환으로 NetHack Challenge를 시작했습니다. 목표는 세계에서 가장 어려운 게임 환경 중 하나를 사용하여 새로운 RL 아이디어를 테스트하는 것입니다.




이미지 출처: 페이스북 리서치

 

저는 최근에 AI 교육에 대한 새로운 뉴스 레터를 시작했습니다. 이미 50,000 명 이상의 구독자가 있습니다.. TheSequence는 읽는 데 5 분이 소요되는 비 BS (과대 광고 없음, 뉴스 없음 등) AI 중심 뉴스 레터입니다. 목표는 기계 학습 프로젝트, 연구 논문 및 개념에 대한 최신 정보를 유지하는 것입니다. 아래에서 구독하여 사용해보세요.

영상

강화 학습(RL)은 지난 2년 동안 인공 지능(AI)에서 가장 인상적인 성과의 중심에 있었습니다. DeepMind의 유명한 AlphaGo부터 StarCraft II, Dota XNUMX 또는 Minecraft와 같은 게임의 이정표에 이르기까지 RL은 딥 러닝 공간에서 가장 빠르게 성장하는 영역 중 하나로 남아 있습니다. 모든 성공에도 불구하고 FAIR(Facebook AI Research)는 RL을 새로운 수준으로 끌어올려야 한다고 믿고 있으며 이를 위해 새로운 게임인 NetHack에 관심을 돌리고 있습니다.

FAIR 팀이 방금 출시했습니다. NetHack 챌린지 다가오는 일의 일환으로 NeurIPS 2021 대회. 목표는 세계에서 가장 어려운 게임 환경 중 하나를 사용하여 새로운 RL 아이디어를 테스트하는 것입니다.

NetHack과 RL

 
NetHack은 1980년대부터 개발되어 온 전통적인 던전 게임으로, 새로운 플레이어가 마스터하기가 엄청나게 어렵습니다. 일단 NetHack의 실수는 불균형한 비용을 발생시킵니다. 플레이어가 죽으면 게임은 완전히 다른 던전에서 처음부터 시작됩니다. 게임을 성공적으로 완료하려면 플레이어는 스타크래프트보다 약 25~50배 더 ​​많은 단계를 실행해야 합니다. 또한 NetHack의 많은 문제에 대한 솔루션에는 창의성과 외부 지식 소스의 컨설팅이 필요하므로 전략적 관점에서 모델링하기가 엄청나게 어렵습니다.



이미지 출처: 페이스북 리서치



이미지 출처: 페이스북 리서치

 

RL 관점에서 NetHack은 다음과 같은 고유한 과제를 제시합니다.

  • 에이전트는 환경을 재설정할 수 없으므로 이러한 유형의 설정에서는 몬테카를로 트리 검색과 같은 최적화 방법이 쓸모가 없습니다.
  • 환경이 부분적으로 완전하다는 점을 고려하면 탐색은 더욱 중요합니다.
  • 환경 변화의 높은 가변성에는 신속하게 적응하는 RL 기술이 필요합니다.

무엇보다도 NetHack 챌린지는 오류로 인해 상당한 비용이 발생하는 매우 복잡한 환경에서 작동할 수 있는 새로운 RL 방법 세트를 가져와야 합니다. 이는 NetHack과 일부 거시적 특성을 공유하는 내비게이션이나 많은 산업 환경과 같은 분야의 연구를 진행하는 데 도움이 될 것입니다. 첫 번째 제출 물결을 보고 싶습니다.

 
실물. 허가를 받아 다시 게시했습니다.

관련 :

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처: https://www.kdnuggets.com/2021/06/facebook-launches-toughest-reinforcement-learning-challenges.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?