제퍼넷 로고

메타, '외교'에서 인간을 이기는 AI를 만들었다

시간

AI는 가장 많은 것을 마스터했습니다. 복잡한 게임 사람에게 알려져 있지만 종종 경쟁에서 탁월하지만 협력은 자연스럽게 이루어지지 않습니다. 이제 Meta의 AI가 다른 플레이어와 협력하여 승리해야 하는 Diplomacy 게임을 마스터했습니다.

Google의 숙달 바둑 게임 AI의 주요 이정표로 칭송받았지만 부인할 수 없는 복잡성에도 불구하고 여러 면에서 기계의 논리를 계산하는 냉정함에 매우 적합합니다. 상대방의 움직임을 완전히 볼 수 있는 완벽한 정보 게임이며, 이기는 것은 단순히 다른 플레이어를 능가할 수 있다는 것을 의미합니다.

반면에 외교는 훨씬 더 지저분한 일입니다. 보드게임은 최대 XNUMX명의 플레이어가 위에 유럽의 군사력과 그들의 군대를 사용하여 전략적 도시를 장악하십시오. 그러나 플레이어는 완전한 지배를 추구하기 위해 동맹을 형성하고 깨기 위해 서로 협상할 수 있습니다.

게다가 모든 플레이어의 이동은 각 차례에 동시에 이루어지므로 다른 사람이 하는 일에 단순히 반응할 수 없습니다. 이는 게임에서 이기려면 전략적 사고, 다른 플레이어와 협력하는 능력, 설득력 있는 협상 기술의 복잡한 조합이 필요하다는 것을 의미합니다. AI는 이미 순수한 전략을 마스터했지만 다른 기술은 복제하기가 훨씬 더 까다로운 것으로 판명되었습니다.

하지만 Meta의 연구원들이 설계한 새로운 AI는 그 방향으로 큰 발걸음을 내디뎠을 것입니다. 안에 논문 출판 지난 주 in 과학, 그들은 온라인 외교 리그에서 플레이어의 상위 10%에 속하고 인간 플레이어의 평균 점수의 두 배 이상을 달성한 Cicero라는 시스템을 설명합니다.

"Cicero는 회복력이 있고 무자비하며 인내심이 강합니다.” 외교 세계 챔피언 XNUMX회 Andrew Goff said메타에서 제작한 영상. “때때로 나쁜 결정을 내리게 만드는 인간적인 감정이 많이 없이 재생됩니다. 상황을 평가하고 상황뿐만 아니라 함께 일하는 사람들을 위해 최선의 결정을 내립니다.”

Cicero를 만들려면 Meta 연구원이 전략적 추론과 자연어 처리라는 두 가지 하위 분야의 최첨단 AI 방법을 결합해야 했습니다. 시스템의 핵심에는 다른 플레이어의 움직임을 예측하고 이를 사용하여 자체 전략을 결정하는 계획 알고리즘이 있습니다. 이것은 인간이 게임을 하는 방식을 모방하려고 시도하면서 AI가 계속해서 스스로 플레이하도록 함으로써 훈련되었습니다.

연구원들은 이미 이 계획 모듈만으로도 인간 프로를 이길 게임의 단순화된 버전에서. 그러나이 최신 연구에서 팀은 인터넷에서 방대한 양의 텍스트로 훈련 된 대규모 언어 모델과 결합한 다음 40,000 온라인 Diplomacy 게임의 대화를 사용하여 미세 조정했습니다. 이것은 업그레이드된 Cicero에게 다른 플레이어의 메시지를 해석할 수 있는 능력을 부여했습니다. 또한 자체 제작 메시지 함께 일하도록 설득합니다.

결합된 시스템은 보드의 현재 상태와 과거 대화를 사용하여 각 플레이어가 무엇을 할 가능성이 있는지 예측하는 것으로 시작합니다. 그런 다음 의도를 설명하고 다른 플레이어의 협력을 보장하도록 설계된 메시지를 생성하기 전에 자체 및 파트너 모두를 위한 실행 계획을 제시합니다.

온라인 토너먼트에서 40개 이상의 게임 Cicero는 82명의 다른 플레이어와 효과적으로 소통하여 의도를 설명하고 조치를 조정하며 동맹을 협상했습니다. 결정적으로 연구원들은 게임 내 메시지에서 인간 플레이어가 AI와 팀을 이루고 있다고 의심했다는 증거를 보지 못했다고 말합니다.

그러나 모델의 의사 소통 능력은 완벽하지 않았습니다. 무의미한 메시지나 목표와 일치하지 않는 메시지를 뱉어낼 수 있기 때문에 연구원들은 움직일 때마다 여러 후보 메시지를 생성한 다음 다양한 필터링 메커니즘을 사용하여 쓰레기를 걸러내야 했습니다. 그럼에도 불구하고 연구원들은 비논리적인 메시지가 때때로 미끄러진다는 것을 인정합니다.ped 을 통하여.

이것은 Cicero의 중심에 있는 언어 모델이 여전히 무슨 일이 일어나고 있는지 실제로 이해하지 못하고 단순히 그럴듯하게 들리는 메시지를 생성한 다음 원하는 결과를 얻기 위해 확인해야 하는 메시지를 생성하고 있음을 시사합니다.

글쓰기 대화, 호주 뉴사우스웨일스 대학의 AI 연구원인 Toby Walsh는 또한 Cicero가 대부분의 인간 플레이어와 달리 한 치의 오차도 없이 정직하다고 지적합니다. 이것은 놀라울 정도로 효과적인 전략이지만, 경쟁자가 상대방이 결코 자신을 속이려 하지 않을 것이라는 점을 알게 되면 큰 약점이 될 수 있습니다.

그럼에도 불구하고 이러한 발전은 중요한 것이며 Facebook은 보드 게임을 훨씬 넘어서는 응용 프로그램을 가질 수 있기를 희망합니다. 블로그 게시물, 연구자들은 계획 알고리즘을 사용하여 언어 생성을 제어하는 ​​기능을 통해 AI 챗봇과 훨씬 더 길고 풍부한 대화를 나누거나 플레이어의 행동에 적응할 수 있는 비디오 게임 캐릭터를 만들 수 있다고 말합니다.

이미지 신용 : MabelAmber / 4008 이미지

spot_img

최신 인텔리전스

spot_img