제퍼넷 로고

정복자 시세로 만세 – AI가 외교에서 인간을 이겼습니다.

시간

Facebook의 모회사인 Meta Platforms Inc는 인기 전략 게임인 Diplomacy의 온라인 버전에서 인간을 능가할 수 있는 AI를 만들었다고 말했습니다.

Science.com에 게재된 논문에서 메타는 Cicero는 XNUMX명의 플레이어 간의 자연어 협상과 전술적 조정을 강조하는 협력과 경쟁이 모두 포함된 게임인 Diplomacy에서 인간 수준의 성능을 달성한 최초의 AI 에이전트였습니다.

총 40개의 온라인 Diplomacy 익명 게임에서 Meta는 Cicero가 인간 플레이어의 평균 점수의 두 배 이상을 달성했으며 한 게임 이상을 플레이한 참가자의 상위 10%에 들었다고 말했습니다.

선도적인 기술 그룹은 이것이 자연어로 인간과 계획, 조정 및 협상할 수 있는 에이전트를 구축하려는 인공 지능 분야의 전략적이고 장기적인 목표의 일부라고 말했습니다.

Cicero는 얼마나 중요합니까?

Meta는 AI가 적대적이지 않은 환경에 의존하기 때문에 Cicero가 상당히 중요하다고 말합니다.

의사소통이 가치가 없는 체스(2), 바둑(3), 포커(4)와 같은 순전히 적대적인 환경에서 다중 에이전트 AI의 이전 주요 성공이 있었던 과거와 달리 Cicero는 전략적 추론 엔진을 사용합니다. 제어 가능한 대화 모듈.

이러한 이유로 Meta는 Diplomacy가 다중 에이전트 학습에 대한 도전적인 벤치마크 역할을 했다고 말합니다.

“Cicero는 제어 가능한 대화 모듈을 전략적 추론 엔진과 결합합니다. 게임의 각 지점에서 Cicero는 게임 상태와 대화를 기반으로 다른 플레이어가 행동할 가능성이 있는 방식을 모델링합니다.”라고 Meta는 말합니다.

그런 다음 AI는 플레이어가 상호 이익을 위해 조정할 수 있는 방법을 계획하고 이러한 계획을 자연 언어 메시지에 매핑합니다.

건전한 불신

Cicero는 다른 플레이어의 맹목적으로 신뢰하는 제안을 피하고 "예측 가치"가 낮고 자신의 이익과 평행을 이루는 계획을 거부합니다.

Diplomacy의 대화는 쌍의 플레이어 간에 개인적으로 발생하기 때문에 Cicero는 플레이어가 예측할 때 액세스할 수 있는 정보를 추론하고 분석합니다.

"예를 들어, Cicero가 적에 대한 동맹과 공격을 조정하는 경우 적의 정책에 대한 Cicero의 예측은 적이 의도된 조정을 인식하지 못한다는 사실을 설명해야 합니다."라고 Meta는 말했습니다.

Meta는 40년 19월 13일부터 2022월 XNUMX일까지 인간 플레이어의 온라인 리그에서 Diplomacy의 XNUMX개 게임에 익명으로 Cicero에 들어갔다고 말했습니다.

72시간 동안 5,277개의 메시지를 보내는 동안 Cicero는 한 게임 이상을 플레이한 참가자 중 상위 10%에 들었다고 합니다.

Meta는 webDiplomacy.net에서 온라인으로 플레이한 125,261개의 ​​Diplomacy 게임에서 데이터를 수집했다고 말합니다. 이 게임 중 총 40,408개의 게임에는 대화가 포함되어 있으며 총 12,901,662개의 메시지가 플레이어 간에 교환되었습니다.

프롬프트: "외교 게임에서 다른 모든 사람을 이기는 로봇"

프롬프트: "외교 게임에서 다른 모든 사람을 이기는 로봇"(AI 생성).

메타 노트, 새로운 AI는 완벽하지 않습니다.

Cicero는 오류가 포함된 메시지를 보냈고 때로는 자체 계획과 모순되고 전략적 실수를 저질렀습니다.

그러나 Meta는 그럼에도 불구하고 인간이 AI가 봇이라는 사실을 깨닫지 못한 채 다른 플레이어보다 AI와 협력하기로 선택했다고 주장합니다.

“게임에서 이전의 거의 모든 AI 혁신은 체스, 바둑, 헤즈업 포커, 스타크래프트를 포함한 2인용 제로섬(0p2s) 설정에서 이루어졌습니다. 유한한 0p2s 게임에서 자기 자신과 대결하여 학습하는 특정 강화 학습(RL) 알고리즘(셀프 플레이라고 하는 프로세스)은 균형 잡힌 게임에서 예상할 수 없는 정책으로 수렴할 것입니다.”라고 Meta는 논문에서 덧붙였습니다. "즉, 유한한 0pXNUMXs 게임은 충분한 컴퓨팅 및 모델 용량을 갖춘 셀프 플레이를 통해 해결할 수 있습니다."

그러나 Meta는 협력 게임에 대해 인간 데이터가 없는 셀프 플레이는 컴퓨팅 및 모델 용량이 무한하더라도 더 이상 인간과 잘 수행되는 정책을 찾을 수 없다고 말했습니다. 인간의 규범과 기대와 양립할 수 없습니다.

Meta는 Cicero가 RL 학습 모델을 사용하는 계획 알고리즘의 시작점으로 사용하여 보드 및 대화의 상태를 기반으로 각 플레이어의 가능한 행동을 예상한다고 덧붙였습니다.

AI는 전략적 추론 모듈을 사용하여 의도와 행동을 지능적으로 선택한다고 회사는 말합니다.

그런 다음 이 모듈은 게임 상태와 대화를 기반으로 다른 모든 플레이어의 정책을 예측하는 계획 알고리즘을 실행하고 다양한 행동의 강도와 인간 게임에서의 가능성을 설명합니다. 이 정보와 변수를 기반으로 Cicero에 대한 최적의 조치가 취해집니다.

Meta의 설립자이자 CEO인 Mark Zuckerberg 아래 회사는 기술의 미래로 여겨지는 빠르게 성장하는 산업을 활용하기 위해 AI와 메타버스에 막대한 투자를 해왔습니다.

럭셔리 메타뉴스.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?