Логотип Зефирнет

Да здравствует Цицерон, Завоеватель — ИИ побеждает людей в дипломатии

Дата:

Meta Platforms Inc, материнская компания Facebook, заявила, что создала ИИ, который может перехитрить людей в онлайн-версии популярной стратегической игры Diplomacy, где семь игроков соревнуются за географический контроль над Европой, перемещая фигуры по карте.

В статье, опубликованной на Science.com, Мета сказал: Цицерон был первым агентом ИИ, достигшим производительности на уровне человека в Дипломатии, игре, включающей как сотрудничество, так и соревнование, в которой упор делается на переговоры на естественном языке и тактическую координацию между семью игроками.

Мета сказал, что в общей сложности в 40 анонимных играх онлайн-дипломатии Цицерон набрал в два раза больше среднего балла, чем игроки-люди, и вошел в 10% лучших участников, сыгравших более одной игры.

Ведущая технологическая группа заявила, что это является частью ее стратегической и долгосрочной цели в области искусственного интеллекта по созданию агентов, которые могут планировать, координировать и вести переговоры с людьми на естественном языке.

Насколько важен Цицерон?

Мета говорит, что Цицерон очень важен, потому что ИИ полагается на непротиворечивую среду.

В отличие от прошлого, где предыдущие крупные успехи многоагентного ИИ были достигнуты в чисто состязательных средах, таких как шахматы (2), го (3) и покер (4), где общение не имеет значения, Cicero использует механизм стратегического мышления. и управляемый диалоговый модуль.

По этим причинам мета говорит, что дипломатия послужила сложным эталоном для мультиагентного обучения.

«Цицерон сочетает управляемый диалоговый модуль с механизмом стратегического мышления. В каждый момент игры Цицерон моделирует действия других игроков, основываясь на состоянии игры и их разговорах», — говорит Мета.

Затем ИИ планирует, как игроки могут координировать свои действия для взаимной выгоды, и отображает эти планы в сообщениях на естественном языке.

Здоровое недоверие

Цицерон избегает слепо доверять предложениям других игроков и отвергает планы с низкой «прогнозируемой ценностью», которые идут параллельно его собственным интересам.

Благодаря тому, что диалог в Дипломатии происходит конфиденциально между парами игроков, Цицерон рассуждает и анализирует информацию, к которой игроки имеют доступ, делая прогнозы.

«Например, если Цицерон координирует нападение с союзником против противника, предсказание Цицероном политики противника должно учитывать тот факт, что противник не знает о предполагаемой координации», — сказал Мета.

Meta говорит, что он анонимно участвовал в Cicero в 40 играх Diplomacy в онлайн-лиге игроков-людей в период с 19 августа по 13 октября 2022 года.

По его словам, за 72 часа игры, в ходе которых было отправлено 5,277 сообщений, Cicero вошел в 10% лучших участников, сыгравших более одной игры.

Meta заявляет, что собрала данные о 125,261 40,408 игре Diplomacy, сыгранной онлайн на webDiplomacy.net. Из этих игр в общей сложности 12,901,662 XNUMX игр содержали диалоги, в которых игроки обменивались в общей сложности XNUMX XNUMX XNUMX сообщениями.

Подсказка: «Робот побеждает всех в игре «Дипломатия».

Подсказка: «Робот побеждает всех остальных в игре «Дипломатия» (сгенерировано ИИ).

Мета отмечает, что его новый ИИ далек от совершенства

Цицерон посылал сообщения, которые содержали ошибки, иногда противоречили его собственным планам и допускали стратегические промахи.

Но Мета настаивает на том, что люди, тем не менее, предпочитали сотрудничать с ИИ, а не с другими игроками, не осознавая, что это был бот.

«Почти все предыдущие прорывы ИИ в играх были связаны с игрой с нулевой суммой (2p0s) для двух игроков, включая шахматы, го, хедз-ап покер и StarCraft. В конечных играх 2p0 определенные алгоритмы обучения с подкреплением (RL), которые учатся, играя против самих себя — процесс, известный как самостоятельная игра, — будут сходиться к политике, которая непревзойденна в ожидаемых сбалансированных играх», — добавил Мета в статье. «Другими словами, любая конечная игра 2p0 может быть решена с помощью самостоятельной игры с достаточными вычислительными и модельными мощностями».

Тем не менее, Мета сказал, что в отношении игр, предполагающих сотрудничество, самостоятельная игра без человеческих данных больше не гарантирует, что будет найдена политика, которая хорошо работает с людьми, даже с бесконечными вычислительными и модельными возможностями, потому что агент самостоятельной игры может сходиться к политике, которая является несовместимые с человеческими нормами и ожиданиями.

Мета добавил, что Cicero предвидит вероятные действия каждого игрока на основе состояния доски и диалога, используя это в качестве отправной точки для алгоритма планирования с использованием моделей, обученных RL.

По словам компании, ИИ использует модуль стратегического мышления для разумного выбора намерений и действий.

Затем этот модуль запускает алгоритм планирования, который предсказывает политику всех других игроков на основе состояния игры и диалогов и учитывает как силу различных действий, так и их вероятность в играх с людьми. На основе этой информации и переменных предпринимается наилучшее оптимальное действие для Цицерона.

Под руководством основателя и генерального директора Meta Марка Цукерберга компания вкладывает значительные средства в ИИ и метавселенную, чтобы воспользоваться преимуществами быстрорастущей отрасли, которую считают будущим технологий.

Что касается МетаНьюс.

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?