Meta Platforms Inc, материнская компания Facebook, заявила, что создала ИИ, который может перехитрить людей в онлайн-версии популярной стратегической игры Diplomacy, где семь игроков соревнуются за географический контроль над Европой, перемещая фигуры по карте.
В статье, опубликованной на Science.com, Мета сказал: Цицерон был первым агентом ИИ, достигшим производительности на уровне человека в Дипломатии, игре, включающей как сотрудничество, так и соревнование, в которой упор делается на переговоры на естественном языке и тактическую координацию между семью игроками.
Мета сказал, что в общей сложности в 40 анонимных играх онлайн-дипломатии Цицерон набрал в два раза больше среднего балла, чем игроки-люди, и вошел в 10% лучших участников, сыгравших более одной игры.
Ведущая технологическая группа заявила, что это является частью ее стратегической и долгосрочной цели в области искусственного интеллекта по созданию агентов, которые могут планировать, координировать и вести переговоры с людьми на естественном языке.
Насколько важен Цицерон?
Мета говорит, что Цицерон очень важен, потому что ИИ полагается на непротиворечивую среду.
В отличие от прошлого, где предыдущие крупные успехи многоагентного ИИ были достигнуты в чисто состязательных средах, таких как шахматы (2), го (3) и покер (4), где общение не имеет значения, Cicero использует механизм стратегического мышления. и управляемый диалоговый модуль.
По этим причинам мета говорит, что дипломатия послужила сложным эталоном для мультиагентного обучения.
«Цицерон сочетает управляемый диалоговый модуль с механизмом стратегического мышления. В каждый момент игры Цицерон моделирует действия других игроков, основываясь на состоянии игры и их разговорах», — говорит Мета.
Затем ИИ планирует, как игроки могут координировать свои действия для взаимной выгоды, и отображает эти планы в сообщениях на естественном языке.
Здоровое недоверие
Цицерон избегает слепо доверять предложениям других игроков и отвергает планы с низкой «прогнозируемой ценностью», которые идут параллельно его собственным интересам.
Благодаря тому, что диалог в Дипломатии происходит конфиденциально между парами игроков, Цицерон рассуждает и анализирует информацию, к которой игроки имеют доступ, делая прогнозы.
«Например, если Цицерон координирует нападение с союзником против противника, предсказание Цицероном политики противника должно учитывать тот факт, что противник не знает о предполагаемой координации», — сказал Мета.
Meta говорит, что он анонимно участвовал в Cicero в 40 играх Diplomacy в онлайн-лиге игроков-людей в период с 19 августа по 13 октября 2022 года.
По его словам, за 72 часа игры, в ходе которых было отправлено 5,277 сообщений, Cicero вошел в 10% лучших участников, сыгравших более одной игры.
Meta заявляет, что собрала данные о 125,261 40,408 игре Diplomacy, сыгранной онлайн на webDiplomacy.net. Из этих игр в общей сложности 12,901,662 XNUMX игр содержали диалоги, в которых игроки обменивались в общей сложности XNUMX XNUMX XNUMX сообщениями.
Мета отмечает, что его новый ИИ далек от совершенства
Цицерон посылал сообщения, которые содержали ошибки, иногда противоречили его собственным планам и допускали стратегические промахи.
Но Мета настаивает на том, что люди, тем не менее, предпочитали сотрудничать с ИИ, а не с другими игроками, не осознавая, что это был бот.
«Почти все предыдущие прорывы ИИ в играх были связаны с игрой с нулевой суммой (2p0s) для двух игроков, включая шахматы, го, хедз-ап покер и StarCraft. В конечных играх 2p0 определенные алгоритмы обучения с подкреплением (RL), которые учатся, играя против самих себя — процесс, известный как самостоятельная игра, — будут сходиться к политике, которая непревзойденна в ожидаемых сбалансированных играх», — добавил Мета в статье. «Другими словами, любая конечная игра 2p0 может быть решена с помощью самостоятельной игры с достаточными вычислительными и модельными мощностями».
Тем не менее, Мета сказал, что в отношении игр, предполагающих сотрудничество, самостоятельная игра без человеческих данных больше не гарантирует, что будет найдена политика, которая хорошо работает с людьми, даже с бесконечными вычислительными и модельными возможностями, потому что агент самостоятельной игры может сходиться к политике, которая является несовместимые с человеческими нормами и ожиданиями.
Мета добавил, что Cicero предвидит вероятные действия каждого игрока на основе состояния доски и диалога, используя это в качестве отправной точки для алгоритма планирования с использованием моделей, обученных RL.
По словам компании, ИИ использует модуль стратегического мышления для разумного выбора намерений и действий.
Затем этот модуль запускает алгоритм планирования, который предсказывает политику всех других игроков на основе состояния игры и диалогов и учитывает как силу различных действий, так и их вероятность в играх с людьми. На основе этой информации и переменных предпринимается наилучшее оптимальное действие для Цицерона.
Под руководством основателя и генерального директора Meta Марка Цукерберга компания вкладывает значительные средства в ИИ и метавселенную, чтобы воспользоваться преимуществами быстрорастущей отрасли, которую считают будущим технологий.
Что касается МетаНьюс.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.Кликните сюда
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.metanews.com/all-hail-cicero-the-conqueror-ai-beats-humans-in-diplomacy/