Logo Zephyrnet

Tại sao mọi người đều yêu thích ChatGPT Chatbot

Ngày:

Một trò chơi khác từ lâu được cho là rất khó chinh phục đối với trí tuệ nhân tạo (AI) đã rơi vào tay bot: Stratego.

DeepNash, một AI được tạo bởi công ty có trụ sở tại London Deepmind, hiện phù hợp với những người chuyên nghiệp tại Stratego, một trò chơi cờ đòi hỏi tư duy chiến lược dài hạn chống lại thông tin không hoàn hảo.

Kỳ tích mới nhất này xuất hiện sau một chiến thắng lớn khác dành cho AI trong các trò chơi trước đây được cho là sở trường của con người.

Mới tuần trước, Meta's Cicero, một AI có thể thông minh hơn người chơi trong trò chơi Ngoại giao, đã làm nên lịch sử khi đánh bại các đối thủ trực tuyến.

Michael Wellman tại Đại học Michigan ở Ann Arbor, một nhà khoa học máy tính nghiên cứu lý luận chiến lược và trò chơi cho biết: “Tốc độ mà các tính năng trò chơi khác nhau về chất lượng đã bị AI chinh phục — hoặc làm chủ ở cấp độ mới — trong những năm gần đây là khá đáng chú ý. học thuyết.

Wellman cho biết: “Chiến lược và Ngoại giao khá khác biệt với nhau và cũng sở hữu các tính năng thử thách khác biệt đáng kể so với các trò chơi đã đạt được các mốc tương tự.

thông tin không hoàn hảo

Trò chơi có những đặc điểm nhìn chung phức tạp hơn nhiều so với cờ vua, cờ vây hay bài xì phé. Cờ vua, cờ vây và bài xì phé đều đã được AI làm chủ.

AI đánh bại con người trong Stratego – Gặp gỡ DeepMash

Trong trò chơi Stratego, hai người chơi đặt 40 quân cờ mỗi người lên một bàn cờ, nhưng không được xem quân cờ của đối phương là gì.

Mục tiêu của trò chơi là lần lượt di chuyển các quân cờ để loại bỏ quân cờ của đối thủ và giành lấy một lá cờ. 

Cây trò chơi của Stratego — một biểu đồ về tất cả các cách có thể mà trò chơi có thể diễn ra — có 10535 trạng thái so với 10360 của cờ vây. 

Khi nói đến thông tin không hoàn hảo khi bắt đầu trò chơi, Stratego có 1066 vị trí riêng có thể xảy ra, một con số chỉ nhỏ hơn 106 tình huống bắt đầu như vậy trong bài poker Texas hold'em hai người chơi.

Julien Perolat, một nhà nghiên cứu của DeepMind tại Paris cho biết: “Sự phức tạp tuyệt đối của số lượng các kết quả có thể xảy ra trong Stratego có nghĩa là các thuật toán hoạt động tốt trên các trò chơi thông tin hoàn hảo và thậm chí cả những thuật toán hoạt động cho bài xì phé cũng không hoạt động.

DeepNash được phát triển bởi Perolat và các đồng nghiệp của ông.

bot lấy cảm hứng từ Nash

Tên của bot là để vinh danh nhà toán học nổi tiếng Hoa Kỳ John Nash, người đã đưa ra lý thuyết cân bằng Nash giả định rằng có một “tập hợp các chiến lược ổn định” mà người chơi có thể tuân theo theo cách mà không người chơi nào được lợi khi thay đổi chiến lược của riêng họ. Như vậy, các trò chơi có xu hướng không có, có một hoặc nhiều điểm cân bằng Nash.

DeepNash kết hợp thuật toán học tăng cường và mạng lưới thần kinh sâu để tìm điểm cân bằng Nash. 

Nói chung, học tăng cường là nơi một tác nhân thông minh (chương trình máy tính) tương tác với môi trường và học chính sách tốt nhất để ra lệnh hành động cho mọi trạng thái của trò chơi. 

Để có một chính sách tối ưu, DeepNash đã chơi tổng cộng 5.5 tỷ trò chơi với chính nó. 

Về bản chất, nếu một bên bị phạt, bên kia sẽ được thưởng và các biến của mạng nơ-ron — đại diện cho chính sách — được điều chỉnh cho phù hợp.

AI đánh bại con người trong Stratego – Gặp gỡ DeepMash

AI đánh bại con người trong Stratego – Gặp gỡ DeepMash

Ở một số giai đoạn, DeepNash hội tụ về trạng thái cân bằng Nash gần đúng. Không giống như các Bot khác, DeepNash tự tối ưu hóa mà không cầnkiếm thông qua cây trò chơi.

Trong khoảng thời gian hai tuần, DeepNash đấu với những người chơi Stratego là con người trên nền tảng trò chơi trực tuyến, Gravon.

Sau khi thi đấu 50 trận, Ai được xếp hạng thứ ba trong số tất cả những người chơi Gravon Stratego kể từ năm 2002. 

“Công việc của chúng tôi cho thấy rằng một trò chơi phức tạp như Stratego, liên quan đến thông tin không hoàn hảo, không yêu cầu các kỹ thuật tìm kiếm để giải quyết nó,” thành viên nhóm Karl Tuyls, nhà nghiên cứu DeepMind có trụ sở tại Paris, cho biết. “Đây thực sự là một bước tiến lớn trong AI.”

Các nhà nghiên cứu khác cũng rất ấn tượng với chiến công này.

Kết quả ấn tượng

“Kết quả thật ấn tượng,” Noam Brown, một nhà nghiên cứu tại Meta AI, có trụ sở tại Thành phố New York, đồng ý và là thành viên của nhóm đã báo cáo về AI Pluribus2019 chơi bài xì phé vào năm 4.

Tại Meta, công ty mẹ của Facebook, Brown và các đồng nghiệp của cô đã tạo ra một AI có thể chơi Ngoại giao, một trò chơi trong đó bảy người chơi cạnh tranh để giành quyền kiểm soát địa lý của châu Âu bằng cách di chuyển các quân cờ trên bản đồ.

Trong Ngoại giao, mục tiêu là giành quyền kiểm soát các trung tâm tiếp tế bằng cách di chuyển các đơn vị (hạm đội và quân đội). 

Meta cho biết Cicero khá quan trọng vì AI dựa vào môi trường không có đối thủ.

Không giống như trước đây, nơi những thành công lớn trước đây của AI đa tác nhân là trong các môi trường hoàn toàn là đối kháng, chẳng hạn như Cờ vua, Cờ vây và Xì phé, nơi giao tiếp không có giá trị, Cicero sử dụng một công cụ lập luận chiến lược và mô-đun đối thoại có thể kiểm soát.

Brown nói: “Khi bạn vượt ra ngoài các trò chơi có tổng bằng không dành cho hai người chơi, ý tưởng về trạng thái cân bằng Nash không còn hữu ích để chơi tốt với con người nữa.

Brown và nhóm của cô đã huấn luyện Cicero bằng cách sử dụng dữ liệu từ 125,261 trò chơi của phiên bản Ngoại giao trực tuyến có sự tham gia của người chơi. 

Sử dụng dữ liệu tự chơi và mô-đun suy luận chiến lược (SRM), Cicero đã học cách dự đoán judgubg theo trạng thái của trò chơi và các thông điệp tích lũy được, các nước đi có thể xảy ra và chính sách của những người chơi khác. 

AI đánh bại con người trong Stratego – Gặp gỡ DeepMash

AI đánh bại con người trong Stratego – Gặp gỡ DeepMash

Meta cho biết họ đã thu thập dữ liệu từ 125,261 trò chơi Ngoại giao được chơi trực tuyến tại webDiplomacy.net. Trong số những trò chơi này, có tổng cộng 40,408 trò chơi có đối thoại, với tổng số 12,901,662 tin nhắn được trao đổi giữa những người chơi.

hành vi trong thế giới thực

Brown tin rằng các Bot chơi trò chơi như Cicero có thể tương tác với con người và tính đến “các hành động dưới mức tối ưu hoặc thậm chí phi lý của con người có thể mở đường cho các ứng dụng trong thế giới thực”.

Ông nói: “Nếu bạn đang chế tạo một chiếc xe tự lái, bạn không muốn cho rằng tất cả những người lái xe khác trên đường đều hoàn toàn hợp lý và sẽ hành xử một cách tối ưu.

Ông nói thêm, Cicero là một bước tiến lớn theo hướng này. “Chúng tôi vẫn còn một chân trong thế giới trò chơi, nhưng giờ chúng tôi cũng đã có một chân trong thế giới thực.”

Những người khác như Wellman đồng ý, nhưng khẳng định vẫn còn nhiều việc phải làm. Ông nói: “Nhiều kỹ thuật trong số này thực sự có liên quan ngoài các trò chơi giải trí” đối với các ứng dụng trong thế giới thực. “Tuy nhiên, đến một lúc nào đó, các phòng thí nghiệm nghiên cứu AI hàng đầu cần phải vượt ra khỏi bối cảnh giải trí và tìm ra cách đo lường tiến bộ khoa học đối với các 'trò chơi' trong thế giới thực mà chúng ta thực sự quan tâm."

/MetaNews.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img