Logo Zephyrnet

Một cách tiếp cận có tầm nhìn xa đối với máy học (w/video)

Ngày:

Ngày 23 tháng 2022 năm XNUMX (Tin tức Nanowerk) Hãy hình dung hai đội đang thi đấu trên một sân bóng đá. Người chơi có thể hợp tác để đạt được mục tiêu và cạnh tranh với những người chơi khác có lợi ích xung đột. Đó là cách trò chơi hoạt động. Tạo trí tuệ nhân tạo các tác nhân có thể học cách cạnh tranh và hợp tác hiệu quả như con người vẫn là một vấn đề hóc búa. Một thách thức chính là cho phép các tác nhân AI dự đoán các hành vi trong tương lai của các tác nhân khác khi tất cả chúng đang học đồng thời. Do sự phức tạp của vấn đề này, các cách tiếp cận hiện tại có xu hướng thiển cận; các đặc vụ chỉ có thể đoán một vài nước đi tiếp theo của đồng đội hoặc đối thủ của họ, điều này dẫn đến hiệu suất kém về lâu dài.  chiến thuật bóng đá Các nhà nghiên cứu của MIT đã phát triển một kỹ thuật cho phép các tác nhân trí tuệ nhân tạo suy nghĩ xa hơn về tương lai, điều này có thể cải thiện hiệu suất lâu dài của các tác nhân AI hợp tác hoặc cạnh tranh. (Hình ảnh: Jose-Luis Olivares, MIT) Các nhà nghiên cứu từ MIT, MIT-IBM Watson AI Lab và những nơi khác đã phát triển một phương pháp mới giúp các tác nhân AI có tầm nhìn xa trông rộng. Khung học máy của họ cho phép các tác nhân AI hợp tác hoặc cạnh tranh xem xét những tác nhân khác sẽ làm gì khi thời gian tiến đến vô tận, chứ không chỉ qua một vài bước tiếp theo. Sau đó, các tác nhân điều chỉnh hành vi của mình sao cho phù hợp để tác động đến các hành vi trong tương lai của các tác nhân khác và đi đến một giải pháp tối ưu, lâu dài. Khuôn khổ này có thể được sử dụng bởi một nhóm máy bay không người lái tự động làm việc cùng nhau để tìm kiếm một người đi bộ đường dài bị lạc trong rừng rậm hoặc bởi những chiếc ô tô tự lái cố gắng giữ an toàn cho hành khách bằng cách dự đoán các chuyển động trong tương lai của các phương tiện khác đang lái trên đường cao tốc đông đúc. “Khi các tác nhân AI đang hợp tác hoặc cạnh tranh, điều quan trọng nhất là khi các hành vi của họ hội tụ tại một thời điểm nào đó trong tương lai. Có rất nhiều hành vi nhất thời trên đường đi không quan trọng lắm về lâu dài. Dong-Ki Kim, một sinh viên tốt nghiệp tại Phòng thí nghiệm MIT về Hệ thống Quyết định và Thông tin (LIDS) và là tác giả chính của bài báo cho biết, đạt được hành vi hội tụ này là điều chúng tôi thực sự quan tâm và giờ đây chúng tôi có một cách toán học để kích hoạt điều đó. mô tả khuôn khổ này. Tác giả cao cấp là Jonathan P. How, Giáo sư Hàng không và Du hành vũ trụ Richard C. Maclaurin và là thành viên của Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson. Các đồng tác giả bao gồm những người khác tại Phòng thí nghiệm AI Watson của MIT-IBM, Nghiên cứu của IBM, Viện Trí tuệ Nhân tạo Mila-Quebec và Đại học Oxford. Nghiên cứu sẽ được trình bày tại Hội nghị về Hệ thống xử lý thông tin thần kinh (“Ảnh hưởng đến hành vi lâu dài trong học tập tăng cường đa tác nhân”).

[Nhúng nội dung]

Trong video demo này, rô-bốt màu đỏ, đã được huấn luyện bằng hệ thống máy học của các nhà nghiên cứu, có thể đánh bại rô-bốt màu xanh lá cây bằng cách học các hành vi hiệu quả hơn để tận dụng chiến lược thay đổi liên tục của đối thủ.

Nhiều tác nhân hơn, nhiều vấn đề hơn

Các nhà nghiên cứu tập trung vào một vấn đề được gọi là học tăng cường đa tác nhân. Học tăng cường là một hình thức học máy trong đó tác nhân AI học bằng cách thử và sai. Các nhà nghiên cứu trao phần thưởng cho tác nhân cho những hành vi “tốt” giúp nó đạt được mục tiêu. Tác nhân điều chỉnh hành vi của mình để tối đa hóa phần thưởng đó cho đến khi cuối cùng nó trở thành một chuyên gia trong một nhiệm vụ. Nhưng khi nhiều tác nhân hợp tác hoặc cạnh tranh đang học hỏi đồng thời, mọi thứ trở nên ngày càng phức tạp. Khi các tác nhân xem xét thêm các bước trong tương lai của các tác nhân đồng nghiệp của họ và cách hành vi của chính họ ảnh hưởng đến những người khác, vấn đề sẽ sớm đòi hỏi quá nhiều sức mạnh tính toán để giải quyết hiệu quả. Đây là lý do tại sao các phương pháp khác chỉ tập trung vào ngắn hạn. “Các AI thực sự muốn nghĩ về kết thúc của trò chơi, nhưng họ không biết khi nào trò chơi sẽ kết thúc. Họ cần suy nghĩ về cách tiếp tục điều chỉnh hành vi của mình cho đến vô tận để có thể giành chiến thắng vào một thời điểm xa trong tương lai. Bài báo của chúng tôi về cơ bản đề xuất một mục tiêu mới cho phép AI suy nghĩ về sự vô tận,” Kim nói. Nhưng vì không thể cắm vô hạn vào một thuật toán, các nhà nghiên cứu đã thiết kế hệ thống của họ để các tác nhân tập trung vào một điểm trong tương lai nơi hành vi của họ sẽ hội tụ với hành vi của các tác nhân khác, được gọi là trạng thái cân bằng. Một điểm cân bằng xác định hiệu suất dài hạn của các tác nhân và nhiều điểm cân bằng có thể tồn tại trong một kịch bản đa tác nhân. Do đó, một tác nhân hiệu quả ảnh hưởng tích cực đến các hành vi trong tương lai của các tác nhân khác theo cách mà chúng đạt được trạng thái cân bằng mong muốn từ quan điểm của tác nhân. Nếu tất cả các tác nhân ảnh hưởng lẫn nhau, chúng sẽ hội tụ thành một khái niệm chung mà các nhà nghiên cứu gọi là “cân bằng tích cực”. Khung học máy mà họ đã phát triển, được gọi là FURTHER (viết tắt của FUlly Reinforcing active influence with averagE Reward), cho phép các tác nhân học cách điều chỉnh hành vi của họ khi họ tương tác với các tác nhân khác để đạt được trạng thái cân bằng tích cực này. FURTHER thực hiện điều này bằng cách sử dụng hai mô-đun máy học. Đầu tiên, một mô-đun suy luận, cho phép một tác nhân đoán các hành vi trong tương lai của các tác nhân khác và thuật toán học tập mà họ sử dụng, chỉ dựa trên các hành động trước đó của họ. Thông tin này được đưa vào mô-đun học tăng cường mà tác nhân sử dụng để điều chỉnh hành vi của mình và tác động đến các tác nhân khác theo cách tối đa hóa phần thưởng của nó. “Thử thách là suy nghĩ về vô tận. Chúng tôi đã phải sử dụng rất nhiều công cụ toán học khác nhau để kích hoạt điều đó và đưa ra một số giả định để nó hoạt động trong thực tế,” Kim nói.

Chiến thắng trong thời gian dài

Họ đã thử nghiệm cách tiếp cận của mình với các khung học tập tăng cường đa tác nhân khác trong một số tình huống khác nhau, bao gồm một cặp rô-bốt chiến đấu theo kiểu sumo và một trận chiến giữa hai đội gồm 25 đặc vụ chống lại nhau. Trong cả hai trường hợp, các tác nhân AI sử dụng FURTHER đã thắng trò chơi thường xuyên hơn. Vì cách tiếp cận của họ là phi tập trung, nghĩa là các tác nhân học cách giành chiến thắng trong trò chơi một cách độc lập, nên nó cũng có khả năng mở rộng hơn các phương pháp khác yêu cầu máy tính trung tâm điều khiển các tác nhân, Kim giải thích. Các nhà nghiên cứu đã sử dụng các trò chơi để kiểm tra phương pháp tiếp cận của họ, nhưng FURTHER có thể được sử dụng để giải quyết bất kỳ loại vấn đề đa tác nhân nào. Ví dụ, nó có thể được áp dụng bởi các nhà kinh tế đang tìm cách phát triển chính sách hợp lý trong những tình huống mà nhiều người có quyền tương tác có hành vi và lợi ích thay đổi theo thời gian. Kinh tế học là một ứng dụng mà Kim đặc biệt hào hứng khi học. Anh ấy cũng muốn tìm hiểu sâu hơn về khái niệm cân bằng tích cực và tiếp tục nâng cao khuôn khổ FURTHER.
tại chỗ_img

Tin tức mới nhất

tại chỗ_img