Logo Zephyrnet

Google DeepMind đào tạo 'Động não nhân tạo' trong AI cờ vua | Tạp chí Quanta

Ngày:

Giới thiệu

Khi Covid-19 khiến người ta phải về nhà vào đầu năm 2020, nhà khoa học máy tính Tom Zahavi cờ vua được khám phá lại. Anh ấy đã chơi khi còn nhỏ và gần đây đã đọc cuốn sách của Garry Kasparov. Suy nghĩ sâu, cuốn hồi ký về trận đấu năm 1997 của kiện tướng với máy tính chơi cờ của IBM, Deep Blue. Anh ấy đã xem các video cờ vua trên YouTube và Gambit của Nữ hoàng trên Netflix.

Bất chấp sự quan tâm mới của mình, Zahavy không tìm cách cải thiện trò chơi của mình. Anh nói: “Tôi không phải là một cầu thủ giỏi. “Tôi giỏi giải các câu đố cờ vua hơn” - sự sắp xếp các quân cờ, thường được tạo ra và khó có thể xảy ra trong một ván cờ thực sự, thách thức người chơi tìm ra những cách sáng tạo để giành được lợi thế.

Các câu đố có thể giúp người chơi mài giũa kỹ năng của mình, nhưng gần đây hơn, chúng đã giúp bộc lộ những hạn chế tiềm ẩn của các chương trình cờ vua. Một trong những câu đố khét tiếng nhất do nhà toán học Sir Roger Penrose nghĩ ra vào năm 2017, đặt những quân đen mạnh hơn (chẳng hạn như quân hậu và quân xe) lên bàn cờ, nhưng ở những vị trí khó xử. Một người chơi có kinh nghiệm, chơi quân trắng, có thể dễ dàng điều khiển trò chơi đến thế hòa, nhưng các chương trình cờ vua máy tính mạnh mẽ sẽ cho rằng quân đen có lợi thế rõ ràng. Zahavy cho biết, sự khác biệt đó cho thấy rằng mặc dù máy tính có thể đánh bại những người chơi giỏi nhất thế giới nhưng chúng vẫn chưa thể nhận ra và giải quyết mọi loại vấn đề khó khăn. Kể từ đó, Penrose và những người khác đã nghĩ ra những bộ sưu tập câu đố phong phú mà máy tính phải chật vật mới giải được.

Cờ vua từ lâu đã là nền tảng để thử nghiệm những ý tưởng mới trong trí tuệ nhân tạovà những câu đố của Penrose đã khơi dậy sự quan tâm của Zahavy. “Tôi đang cố gắng hiểu điều gì khiến những vấn đề này trở nên khó khăn đối với máy tính khi ít nhất một số vấn đề trong số đó chúng ta có thể giải quyết được với tư cách là con người,” anh nói. “Tôi hoàn toàn bị mê hoặc.” Nó nhanh chóng phát triển thành một mối quan tâm nghề nghiệp: Là nhà khoa học nghiên cứu tại Google DeepMind, Zahavy khám phá các phương pháp giải quyết vấn đề sáng tạo. Mục tiêu là tạo ra các hệ thống AI với nhiều hành vi có thể thực hiện được ngoài việc thực hiện một nhiệm vụ duy nhất.

Một chương trình cờ vua AI truyền thống, được đào tạo để giành chiến thắng, có thể không có ý nghĩa như câu đố Penrose, nhưng Zahavy nghi ngờ rằng một chương trình được tạo thành từ nhiều hệ thống đa dạng, làm việc cùng nhau như một nhóm, có thể đạt được tiến bộ. Vì vậy, anh và các đồng nghiệp đã phát triển một cách kết hợp nhiều (tối đa 10) hệ thống AI ra quyết định, mỗi hệ thống được tối ưu hóa và huấn luyện cho các chiến lược khác nhau, bắt đầu với AlphaZero, chương trình cờ vua mạnh mẽ của DeepMind. Hệ thống mới, họ báo cáo vào tháng Tám, chơi tốt hơn AlphaZero một mình và nó thể hiện nhiều kỹ năng hơn - và nhiều sáng tạo hơn - trong việc giải các câu đố của Penrose. Theo một nghĩa nào đó, những khả năng này đến từ sự tự hợp tác: Nếu một phương pháp tiếp cận gặp khó khăn, chương trình sẽ chuyển sang phương pháp khác.

Cách tiếp cận đó về cơ bản có ý nghĩa, nói Allison Liemhetcharat, một nhà khoa học máy tính tại DoorDash, người đã làm việc với các phương pháp tiếp cận đa tác nhân để giải quyết vấn đề trong chế tạo robot. “Với số lượng đặc vụ, khả năng cao hơn là các câu đố nằm trong miền mà ít nhất một trong số các đặc vụ đã được đào tạo.”

Nghiên cứu cho thấy rằng các nhóm sử dụng hệ thống AI đa dạng có thể giải quyết hiệu quả các vấn đề khó khăn ngoài bảng trò chơi. “Đây là một ví dụ tuyệt vời cho thấy việc tìm kiếm nhiều cách để giải quyết một vấn đề - chẳng hạn như thắng một ván cờ - mang lại rất nhiều lợi ích”, ông nói. Antoine Cully, một nhà nghiên cứu AI tại Imperial College London, người không tham gia vào dự án DeepMind. Ông so sánh nó với một phiên bản nhân tạo của các buổi động não của con người. “Quá trình suy nghĩ này sẽ dẫn đến những giải pháp sáng tạo và hiệu quả mà người ta sẽ bỏ lỡ nếu không thực hiện bài tập này.”

Theo đuổi thất bại

Trước khi gia nhập DeepMind, Zahavy quan tâm đến học tăng cường sâu, một lĩnh vực trí tuệ nhân tạo trong đó hệ thống sử dụng mạng lưới thần kinh để học một số nhiệm vụ thông qua thử và sai. Nó là nền tảng cho các chương trình cờ vua mạnh mẽ nhất (và được sử dụng trong các ứng dụng AI khác như xe tự lái). Hệ thống bắt đầu với môi trường của nó. Ví dụ, trong cờ vua, môi trường bao gồm bàn cờ và các nước đi có thể có. Nếu nhiệm vụ là lái ô tô thì môi trường bao gồm mọi thứ xung quanh xe. Sau đó, hệ thống đưa ra quyết định, thực hiện hành động và đánh giá mức độ tiến gần đến mục tiêu của nó. Khi tiến gần đến mục tiêu hơn, nó sẽ tích lũy phần thưởng và khi hệ thống tích lũy phần thưởng, nó sẽ cải thiện hiệu suất của mình. Phần “sâu” của phương pháp này mô tả mạng lưới thần kinh được sử dụng để phân tích và đánh giá hành vi.

Học tăng cường là cách AlphaZero học để trở thành kiện tướng cờ vua. DeepMind báo cáo rằng trong chín giờ huấn luyện đầu tiên của chương trình, vào tháng 2017 năm 44, nó đã chơi XNUMX triệu trận đấu với chính mình. Lúc đầu, các nước đi của nó được xác định ngẫu nhiên, nhưng theo thời gian, nó học được cách chọn các nước đi có nhiều khả năng dẫn đến chiếu tướng hơn. Chỉ sau nhiều giờ huấn luyện, AlphaZero đã phát triển khả năng đánh bại bất kỳ người chơi cờ nào.

Tuy nhiên, dù học tập tăng cường có thể thành công đến đâu, nó không phải lúc nào cũng dẫn đến các chiến lược phản ánh sự hiểu biết chung về trò chơi. Trong khoảng nửa thập kỷ qua, Zahavy và những người khác nhận thấy sự gia tăng các trục trặc đặc biệt có thể xảy ra trên các hệ thống được đào tạo bằng thử và sai. Ví dụ: một hệ thống chơi trò chơi điện tử có thể tìm ra kẽ hở và tìm ra cách gian lận hoặc bỏ qua một cấp độ, hoặc nó có thể dễ dàng bị mắc kẹt trong một vòng lặp lặp đi lặp lại. Các câu đố kiểu Penrose tương tự cũng gợi ý một loại điểm mù hoặc trục trặc trong AlphaZero - nó không thể tìm ra cách tiếp cận một vấn đề mà nó chưa từng thấy trước đây.

Nhưng có lẽ không phải mọi trục trặc đều chỉ là lỗi. Zahavy nghi ngờ rằng điểm mù của AlphaZero thực sự có thể là một thứ khác được ngụy trang - các quyết định và hành vi gắn liền với phần thưởng nội bộ của hệ thống. Ông nói, hệ thống học tăng cường sâu không biết cách thất bại - hoặc thậm chí làm thế nào để nhận ra thất bại. Khả năng thất bại từ lâu đã gắn liền với khả năng giải quyết vấn đề một cách sáng tạo. “Sáng tạo có phẩm chất của con người,” Kasparov viết trong Suy nghĩ sâu. “Nó chấp nhận khái niệm thất bại.”

Các hệ thống AI thường không làm như vậy. Và nếu một hệ thống không nhận ra rằng nó không thể hoàn thành nhiệm vụ của mình thì nó có thể không thử làm điều gì khác. Thay vào đó, nó sẽ tiếp tục cố gắng làm những gì nó đã làm. Zahavy cho biết, đó có thể là nguyên nhân dẫn đến những ngõ cụt trong trò chơi điện tử - hoặc bị mắc kẹt trong một số thử thách của Penrose. Ông nói, hệ thống này đang theo đuổi “những loại phần thưởng nội tại kỳ lạ” mà nó đã phát triển trong quá trình đào tạo. Những điều trông giống như sai lầm từ bên ngoài có thể là hậu quả của việc phát triển các chiến lược cụ thể nhưng cuối cùng không thành công.

Hệ thống coi những phần thưởng kỳ lạ này là những bước hướng tới mục tiêu lớn hơn mà nó thực sự không thể đạt được và nó không biết phải thử điều gì đó mới. “Tôi đang cố gắng hiểu chúng,” Zahavy nói.

Một trò chơi hay hơn

Một phần lý do khiến những trục trặc này có thể gây hậu quả nghiêm trọng - và rất hữu ích - đến từ điều mà các nhà nghiên cứu nhận ra là có vấn đề với việc khái quát hóa. Mặc dù hệ thống học tăng cường có thể phát triển một chiến lược hiệu quả để kết nối một tình huống nhất định với một hành động cụ thể — mà các nhà nghiên cứu gọi là “chính sách” — nhưng chúng không thể áp dụng chiến lược đó cho các vấn đề khác nhau. “Điều thường có xu hướng xảy ra với học tăng cường, hầu như bất kể phương pháp nào, là bạn có được chính sách giải quyết được trường hợp cụ thể của vấn đề mà bạn đang đào tạo, nhưng nó không khái quát hóa,” cho biết Julian Togelius, một nhà khoa học máy tính tại Đại học New York và giám đốc nghiên cứu tại modl.ai.

Zahavy nhận thấy các câu đố Penrose chỉ yêu cầu kiểu khái quát hóa này. Có lẽ AlphaZero không thể giải được hầu hết các câu đố vì nó quá tập trung vào việc chiến thắng toàn bộ trò chơi, từ đầu đến cuối. Nhưng cách tiếp cận đó đã tạo ra những điểm mù do sự sắp xếp khó tin của các mảnh trong câu đố Penrose. Ông lý luận, có thể chương trình có thể học cách giải câu đố nếu nó có đủ không gian sáng tạo để động não và tiếp cận các phương pháp đào tạo khác nhau.

Vì vậy, trước tiên anh và các đồng nghiệp đã thu thập được bộ 53 câu đố Penrose và 15 câu đố thử thách bổ sung. Riêng AlphaZero giải được ít hơn 4% số câu đố Penrose và dưới 12% số còn lại. Zahavy không ngạc nhiên: Nhiều câu đố trong số này được các kiện tướng cờ vua thiết kế để cố tình gây nhầm lẫn cho máy tính.

Để thử nghiệm, các nhà nghiên cứu đã thử huấn luyện AlphaZero chơi với chính nó bằng cách sử dụng cách sắp xếp câu đố Penrose làm vị trí bắt đầu, thay vì bảng đầy đủ của các trò chơi thông thường. Hiệu suất của nó được cải thiện đáng kể: Nó giải được 96% câu đố Penrose và 76% thử thách được đặt ra. Nói chung, khi AlphaZero huấn luyện một câu đố cụ thể, nó có thể giải được câu đố đó, giống như nó có thể giành chiến thắng khi luyện tập trong một trò chơi đầy đủ. Có lẽ, Zahavy nghĩ, nếu một chương trình cờ vua bằng cách nào đó có thể truy cập vào tất cả các phiên bản khác nhau của AlphaZero, được huấn luyện ở các vị trí khác nhau, thì sự đa dạng đó có thể khơi dậy khả năng tiếp cận các vấn đề mới một cách hiệu quả. Nói cách khác, có lẽ nó có thể khái quát hóa, giải quyết không chỉ các câu đố Penrose, mà còn giải bất kỳ bài toán cờ vua rộng hơn nào.

Nhóm của anh quyết định tìm hiểu. Họ đã xây dựng phiên bản AlphaZero mới, đa dạng, bao gồm nhiều hệ thống AI được đào tạo độc lập và trong nhiều tình huống khác nhau. Zahavy cho biết, thuật toán chi phối toàn bộ hệ thống hoạt động như một loại người mai mối ảo: một thuật toán được thiết kế để xác định tác nhân nào có cơ hội thành công cao nhất khi đến lúc phải hành động. Anh ấy và các đồng nghiệp của mình cũng mã hóa thành một “phần thưởng đa dạng” - phần thưởng dành cho hệ thống bất cứ khi nào nó rút ra các chiến lược từ nhiều lựa chọn.

Khi hệ thống mới được thiết lập để chơi các trò chơi của riêng mình, nhóm đã quan sát thấy rất nhiều sự đa dạng. Trình chơi AI đa dạng đã thử nghiệm các phần mở đầu mới, hiệu quả và các quyết định mới lạ — nhưng hợp lý — về các chiến lược cụ thể, chẳng hạn như thời điểm và địa điểm xây lâu đài. Trong hầu hết các trận đấu, nó đã đánh bại AlphaZero ban đầu. Nhóm nghiên cứu cũng nhận thấy rằng phiên bản đa dạng có thể giải được số câu đố thử thách gấp đôi so với phiên bản gốc và có thể giải được hơn một nửa tổng danh mục các câu đố Penrose.

“Ý tưởng là thay vì tìm một giải pháp hoặc một chính sách duy nhất có thể đánh bại bất kỳ người chơi nào, thì ở đây [nó sử dụng] ý ​​tưởng về sự đa dạng trong sáng tạo,” Cully nói.

Zahavy cho biết, với quyền truy cập vào nhiều trò chơi được chơi khác nhau, AlphaZero đa dạng có nhiều lựa chọn hơn cho các tình huống khó khăn khi chúng phát sinh. Ông nói: “Nếu bạn có thể kiểm soát loại trò chơi mà nó xem, thì về cơ bản bạn sẽ kiểm soát được cách nó sẽ khái quát hóa. Những phần thưởng nội tại kỳ lạ đó (và những động thái liên quan của chúng) có thể trở thành điểm mạnh cho các hành vi đa dạng. Sau đó, hệ thống có thể học cách đánh giá và đánh giá các cách tiếp cận khác nhau và xem khi nào chúng thành công nhất. “Chúng tôi nhận thấy rằng nhóm đặc vụ này thực sự có thể đi đến thống nhất về những quan điểm này.”

Và điều quan trọng nhất là những tác động này còn vượt ra ngoài lĩnh vực cờ vua.

Sáng tạo ngoài đời thực

Cully cho biết một cách tiếp cận đa dạng có thể giúp ích cho bất kỳ hệ thống AI nào, không chỉ những hệ thống dựa trên học tập tăng cường. Anh ấy từ lâu đã sử dụng sự đa dạng để huấn luyện các hệ thống vật lý, bao gồm cả robot sáu chân nó được phép khám phá nhiều kiểu chuyển động khác nhau, trước khi anh ta cố tình “làm bị thương” nó, cho phép nó tiếp tục di chuyển bằng cách sử dụng một số kỹ thuật mà nó đã phát triển trước đó. “Chúng tôi chỉ đang cố gắng tìm ra những giải pháp khác với tất cả những giải pháp trước đây mà chúng tôi đã tìm ra cho đến nay.” Gần đây, anh ấy cũng đang cộng tác với các nhà nghiên cứu để sử dụng tính đa dạng nhằm xác định các loại thuốc mới có triển vọng và phát triển các chiến lược giao dịch chứng khoán hiệu quả.

Cully cho biết: “Mục tiêu là tạo ra một bộ sưu tập lớn gồm hàng nghìn giải pháp khác nhau, trong đó mỗi giải pháp đều rất khác so với giải pháp tiếp theo”. Vì vậy - giống như người chơi cờ đa dạng đã học cách làm - đối với mọi loại vấn đề, hệ thống tổng thể có thể chọn giải pháp tốt nhất có thể. Ông nói, hệ thống AI của Zahavy cho thấy rõ ràng cách “tìm kiếm các chiến lược đa dạng giúp suy nghĩ sáng tạo và tìm ra giải pháp”.

Zahavy nghi ngờ rằng để các hệ thống AI có thể suy nghĩ sáng tạo, các nhà nghiên cứu chỉ cần khiến chúng cân nhắc nhiều lựa chọn hơn. Giả thuyết đó cho thấy mối liên hệ kỳ lạ giữa con người và máy móc: Có thể trí thông minh chỉ là vấn đề sức mạnh tính toán. Đối với một hệ thống AI, có lẽ sự sáng tạo phụ thuộc vào khả năng xem xét và lựa chọn từ một loạt các tùy chọn đủ lớn. Khi hệ thống đạt được phần thưởng cho việc lựa chọn nhiều chiến lược tối ưu khác nhau, kiểu giải quyết vấn đề sáng tạo này sẽ được củng cố và tăng cường. Cuối cùng, về mặt lý thuyết, nó có thể mô phỏng bất kỳ loại chiến lược giải quyết vấn đề nào được coi là sáng tạo ở con người. Sự sáng tạo sẽ trở thành một vấn đề tính toán.

Liemhetcharat lưu ý rằng một hệ thống AI đa dạng khó có thể giải quyết hoàn toàn vấn đề khái quát hóa rộng hơn trong học máy. Nhưng đó là một bước đi đúng hướng. “Nó đang giảm nhẹ một trong những thiếu sót,” cô nói.

Thực tế hơn, kết quả của Zahavy cộng hưởng với những nỗ lực gần đây cho thấy sự hợp tác có thể dẫn đến hiệu suất tốt hơn trong các nhiệm vụ khó khăn giữa con người với nhau. Hầu hết các bản hit trong danh sách Billboard 100 đều được viết bởi các nhóm nhạc sĩ, chẳng hạn như không phải cá nhân. Và vẫn còn chỗ để cải thiện. Cách tiếp cận đa dạng hiện nay tốn kém về mặt tính toán vì nó phải xem xét rất nhiều khả năng hơn một hệ thống thông thường. Zahavy cũng không tin rằng ngay cả AlphaZero đa dạng cũng nắm bắt được toàn bộ khả năng.

“Tôi vẫn [nghĩ] vẫn còn chỗ để tìm ra những giải pháp khác,” anh nói. “Tôi không rõ ràng rằng với tất cả dữ liệu trên thế giới, chỉ có một câu trả lời cho mọi câu hỏi.”

Quanta đang tiến hành một loạt cuộc khảo sát để phục vụ khán giả của chúng tôi tốt hơn. Lấy của chúng tôi khảo sát độc giả khoa học máy tính và bạn sẽ được tham gia để giành chiến thắng miễn phí Quanta hàng hóa.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img