Logo Zephyrnet

Học tăng cường: Công nghệ AI tuyệt vời tiếp theo chuyển từ phòng thí nghiệm sang thế giới thực

Ngày:

Tham gia Transform 2021 để biết các chủ đề quan trọng nhất trong AI & Dữ liệu doanh nghiệp. Tìm hiểu thêm.


Học tăng cường (RL) là một loại công nghệ trí tuệ nhân tạo mạnh mẽ, có thể được sử dụng để tìm hiểu các chiến lược nhằm kiểm soát tối ưu các hệ thống lớn, phức tạp như nhà máy sản xuất, hệ thống kiểm soát giao thông (đường bộ/tàu hỏa/máy bay), danh mục tài chính, robot, v.v. hiện đang chuyển đổi từ các phòng thí nghiệm nghiên cứu sang các ứng dụng thực tế, có tác động lớn. Ví dụ, các công ty xe tự lái như con đường và Waymo đang sử dụng phương pháp học tăng cường để phát triển hệ thống điều khiển cho ô tô của họ. 

Các hệ thống AI thường được sử dụng trong công nghiệp thực hiện nhận dạng mẫu để đưa ra dự đoán. Ví dụ: họ có thể nhận dạng các mẫu trong hình ảnh để phát hiện khuôn mặt (nhận diện khuôn mặt) hoặc nhận dạng các mẫu trong dữ liệu bán hàng để dự đoán sự thay đổi về nhu cầu (dự báo nhu cầu), v.v. Mặt khác, các phương pháp học tăng cường được sử dụng để đưa ra quyết định tối ưu hoặc thực hiện các hành động tối ưu trong các ứng dụng có vòng phản hồi. Một ví dụ trong đó có thể sử dụng cả phương pháp AI truyền thống và RL, nhưng với các mục đích khác nhau, sẽ làm cho sự khác biệt trở nên rõ ràng hơn.

Giả sử chúng ta đang sử dụng AI để giúp vận hành một nhà máy sản xuất. Nhận dạng mẫu có thể được sử dụng để đảm bảo chất lượng, trong đó hệ thống AI sử dụng hình ảnh và bản quét của sản phẩm hoàn chỉnh để phát hiện bất kỳ điểm không hoàn hảo hoặc sai sót nào. Mặt khác, hệ thống RL sẽ tính toán và thực hiện chiến lược kiểm soát chính quy trình sản xuất (ví dụ: bằng cách quyết định chạy dây chuyền nào, điều khiển máy móc/robot, quyết định sản phẩm nào sẽ sản xuất, v.v.). Hệ thống RL cũng sẽ cố gắng đảm bảo rằng chiến lược là tối ưu ở chỗ nó tối đa hóa một số chỉ số quan tâm - chẳng hạn như khối lượng đầu ra - trong khi vẫn duy trì một mức chất lượng sản phẩm nhất định. Vấn đề tính toán chiến lược điều khiển tối ưu mà RL giải quyết là rất khó vì một số lý do tế nhị (thường khó hơn nhiều so với nhận dạng mẫu).

Khi tính toán chiến lược tối ưu, hoặc điều luật theo cách nói của RL, thách thức chính mà thuật toán học RL phải đối mặt là vấn đề được gọi là vấn đề “chuyển nhượng tín dụng tạm thời”. Nghĩa là, tác động của một hành động (ví dụ: “chạy dòng 1 vào thứ Tư”) ở trạng thái hệ thống nhất định (ví dụ: “mức đầu ra hiện tại của máy, mức độ bận của mỗi dòng”, v.v.) đối với hiệu suất tổng thể (ví dụ: “tổng âm lượng đầu ra”) không được biết cho đến sau (có thể) một thời gian dài. Tệ hơn nữa, hiệu suất tổng thể còn phụ thuộc vào tất cả các hành động được thực hiện sau hành động được đánh giá. Cùng với nhau, điều này ngụ ý rằng, khi một chính sách ứng viên được thực thi để đánh giá, rất khó để biết hành động nào là tốt và hành động nào là xấu - nói cách khác, rất khó để gán tín dụng cho các hành động khác nhau một cách thích hợp. Số lượng lớn các trạng thái hệ thống tiềm năng trong những vấn đề phức tạp này càng làm tình hình trở nên trầm trọng hơn thông qua “lời nguyền của chiều” đáng sợ. Một cách hay để có được trực giác về cách hệ thống RL giải quyết tất cả những vấn đề này cùng một lúc là xem xét những thành công ngoạn mục gần đây mà chúng đã đạt được trong phòng thí nghiệm.

Nhiều minh chứng nổi bật gần đây về sức mạnh của RL đến từ việc áp dụng chúng vào các trò chơi board game và trò chơi điện tử. Hệ thống RL đầu tiên gây ấn tượng với cộng đồng AI toàn cầu đã có thể học cách chơi tốt hơn con người trong các trò chơi Atari khác nhau khi chỉ được đưa vào làm đầu vào hình ảnh trên màn hình và điểm số nhận được khi chơi trò chơi. Điều này được tạo ra vào năm 2013 bởi phòng thí nghiệm nghiên cứu AI Deepmind có trụ sở tại London (hiện là một phần của Alphabet Inc.). Phòng thí nghiệm tương tự sau đó đã tạo ra một loạt hệ thống RL (hoặc đặc vụ), bắt đầu với đặc vụ AlphaGo, có khả năng đánh bại những người chơi hàng đầu thế giới trong trò chơi cờ vây. Những kỳ tích ấn tượng này diễn ra từ năm 2015 đến năm 2017 đã gây bão trên toàn thế giới vì cờ vây là một trò chơi rất phức tạp, với hàng triệu người hâm mộ và người chơi trên khắp thế giới, đòi hỏi tư duy chiến lược phức tạp, dài hạn liên quan đến cả hội đồng địa phương và toàn cầu. cấu hình.

Sau đó, Deepmind và phòng thí nghiệm nghiên cứu AI OpenAI đã phát hành hệ thống chơi trò chơi điện tử Starcraft và DOTA 2 có thể đánh bại những người chơi hàng đầu trên thế giới. Những trò chơi này đầy thách thức vì chúng đòi hỏi tư duy chiến lược, quản lý tài nguyên cũng như kiểm soát và phối hợp nhiều thực thể trong trò chơi.

Tất cả các đặc vụ được đề cập ở trên đều được đào tạo bằng cách cho thuật toán RL chơi trò chơi nhiều lần (ví dụ: hàng triệu lần trở lên) và tìm hiểu chính sách nào hiệu quả và chính sách nào không chống lại các loại đối thủ và người chơi khác nhau. Có thể thực hiện được số lượng lớn thử nghiệm vì đây đều là những trò chơi chạy trên máy tính. Để xác định tính hữu ích của các chính sách khác nhau, thuật toán RL thường sử dụng sự kết hợp phức tạp của các ý tưởng. Chúng bao gồm leo dốc trong không gian chính sách, đấu tranh với chính mình, tổ chức các liên minh nội bộ giữa các chính sách ứng cử viên hoặc sử dụng các chính sách được con người sử dụng làm điểm khởi đầu và cân bằng hợp lý việc khám phá không gian chính sách với việc khai thác các chính sách tốt được tìm thấy cho đến nay. Nói một cách đại khái, số lượng lớn các thử nghiệm cho phép khám phá nhiều trạng thái trò chơi khác nhau có thể đạt được một cách hợp lý, trong khi các phương pháp đánh giá phức tạp cho phép hệ thống AI xác định hành động nào hữu ích về lâu dài, trong các cách chơi hợp lý của trò chơi, trong các trò chơi khác nhau này. Những trạng thái.

Yếu tố cản trở chính trong việc sử dụng các thuật toán này trong thế giới thực là không thể chạy hàng triệu thử nghiệm. May mắn thay, một giải pháp thay thế ngay lập tức được đề xuất: Đầu tiên, tạo một mô phỏng ứng dụng trên máy tính (mô phỏng nhà máy sản xuất hoặc mô phỏng thị trường, v.v.), sau đó tìm hiểu chính sách tối ưu trong mô phỏng bằng thuật toán RL và cuối cùng điều chỉnh chính sách tối ưu đã học cho phù hợp. thế giới thực bằng cách chạy nó một vài lần và điều chỉnh một số thông số. Nổi tiếng là trong một bản demo rất hấp dẫn năm 2019, OpenAI đã cho thấy tính hiệu quả của phương pháp này bằng cách đào tạo một cánh tay robot để giải câu đố khối Rubik một tay.

Để phương pháp này hoạt động, mô phỏng của bạn phải thể hiện được vấn đề cơ bản với độ chính xác cao. Vấn đề bạn đang cố gắng giải quyết cũng phải được “đóng” theo một nghĩa nào đó - không thể có những tác động bên ngoài tùy ý hoặc vô hình có thể ảnh hưởng đến hiệu suất của hệ thống. Ví dụ: giải pháp OpenAI sẽ không hoạt động nếu cánh tay robot mô phỏng quá khác với cánh tay robot thật hoặc nếu có nỗ lực đánh bật khối Rubik ra khỏi cánh tay robot thật (mặc dù điều đó có thể là tự nhiên - hoặc được đào tạo rõ ràng để được - mạnh mẽ đối với một số loại vật cản và cản trở).

Những hạn chế này nghe có vẻ có thể chấp nhận được đối với hầu hết mọi người. Tuy nhiên, trong các ứng dụng thực tế, rất khó để mô tả chính xác năng lực của hệ thống RL và điều này có thể dẫn đến những bất ngờ khó chịu. Trong ví dụ về nhà máy sản xuất trước đây của chúng tôi, nếu một máy được thay thế bằng một máy nhanh hơn hoặc chậm hơn nhiều, nó có thể thay đổi động lực của nhà máy đến mức cần phải đào tạo lại hệ thống RL. Một lần nữa, điều này không phải là không hợp lý đối với bất kỳ bộ điều khiển tự động nào, nhưng các bên liên quan có thể có những kỳ vọng cao hơn nhiều từ một hệ thống thông minh nhân tạo và những kỳ vọng đó sẽ cần phải được quản lý.

Dù sao đi nữa, tại thời điểm này, tương lai của việc học tăng cường trong thế giới thực có vẻ rất tươi sáng. Có rất nhiều công ty khởi nghiệp cung cấp các sản phẩm học tập tăng cường để điều khiển robot sản xuất (Covariant, Osaro, Luffy), quản lý lịch trình sản xuất (Instadeep), ra quyết định doanh nghiệp (Secondmind), hậu cần (Dorabot), thiết kế mạch (Instadeep), điều khiển ô tô tự động (Wayve). , Waymo, Five AI), điều khiển máy bay không người lái (Amazon), điều hành các quỹ phòng hộ (Piit.ai) và nhiều ứng dụng khác nằm ngoài tầm với của các hệ thống AI dựa trên nhận dạng mẫu.

Mỗi công ty Big Tech đều đã đầu tư rất nhiều vào nghiên cứu RL - ví dụ: Google mua lại Deepmind với số tiền được báo cáo là 400 triệu bảng Anh (khoảng 525 triệu USD) vào năm 2015. Vì vậy, thật hợp lý khi cho rằng RL đã được sử dụng nội bộ tại các công ty này hoặc đang trong quá trình triển khai; nhưng họ giữ kín các chi tiết vì lý do lợi thế cạnh tranh.

Chúng ta có thể mong đợi một số trục trặc là ứng dụng đầy hứa hẹn cho RL falter, nhưng nó có thể sẽ khẳng định vị trí của mình như một công nghệ cần tính đến trong tương lai gần.

MM Hassan Mahmud là Kỹ sư công nghệ máy học và AI cấp cao tại Máy bắn đá kỹ thuật số, với nền tảng về học máy trong học viện và ngành công nghiệp.

VentureBeat

Nhiệm vụ của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số cho những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ chuyển đổi và giao dịch. Trang web của chúng tôi cung cấp thông tin cần thiết về công nghệ và chiến lược dữ liệu để hướng dẫn bạn khi bạn lãnh đạo tổ chức của mình. Chúng tôi mời bạn trở thành thành viên của cộng đồng của chúng tôi, để truy cập:

  • thông tin cập nhật về các chủ đề mà bạn quan tâm
  • bản tin của chúng tôi
  • nội dung dẫn dắt tư tưởng được kiểm soát và giảm giá quyền truy cập vào các sự kiện được đánh giá cao của chúng tôi, chẳng hạn như Chuyển đổi 2021: Tìm hiểu thêm
  • các tính năng mạng và hơn thế nữa

Trở thành thành viên

Coinsmart. Đặt cạnh Bitcoin-Börse ở Europa
Nguồn: https://venturebeat.com/2021/03/28/reinforcement-learning-the-next-great-ai-tech-moving-from-the-lab-to-the-real-world/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img