Logo Zephyrnet

Hệ thống đào tạo những chiếc ô tô không người lái trong mô phỏng trước khi chúng lên đường

Ngày:

Một hệ thống mô phỏng được phát minh tại MIT để huấn luyện ô tô không người lái tạo ra một thế giới chân thực với khả năng lái vô hạn, giúp ô tô học cách điều hướng một loạt các tình huống xấu nhất trước khi di chuyển trên đường phố thực.  

Các hệ thống điều khiển, hay “bộ điều khiển” dành cho xe tự hành chủ yếu dựa vào bộ dữ liệu thực tế về quỹ đạo lái xe từ người lái xe. Từ những dữ liệu này, họ học cách mô phỏng các điều khiển lái an toàn trong nhiều tình huống khác nhau. Nhưng dữ liệu trong thế giới thực từ các “trường hợp cận biên” nguy hiểm, chẳng hạn như suýt va chạm hoặc bị ép ra khỏi đường hoặc sang làn đường khác, - may mắn thay - rất hiếm.

Một số chương trình máy tính, được gọi là “công cụ mô phỏng”, nhằm mục đích bắt chước các tình huống này bằng cách hiển thị các con đường ảo chi tiết để giúp huấn luyện bộ điều khiển phục hồi. Nhưng điều khiển đã học được từ mô phỏng chưa bao giờ được chứng minh là có thể chuyển sang thực tế trên một phương tiện quy mô lớn.

Các nhà nghiên cứu của MIT đã giải quyết vấn đề này bằng trình giả lập ảnh thực tế của họ, được gọi là Tổng hợp và chuyển đổi hình ảnh ảo để tự chủ (VISTA). Nó chỉ sử dụng một bộ dữ liệu nhỏ, được ghi lại bởi những người lái xe trên đường, để tổng hợp vô số quan điểm mới trên thực tế từ các quỹ đạo mà phương tiện có thể đi trong thế giới thực. Bộ điều khiển được thưởng cho quãng đường đi được mà không bị va chạm, vì vậy nó phải tự học cách đến đích an toàn. Khi làm như vậy, phương tiện sẽ học cách điều hướng an toàn trong mọi tình huống mà nó gặp phải, bao gồm cả việc lấy lại quyền kiểm soát sau khi rẽ giữa các làn đường hoặc phục hồi sau khi suýt va chạm.  

Trong các thử nghiệm, một bộ điều khiển được đào tạo trong trình mô phỏng VISTA một cách an toàn có thể được triển khai an toàn trên một chiếc ô tô không người lái có kích thước đầy đủ và điều hướng qua những con phố chưa từng thấy trước đây. Khi định vị ô tô ở các hướng ngoài đường mô phỏng các tình huống suýt va chạm khác nhau, bộ điều khiển cũng có thể khôi phục thành công ô tô trở lại quỹ đạo lái xe an toàn trong vòng vài giây. Một giấy mô tả hệ thống đã được xuất bản trong IEEE Robotics và Automation Letters và sẽ được trình bày tại hội nghị ICRA sắp tới vào tháng XNUMX.

Tác giả đầu tiên Alexander Amini, nghiên cứu sinh tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) cho biết: “Thật khó để thu thập dữ liệu trong những trường hợp khó khăn này mà con người không gặp phải trên đường. “Tuy nhiên, trong mô phỏng của chúng tôi, các hệ thống điều khiển có thể trải qua những tình huống đó, tự học cách phục hồi sau chúng và vẫn hoạt động mạnh mẽ khi được triển khai trên các phương tiện trong thế giới thực.”

Công việc được thực hiện với sự cộng tác của Viện nghiên cứu Toyota. Tham gia cùng Amini trên báo là Igor Gilitschenski, một nghiên cứu sinh sau tiến sĩ tại CSAIL; Jacob Phillips, Julia Moseyko và Rohan Banerjee, tất cả đều là sinh viên chưa tốt nghiệp tại CSAIL và Khoa Kỹ thuật Điện và Khoa học Máy tính; Sertac Karaman, phó giáo sư hàng không và du hành vũ trụ; và Daniela Rus, giám đốc CSAIL và Giáo sư Kỹ thuật Điện và Khoa học Máy tính Andrew và Erna Viterbi.

Mô phỏng dựa trên dữ liệu

Trong lịch sử, việc xây dựng các công cụ mô phỏng để đào tạo và thử nghiệm các phương tiện tự trị phần lớn là một nhiệm vụ thủ công. Các công ty và trường đại học thường tuyển dụng các nhóm nghệ sĩ và kỹ sư để phác thảo môi trường ảo, với các vạch kẻ đường, làn đường chính xác và thậm chí cả những chiếc lá chi tiết trên cây. Một số động cơ cũng có thể kết hợp vật lý tương tác của ô tô với môi trường của nó, dựa trên các mô hình toán học phức tạp.

Nhưng vì có rất nhiều thứ khác nhau cần xem xét trong môi trường thế giới thực phức tạp, nên thực tế không thể kết hợp mọi thứ vào trình giả lập. Vì lý do đó, thường có sự không phù hợp giữa những gì bộ điều khiển học được trong mô phỏng và cách chúng hoạt động trong thế giới thực.

Thay vào đó, các nhà nghiên cứu của MIT đã tạo ra cái mà họ gọi là công cụ mô phỏng “dựa trên dữ liệu”, tổng hợp từ dữ liệu thực, các quỹ đạo mới phù hợp với diện mạo đường, cũng như khoảng cách và chuyển động của tất cả các đối tượng trong cảnh.

Trước tiên, họ thu thập dữ liệu video từ một người lái xe trên một vài con đường và đưa dữ liệu đó vào động cơ. Đối với mỗi khung hình, công cụ chiếu mọi pixel thành một loại đám mây điểm 3D. Sau đó, họ đặt một phương tiện ảo bên trong thế giới đó. Khi xe thực hiện lệnh lái, động cơ sẽ tổng hợp một quỹ đạo mới thông qua đám mây điểm, dựa trên đường cong lái, hướng và vận tốc của xe.

Sau đó, động cơ sử dụng quỹ đạo mới đó để hiển thị cảnh ảnh chân thực. Để làm như vậy, nó sử dụng mạng thần kinh tích chập — thường được sử dụng cho các tác vụ xử lý hình ảnh — để ước tính bản đồ độ sâu, chứa thông tin liên quan đến khoảng cách của các đối tượng từ điểm nhìn của bộ điều khiển. Sau đó, nó kết hợp bản đồ độ sâu với một kỹ thuật ước tính hướng của máy ảnh trong cảnh 3D. Tất cả điều đó giúp xác định chính xác vị trí của phương tiện và khoảng cách tương đối với mọi thứ trong trình mô phỏng ảo.

Dựa trên thông tin đó, nó sẽ định hướng lại các pixel gốc để tạo lại hình ảnh 3D của thế giới từ góc nhìn mới của phương tiện. Nó cũng theo dõi chuyển động của các pixel để ghi lại chuyển động của ô tô và con người cũng như các vật thể chuyển động khác trong cảnh. Rus nói: “Điều này tương đương với việc cung cấp cho phương tiện vô số quỹ đạo có thể. “Bởi vì khi chúng tôi thu thập dữ liệu vật lý, chúng tôi lấy dữ liệu từ quỹ đạo cụ thể mà chiếc xe sẽ đi theo. Nhưng chúng ta có thể sửa đổi quỹ đạo đó để bao gồm tất cả các cách và môi trường lái xe có thể. Điều đó thực sự mạnh mẽ.”

Học tăng cường từ đầu

Theo truyền thống, các nhà nghiên cứu đã đào tạo các phương tiện tự trị bằng cách tuân theo các quy tắc lái xe do con người xác định hoặc bằng cách cố gắng bắt chước người lái xe. Nhưng các nhà nghiên cứu làm cho bộ điều khiển của họ học hoàn toàn từ đầu theo khuôn khổ “từ đầu đến cuối”, nghĩa là nó chỉ lấy dữ liệu cảm biến thô làm đầu vào — chẳng hạn như quan sát trực quan về đường — và từ dữ liệu đó, dự đoán các lệnh lái ở đầu ra .

“Về cơ bản, chúng tôi nói, 'Đây là một môi trường. Bạn có thể làm bất cứ điều gì bạn muốn. Chỉ cần không đâm vào các phương tiện khác và ở trong làn đường,'” Amini nói.

Điều này yêu cầu “học tăng cường” (RL), một kỹ thuật máy học thử và sai cung cấp tín hiệu phản hồi bất cứ khi nào ô tô mắc lỗi. Trong công cụ mô phỏng của các nhà nghiên cứu, bộ điều khiển bắt đầu bằng cách không biết gì về cách lái xe, vạch kẻ đường là gì hoặc thậm chí các phương tiện khác trông như thế nào, vì vậy nó bắt đầu thực hiện các góc lái ngẫu nhiên. Nó chỉ nhận được tín hiệu phản hồi khi nó gặp sự cố. Tại thời điểm đó, nó sẽ được dịch chuyển đến một vị trí mô phỏng mới và phải thực hiện một loạt các góc lái tốt hơn để tránh bị va chạm lần nữa. Trải qua 10 đến 15 giờ đào tạo, nó sử dụng các tín hiệu phản hồi thưa thớt này để học cách di chuyển những khoảng cách ngày càng xa hơn mà không bị va chạm.

Sau khi lái thành công 10,000 km trong mô phỏng, các tác giả áp dụng bộ điều khiển đã học đó lên phương tiện tự hành toàn diện của họ trong thế giới thực. Các nhà nghiên cứu cho biết đây là lần đầu tiên một bộ điều khiển được đào tạo bằng cách sử dụng phương pháp học tăng cường từ đầu đến cuối trong mô phỏng đã được triển khai thành công trên một chiếc ô tô tự hành ở quy mô đầy đủ. “Điều đó thật bất ngờ với chúng tôi. Amini nói: “Bộ điều khiển không chỉ chưa từng có trên một chiếc ô tô thực sự trước đây mà còn chưa từng nhìn thấy đường xá trước đó và không có kiến ​​thức trước về cách con người lái xe.

Việc buộc bộ điều khiển chạy qua tất cả các loại tình huống lái xe cho phép bộ điều khiển lấy lại quyền kiểm soát từ các vị trí mất phương hướng — chẳng hạn như ở nửa đường hoặc đi vào làn đường khác — và đánh lái trở lại đúng làn đường trong vòng vài giây. Amini nói: “Và các bộ điều khiển hiện đại khác đều thất bại thảm hại vì họ chưa bao giờ thấy bất kỳ dữ liệu nào như thế này trong quá trình đào tạo.

Tiếp theo, các nhà nghiên cứu hy vọng có thể mô phỏng tất cả các loại điều kiện đường xá từ một quỹ đạo lái xe duy nhất, chẳng hạn như ngày và đêm, thời tiết nắng và mưa. Họ cũng hy vọng có thể mô phỏng các tương tác phức tạp hơn với các phương tiện khác trên đường. “Điều gì sẽ xảy ra nếu những chiếc xe khác bắt đầu di chuyển và lao lên phía trước chiếc xe đó?” Rus nói. “Đó là những tương tác phức tạp, trong thế giới thực mà chúng tôi muốn bắt đầu thử nghiệm.”


Nguồn: http://news.mit.edu/2020/system-trains-driverless-cars-simulations-0323

tại chỗ_img

Tin tức mới nhất

tại chỗ_img