Logo Zephyrnet

Mạng lưới thần kinh cần dữ liệu để tìm hiểu. Dù Là Giả. | Tạp chí lượng tử

Ngày:

Giới thiệu

Vào một ngày nắng cuối năm 1987, một chiếc xe tải Chevy chạy trên con đường ngoằn ngoèo nhiều cây cối trong khuôn viên Đại học Carnegie Mellon ở Pittsburgh. Phương tiện khổng lồ, tên là Navlab, không gây chú ý vì vẻ đẹp hay tốc độ, mà vì bộ não của nó: Nó là phiên bản thử nghiệm của một phương tiện tự hành, được điều khiển bởi bốn máy tính mạnh (vào thời điểm đó) trong khu vực chở hàng.

Lúc đầu, các kỹ sư đằng sau Navlab đã cố gắng điều khiển phương tiện với một thuật toán điều hướng, nhưng giống như nhiều nhà nghiên cứu trước đây, họ thấy khó có thể giải thích được rất nhiều điều kiện lái xe với một bộ hướng dẫn duy nhất. Vì vậy, họ đã thử lại, lần này sử dụng phương pháp tiếp cận trí tuệ nhân tạo gọi là học máy: Chiếc xe tải sẽ tự dạy cách lái. Một sinh viên tốt nghiệp tên là Dean Pomerleau xây dựng một mạng lưới thần kinh nhân tạo, được tạo ra từ các đơn vị xử lý logic nhỏ nhằm hoạt động giống như các tế bào não và bắt đầu huấn luyện nó bằng các bức ảnh về đường xá trong các điều kiện khác nhau. Tuy nhiên, việc chụp đủ ảnh để bao quát một loạt các tình huống lái xe có thể xảy ra là quá khó đối với nhóm nhỏ, vì vậy Pomerleau đã tạo ra 1,200 hình ảnh đường tổng hợp trên máy tính và sử dụng chúng để đào tạo hệ thống. Cỗ máy tự học lái xe cũng như bất kỳ thứ gì khác mà các nhà nghiên cứu nghĩ ra.

Navlab không trực tiếp dẫn đến bất kỳ bước đột phá lớn nào trong lĩnh vực lái xe tự hành, nhưng dự án đã cho thấy sức mạnh của dữ liệu tổng hợp để huấn luyện các hệ thống AI. Khi máy học nhảy vọt trong những thập kỷ tiếp theo, nó đã phát triển một sự khao khát vô độ đối với dữ liệu đào tạo. Nhưng rất khó để có được dữ liệu: Dữ liệu có thể đắt đỏ, riêng tư hoặc khan hiếm. Do đó, các nhà nghiên cứu đang ngày càng chuyển sang sử dụng dữ liệu tổng hợp để bổ sung hoặc thậm chí thay thế dữ liệu tự nhiên để huấn luyện mạng lưới thần kinh. “Máy học từ lâu đã phải vật lộn với vấn đề dữ liệu,” cho biết Serge Nikolenko, người đứng đầu bộ phận AI tại Synthesis AI, một công ty tạo dữ liệu tổng hợp để giúp khách hàng tạo ra các mô hình AI tốt hơn. “Dữ liệu tổng hợp là một trong những cách hứa hẹn nhất để giải quyết vấn đề đó.”

May mắn thay, khi máy học ngày càng tinh vi hơn, thì các công cụ tạo dữ liệu tổng hợp hữu ích cũng vậy.

Một lĩnh vực mà dữ liệu tổng hợp tỏ ra hữu ích là giải quyết các mối lo ngại về nhận dạng khuôn mặt. Nhiều hệ thống nhận dạng khuôn mặt được đào tạo với thư viện hình ảnh khuôn mặt thật khổng lồ, điều này đặt ra vấn đề về quyền riêng tư của những người trong ảnh. Xu hướng cũng là một vấn đề, vì nhiều quần thể khác nhau được đại diện quá nhiều và quá ít trong các thư viện đó. Các nhà nghiên cứu tại Phòng thí nghiệm AI & Thực tế hỗn hợp của Microsoft đã giải quyết những lo ngại này, phát hành một bộ sưu tập trong số 100,000 khuôn mặt tổng hợp để đào tạo các hệ thống AI. Những khuôn mặt này được tạo từ một nhóm 500 người đã cho phép quét khuôn mặt của họ.

Hệ thống của Microsoft lấy các yếu tố của khuôn mặt từ tập hợp ban đầu để tạo ra các kết hợp mới và độc đáo, sau đó thêm sự tinh tế về mặt hình ảnh với các chi tiết như trang điểm và tóc. Các nhà nghiên cứu cho biết bộ dữ liệu của họ trải rộng trên nhiều sắc tộc, lứa tuổi và phong cách. “Luôn có một cái đuôi dài về sự đa dạng của con người. Chúng tôi nghĩ và hy vọng chúng tôi sẽ nắm bắt được nhiều điều đó,” nói Tadas Baltrušaitis, một nhà nghiên cứu của Microsoft làm việc trong dự án.

Một ưu điểm khác của khuôn mặt tổng hợp là máy tính có thể gắn nhãn mọi phần của mọi khuôn mặt, giúp mạng lưới thần kinh học nhanh hơn. Thay vào đó, ảnh thật phải được dán nhãn bằng tay, việc này mất nhiều thời gian hơn và không bao giờ nhất quán hoặc chính xác.

Kết quả không giống như ảnh thực — các khuôn mặt trông hơi giống các nhân vật trong phim Pixar — nhưng Microsoft đã sử dụng chúng để đào tạo các mạng nhận dạng khuôn mặt có độ chính xác gần bằng mạng được đào tạo trên hàng triệu khuôn mặt thật.

Giới thiệu

Khả năng tạo dữ liệu tổng hợp hữu ích của máy tính gần đây cũng đã được cải thiện, một phần nhờ vào GPU tốt hơn — một loại chip được thiết kế để xử lý đồ họa có thể tạo ra hình ảnh chân thực hơn. Erroll Wood, một nhà nghiên cứu hiện đang làm việc tại Google, người cũng đã giúp tạo ra các khuôn mặt tổng hợp, đã dựa vào GPU cho một dự án theo dõi ánh mắt. Theo dõi mắt là một nhiệm vụ khó khăn đối với máy tính, vì nó liên quan đến việc theo dõi các chuyển động nhỏ của những đôi mắt có hình dạng khác nhau trong các điều kiện ánh sáng khác nhau, ngay cả ở những góc cực đoan mà hầu như không nhìn thấy được nhãn cầu. Thông thường, máy sẽ cần hàng nghìn bức ảnh chụp mắt người để biết được vị trí của một người đang nhìn — và những bức ảnh đó rất khó có được và cực kỳ đắt đỏ.

đội của gỗ cho thấy rằng một máy tính chạy bằng GPU và chạy Unity, một gói phần mềm để sản xuất trò chơi điện tử, có thể tạo ra những hình ảnh cần thiết — bao gồm cả hình ảnh phản chiếu chi tiết của hình ảnh kỹ thuật số bao quanh nhãn cầu cong và ướt của con người. Hệ thống GPU chỉ mất 23 mili giây để tạo ra mỗi bức ảnh. (Trên thực tế, mỗi hình ảnh thực sự chỉ mất 3.6 mili giây để tạo ra; thời gian còn lại được dành để lưu trữ hình ảnh.) Các nhà nghiên cứu đã tạo ra 1 triệu hình ảnh mắt và sử dụng chúng để huấn luyện một mạng thần kinh, mạng này hoạt động tốt như mạng tương tự được đào tạo dựa trên những bức ảnh thực về mắt người, với mức giá chỉ bằng một phần nhỏ và trong thời gian ngắn hơn nhiều. Cũng giống như các khuôn mặt tổng hợp của Microsoft, mạng theo dõi bằng mắt được hưởng lợi từ khả năng của máy tính trong việc áp dụng các nhãn pixel hoàn hảo cho các hình ảnh đào tạo.

Các nhà nghiên cứu cũng đang sử dụng các hệ thống AI mới nhất để tạo dữ liệu cần thiết để huấn luyện các hệ thống AI. Ví dụ, trong y học, một mục tiêu lâu dài là tạo ra một mạng lưới thần kinh có thể giải thích các hình ảnh X quang cũng như các bác sĩ X quang của con người có thể làm được. Nhưng thật khó để có được dữ liệu cần thiết để đào tạo các hệ thống này, vì ảnh chụp X-quang và CT của bệnh nhân thực là thông tin y tế riêng tư. Đó là một gánh nặng để có quyền truy cập vào hàng nghìn hoặc hàng triệu hình ảnh cần thiết để đào tạo một mô hình thực sự chính xác.

Đầu năm nay, Hazrat Ali, một nhà khoa học máy tính tại Đại học COMSATS ở Pakistan, mô tả những thử nghiệm ban đầu của anh ấy bằng cách sử dụng DALL·E 2, một ứng dụng phổ biến mô hình khuếch tán, để tạo ra các hình ảnh X-quang và CT thực tế của phổi, bao gồm các hình ảnh đại diện cho các tình trạng phổi cụ thể. Những hình ảnh này sau đó có thể được sử dụng để đào tạo một mạng lưới thần kinh nhằm phát hiện các khối u và các bất thường khác. Trong vòng một năm, anh ấy hy vọng các mô hình khuếch tán sẽ thiết lập một tiêu chuẩn mới cho các công cụ X quang AI. “Một khi chúng tôi có thể tổng hợp các hình ảnh MRI, CT và có lẽ cả siêu âm thực tế hơn, điều này sẽ tăng tốc độ nghiên cứu và cuối cùng là dịch thuật lâm sàng mà không gây lo ngại về quyền riêng tư và chia sẻ dữ liệu của bệnh nhân.”

Khi Navlab rụt rè lướt qua khuôn viên CMU, những người chứng kiến ​​có lẽ không nghĩ rằng họ đang chứng kiến ​​sự ra đời của một công nghệ quan trọng. Nhưng hành trình chậm chạp đó đã giúp giới thiệu với thế giới về dữ liệu tổng hợp, thứ đã đóng vai trò quan trọng trong sự phát triển của trí tuệ nhân tạo. Và vai trò đó có thể trở nên thực sự thiết yếu trong tương lai. “Dữ liệu tổng hợp vẫn ở đây,” nói Bến du thuyền Ivasic‐Kos, một nhà nghiên cứu máy học tại Đại học Rijeka ở Croatia. “Mục đích cuối cùng là thay thế hoàn toàn dữ liệu thực bằng dữ liệu tổng hợp.”

tại chỗ_img

Tin tức mới nhất

tại chỗ_img