Logo Zephyrnet

Thu hẹp khoảng cách giữa tầm nhìn của con người và máy móc

Ngày:

Giả sử bạn nhìn thoáng qua một người mà bạn chưa từng gặp từ khoảng cách vài bước chân. Lùi lại vài bước và nhìn lại. Bạn sẽ có thể nhận ra khuôn mặt của mình? “Vâng, tất nhiên,” bạn có thể đang nghĩ. Nếu điều này là đúng, điều đó có nghĩa là hệ thống thị giác của chúng ta, khi đã nhìn thấy một hình ảnh duy nhất của một đối tượng, chẳng hạn như một khuôn mặt cụ thể, sẽ nhận ra nó một cách mạnh mẽ bất chấp những thay đổi về vị trí và tỷ lệ của đối tượng chẳng hạn. Mặt khác, chúng tôi biết rằng các bộ phân loại tiên tiến nhất, chẳng hạn như mạng sâu vanilla, sẽ thất bại trong bài kiểm tra đơn giản này.

Để nhận dạng một khuôn mặt cụ thể trong một loạt các biến đổi, mạng lưới thần kinh cần được đào tạo với nhiều ví dụ về khuôn mặt trong các điều kiện khác nhau. Nói cách khác, họ có thể đạt được sự bất biến thông qua việc ghi nhớ, nhưng không thể làm được nếu chỉ có một hình ảnh. Do đó, việc hiểu làm thế nào tầm nhìn của con người có thể tạo ra kỳ tích đáng chú ý này có liên quan đến các kỹ sư nhằm mục đích cải thiện các bộ phân loại hiện có của họ. Nó cũng quan trọng đối với các nhà thần kinh học mô hình hệ thống thị giác linh trưởng với các mạng sâu. Đặc biệt, có thể tính bất biến của việc học một lần được thể hiện bằng tầm nhìn sinh học đòi hỏi một chiến lược tính toán khá khác so với chiến lược của các mạng sâu. 

Một bài báo mới của ứng cử viên tiến sĩ MIT về kỹ thuật điện và khoa học máy tính Yena Han và các đồng nghiệp tại Báo cáo khoa học tự nhiên có tựa đề “Quy mô và sự bất biến dịch chuyển đối với các đối tượng mới lạ trong tầm nhìn của con người” thảo luận về cách họ nghiên cứu hiện tượng này kỹ lưỡng hơn để tạo ra các mạng lưới mới lấy cảm hứng từ sinh học.

“Con người có thể học hỏi từ rất ít ví dụ, không giống như mạng sâu. Đây là một sự khác biệt lớn với ý nghĩa to lớn đối với kỹ thuật của các hệ thống thị giác và để hiểu cách thị giác của con người thực sự hoạt động,” đồng tác giả Tomaso Poggio – giám đốc Trung tâm Não bộ, Tâm trí và Máy móc (CBMM) và Giáo sư Não bộ Eugene McDermott cho biết. và Khoa học nhận thức tại MIT. “Lý do chính cho sự khác biệt này là tính bất biến tương đối của hệ thống thị giác linh trưởng đối với quy mô, sự thay đổi và các biến đổi khác. Kỳ lạ thay, điều này hầu như bị bỏ quên trong cộng đồng AI, một phần vì dữ liệu tâm sinh lý cho đến nay vẫn chưa rõ ràng. Công việc của Han hiện đã thiết lập các phép đo chắc chắn về những bất biến cơ bản của thị giác con người.”

Để phân biệt tính bất biến tăng lên từ tính toán nội tại với tính bất biến từ kinh nghiệm và ghi nhớ, nghiên cứu mới đã đo phạm vi của tính bất biến trong quá trình học một lần. Một nhiệm vụ học tập một lần được thực hiện bằng cách trình bày các kích thích chữ cái tiếng Hàn cho các đối tượng con người không quen thuộc với ngôn ngữ này. Những chữ cái này ban đầu được trình bày một lần trong một điều kiện cụ thể và được thử nghiệm ở các tỷ lệ hoặc vị trí khác với điều kiện ban đầu. Kết quả thử nghiệm đầu tiên là — đúng như bạn đoán — con người đã cho thấy khả năng nhận dạng bất biến theo tỷ lệ đáng kể chỉ sau một lần tiếp xúc với những vật thể mới lạ này. Kết quả thứ hai là phạm vi của bất biến vị trí bị hạn chế, tùy thuộc vào kích thước và vị trí của các đối tượng.

Tiếp theo, Han và các đồng nghiệp của cô đã thực hiện một thí nghiệm có thể so sánh được trong các mạng lưới thần kinh sâu được thiết kế để tái tạo hoạt động này của con người. Kết quả cho thấy rằng để giải thích khả năng nhận dạng bất biến đối tượng của con người, các mô hình mạng thần kinh nên kết hợp rõ ràng tính bất biến tỷ lệ tích hợp sẵn. Ngoài ra, sự bất biến vị trí hạn chế của tầm nhìn con người được tái tạo tốt hơn trong mạng bằng cách tăng các trường tiếp nhận của nơ-ron mô hình khi chúng ở xa trung tâm của trường thị giác hơn. Kiến trúc này khác với các mô hình mạng thần kinh thường được sử dụng, trong đó hình ảnh được xử lý ở độ phân giải đồng nhất với cùng bộ lọc dùng chung.

“Công trình của chúng tôi cung cấp một hiểu biết mới về sự thể hiện của bộ não đối với các đối tượng dưới những góc nhìn khác nhau. Nó cũng có ý nghĩa đối với AI, vì kết quả cung cấp những hiểu biết mới về thế nào là một thiết kế kiến ​​trúc tốt cho các mạng thần kinh sâu,” nhận xét của Han, nhà nghiên cứu CBMM và là tác giả chính của nghiên cứu.

Han và Poggio đã tham gia cùng với Gemma Roig và Gad Geiger trong tác phẩm.


Nguồn: http://news.mit.edu/2020/bridging-gap-between-human-and-machine-vision-0211

tại chỗ_img

Tin tức mới nhất

tại chỗ_img