Logo Zephyrnet

Một mô hình tầm nhìn mới

Ngày:

Khi chúng ta mở mắt ra, chúng ta ngay lập tức nhìn thấy xung quanh mình rất chi tiết. Làm thế nào bộ não có thể hình thành những hình ảnh đại diện chi tiết phong phú về thế giới một cách nhanh chóng là một trong những câu đố lớn nhất chưa được giải đáp trong nghiên cứu về thị giác.

Các nhà khoa học nghiên cứu não bộ đã cố gắng tái tạo hiện tượng này bằng cách sử dụng các mô hình máy tính về thị giác, nhưng cho đến nay, các mô hình hàng đầu chỉ thực hiện các nhiệm vụ đơn giản hơn nhiều như chọn một vật thể hoặc một khuôn mặt trên nền lộn xộn. Giờ đây, một nhóm do các nhà khoa học nhận thức của MIT dẫn đầu đã tạo ra một mô hình máy tính ghi lại khả năng của hệ thống thị giác của con người để nhanh chóng tạo ra một mô tả cảnh chi tiết từ một hình ảnh và cung cấp một số thông tin chi tiết về cách bộ não đạt được điều này.

Josh nói: “Những gì chúng tôi đang cố gắng làm trong công việc này là giải thích cách nhận thức có thể phong phú hơn nhiều so với việc chỉ gắn nhãn ngữ nghĩa trên các phần của hình ảnh và khám phá câu hỏi làm thế nào để chúng ta nhìn thấy tất cả thế giới vật chất. Tenenbaum, giáo sư khoa học nhận thức tính toán và là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT và Trung tâm Bộ não, Tư duy và Máy móc (CBMM).

Mô hình mới cho rằng khi bộ não nhận được đầu vào bằng hình ảnh, nó sẽ nhanh chóng thực hiện một loạt các phép tính đảo ngược các bước mà một chương trình đồ họa máy tính sẽ sử dụng để tạo ra biểu diễn 2D của một khuôn mặt hoặc vật thể khác. Loại mô hình này, được gọi là đồ họa nghịch đảo hiệu quả (EIG), cũng tương quan tốt với các bản ghi điện từ các vùng chọn lọc khuôn mặt trong não của động vật linh trưởng không phải con người, cho thấy rằng hệ thống thị giác của linh trưởng có thể được tổ chức theo cách giống như mô hình máy tính , các nhà nghiên cứu nói.

Ilker Yildirim, một cựu postdoc của MIT hiện là trợ lý giáo sư tâm lý học tại Đại học Yale, là tác giả chính của bài báo, xuất hiện hôm nay trong Những tiến bộ khoa học. Tenenbaum và Winrich Freiwald, giáo sư khoa học thần kinh và hành vi tại Đại học Rockefeller, là những tác giả chính của nghiên cứu. Mario Bellingonne, một sinh viên tốt nghiệp tại Yale, cũng là một tác giả.

Đồ họa nghịch đảo

Nhiều thập kỷ nghiên cứu về hệ thống thị giác của não đã nghiên cứu rất chi tiết, cách ánh sáng đầu vào võng mạc được biến đổi thành các cảnh gắn kết. Sự hiểu biết này đã giúp các nhà nghiên cứu trí tuệ nhân tạo phát triển các mô hình máy tính có thể tái tạo các khía cạnh của hệ thống này, chẳng hạn như nhận dạng khuôn mặt hoặc các vật thể khác.

Tenenbaum nói: “Thị giác là khía cạnh chức năng của bộ não mà chúng ta hiểu rõ nhất ở người và các loài động vật khác. “Và thị giác máy tính là một trong những lĩnh vực thành công nhất của AI vào thời điểm này. Chúng tôi cho rằng giờ đây máy móc có thể nhìn ảnh và nhận dạng khuôn mặt rất tốt, đồng thời phát hiện các loại vật thể khác ”.

Tuy nhiên, ngay cả những hệ thống trí tuệ nhân tạo tinh vi này cũng không đạt được những gì mà hệ thống thị giác của con người có thể làm được, Yildirim nói.

Ông nói: “Bộ não của chúng ta không chỉ phát hiện ra có một vật thể ở đó, hay nhận ra và gắn nhãn cho một thứ gì đó. “Chúng tôi nhìn thấy tất cả các hình dạng, hình học, bề mặt, kết cấu. Chúng tôi nhìn thấy một thế giới rất phong phú ”.

Hơn một thế kỷ trước, bác sĩ, nhà vật lý và nhà triết học Hermann von Helmholtz đã đưa ra giả thuyết rằng bộ não tạo ra những biểu hiện phong phú này bằng cách đảo ngược quá trình hình thành hình ảnh. Ông đưa ra giả thuyết rằng hệ thống thị giác bao gồm một bộ tạo hình ảnh, ví dụ, sẽ được sử dụng để tạo ra những khuôn mặt mà chúng ta nhìn thấy trong những giấc mơ. Các nhà nghiên cứu cho biết, việc chạy ngược lại máy phát điện này sẽ cho phép não hoạt động ngược lại so với hình ảnh và suy ra loại khuôn mặt hoặc vật thể khác sẽ tạo ra hình ảnh đó.

Tuy nhiên, câu hỏi vẫn là: Làm thế nào mà bộ não có thể thực hiện quá trình này, được gọi là đồ họa nghịch đảo, một cách nhanh chóng như vậy? Các nhà khoa học máy tính đã cố gắng tạo ra các thuật toán có thể thực hiện kỳ ​​tích này, nhưng các hệ thống tốt nhất trước đây yêu cầu nhiều chu kỳ xử lý lặp đi lặp lại, mất nhiều thời gian hơn 100 đến 200 mili giây mà bộ não yêu cầu để tạo ra hình ảnh trực quan chi tiết về những gì bạn đang thấy. Các nhà khoa học thần kinh tin rằng nhận thức trong não có thể tiến triển nhanh như vậy bởi vì nó được thực hiện chủ yếu là chuyển tiếp thông qua một số lớp xử lý thần kinh được tổ chức theo thứ bậc.

Nhóm do MIT lãnh đạo đã bắt đầu xây dựng một loại mô hình mạng nơ ron sâu đặc biệt để chỉ ra cách hệ thống phân cấp thần kinh có thể nhanh chóng suy ra các đặc điểm cơ bản của một cảnh - trong trường hợp này là một khuôn mặt cụ thể. Trái ngược với các mạng thần kinh sâu tiêu chuẩn được sử dụng trong thị giác máy tính, được đào tạo từ dữ liệu được gắn nhãn cho biết loại vật thể trong hình ảnh, mạng của các nhà nghiên cứu được đào tạo từ một mô hình phản ánh các đại diện bên trong của não về những cảnh có khuôn mặt có thể trông giống như.

Do đó, mô hình của họ học cách đảo ngược các bước được thực hiện bởi chương trình đồ họa máy tính để tạo khuôn mặt. Các chương trình đồ họa này bắt đầu với sự biểu diễn ba chiều của một khuôn mặt riêng lẻ và sau đó chuyển nó thành hình ảnh hai chiều, như được nhìn từ một góc nhìn cụ thể. Những hình ảnh này có thể được đặt trên một hình nền tùy ý. Các nhà nghiên cứu đưa ra giả thuyết rằng hệ thống thị giác của não có thể làm điều gì đó tương tự khi bạn mơ hoặc gợi lên hình ảnh tinh thần về khuôn mặt của ai đó.

Các nhà nghiên cứu đã đào tạo mạng lưới thần kinh sâu của họ để thực hiện ngược lại các bước này - nghĩa là nó bắt đầu với hình ảnh 2D và sau đó thêm các tính năng như kết cấu, độ cong và ánh sáng, để tạo ra cái mà các nhà nghiên cứu gọi là biểu diễn “2.5D”. Những hình ảnh 2.5D này chỉ định hình dạng và màu sắc của khuôn mặt từ một góc nhìn cụ thể. Sau đó, chúng được chuyển đổi thành các biểu diễn 3D, không phụ thuộc vào góc nhìn.

“Mô hình cung cấp tài khoản cấp hệ thống về quá trình xử lý các khuôn mặt trong não, cho phép nó nhìn thấy một hình ảnh và cuối cùng là đến một vật thể 3D, bao gồm các đại diện về hình dạng và kết cấu, thông qua giai đoạn trung gian quan trọng này của hình ảnh 2.5D , ”Yildirim nói.

Hiệu suất mô hình

Các nhà nghiên cứu phát hiện ra rằng mô hình của họ phù hợp với dữ liệu thu được khi nghiên cứu một số vùng nhất định trong não của khỉ macaque. Trong một nghiên cứu được công bố vào năm 2010, Freiwald và Doris Tsao của Caltech đã ghi lại hoạt động của các tế bào thần kinh ở những vùng đó và phân tích cách chúng phản ứng với 25 khuôn mặt khác nhau, nhìn từ bảy góc nhìn khác nhau. Nghiên cứu đó đã tiết lộ ba giai đoạn xử lý khuôn mặt cấp cao hơn, mà nhóm MIT hiện đưa ra giả thuyết tương ứng với ba giai đoạn của mô hình đồ họa nghịch đảo của họ: đại khái, giai đoạn phụ thuộc vào góc nhìn 2.5D; một giai đoạn cầu nối từ 2.5 đến 3D; và một giai đoạn 3D, bất biến góc nhìn của biểu diễn khuôn mặt.

Tenenbaum nói: “Những gì chúng tôi cho thấy là cả đặc tính phản ứng định lượng và định tính của ba cấp độ não đó dường như rất phù hợp với ba cấp độ cao nhất của mạng lưới mà chúng tôi đã xây dựng.

Các nhà nghiên cứu cũng so sánh hiệu suất của mô hình với hiệu suất của con người trong một nhiệm vụ liên quan đến việc nhận dạng khuôn mặt từ các góc nhìn khác nhau. Nhiệm vụ này trở nên khó khăn hơn khi các nhà nghiên cứu thay đổi các khuôn mặt bằng cách loại bỏ kết cấu của khuôn mặt trong khi vẫn giữ nguyên hình dạng của nó hoặc làm biến dạng hình dạng trong khi vẫn giữ được kết cấu tương đối. Hiệu suất của mô hình mới giống với con người hơn nhiều so với các mô hình máy tính được sử dụng trong phần mềm nhận dạng khuôn mặt hiện đại, bằng chứng bổ sung cho thấy mô hình này có thể gần giống với những gì xảy ra trong hệ thống thị giác của con người.

Nikolaus Kriegeskorte, một giáo sư cho biết: “Công việc này rất thú vị vì nó đưa các giai đoạn có thể giải thích được của biểu diễn trung gian vào mô hình mạng lưới thần kinh tiếp nối về nhận dạng khuôn mặt”.
r về tâm lý học và khoa học thần kinh tại Đại học Columbia, người không tham gia vào nghiên cứu. “Cách tiếp cận của họ hợp nhất ý tưởng cổ điển rằng tầm nhìn đảo ngược mô hình về cách tạo ra hình ảnh với mạng lưới tiếp liệu sâu hiện đại. Điều rất thú vị là mô hình này giải thích rõ hơn các biểu hiện thần kinh và phản ứng hành vi.”

Các nhà nghiên cứu hiện có kế hoạch tiếp tục thử nghiệm phương pháp mô hình hóa trên các hình ảnh bổ sung, bao gồm cả các vật thể không phải là khuôn mặt, để điều tra xem liệu đồ họa ngược có thể giải thích cách não bộ nhận thức các loại cảnh khác hay không. Ngoài ra, họ tin rằng việc điều chỉnh cách tiếp cận này với thị giác máy tính có thể dẫn đến các hệ thống AI hoạt động tốt hơn.

Tenenbaum nói: “Nếu chúng ta có thể đưa ra bằng chứng cho thấy những mô hình này có thể tương ứng với cách não hoạt động, thì công trình này có thể khiến các nhà nghiên cứu thị giác máy tính xem xét nghiêm túc hơn và đầu tư nhiều nguồn lực kỹ thuật hơn vào phương pháp tiếp cận đồ họa ngược đối với nhận thức. "Bộ não vẫn là tiêu chuẩn vàng cho bất kỳ loại máy móc nào nhìn thế giới một cách phong phú và nhanh chóng."

Nghiên cứu được tài trợ bởi Trung tâm Não bộ, Trí óc và Máy móc tại MIT, Quỹ Khoa học Quốc gia, Viện Mắt Quốc gia, Văn phòng Nghiên cứu Hải quân, Quỹ Tế bào gốc New York, Viện Nghiên cứu Toyota và Mitsubishi Electric.


Chủ đề: Nghiên cứu, Thị giác máy tính, Khoa học não và nhận thức, Trung tâm trí tuệ và máy móc, Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL), Trường khoa học, Trường Kỹ thuật, Quỹ khoa học quốc gia (NSF), Trí tuệ nhân tạo, học máy, Khoa học thần kinh

Nguồn: http://news.mit.edu/2020/computer-model-brain-vision-0304

tại chỗ_img

Tin tức mới nhất

tại chỗ_img