和風網標誌

彌合人機視覺之間的鴻溝

日期:

假設您從幾英尺遠的地方短暫看過一個從未見過的人。 向後退幾步,再看一次。 你能認出她的臉嗎? “是的,當然。”您可能在想。 如果這是真的,那麼這意味著我們的視覺系統已經看到了一個物體(例如特定面部)的單個圖像,例如,儘管該物體的位置和比例發生了變化,但仍能可靠地識別該圖像。 另一方面,我們知道最先進的分類器(例如香草深層網絡)將無法通過此簡單測試。

為了識別一系列變換下的特定面部,需要使用在不同條件下的許多面部示例來訓練神經網絡。 換句話說,他們可以通過記憶實現不變性,但是如果只有一張圖像可用則無法做到這一點。 因此,了解人類的視覺如何實現這一非凡的成就與旨在改進其現有分類器的工程師相關。 這對於神經科學家用深度網絡對靈長類動物視覺系統建模也很重要。 特別是,與生物網絡相比,生物視覺表現出的一鍵式學習不變性可能需要一種截然不同的計算策略。 

麻省理工學院電氣工程與計算機科學博士學位候選人的新論文Yena Han及其同事 自然的科學報告 題為“人類視覺中新穎物體的尺度和平移不變性”的文章討論了他們如何更仔細地研究這種現像以創建新穎的,受生物啟發的網絡。

與深層網絡不同,人類可以從很少的例子中學到東西。 這是一個巨大的差異,對視覺系統的工程設計和理解人類視覺如何真正起作用具有巨大的意義。和麻省理工學院的認知科學。 “造成這種差異的主要原因是靈長類動物視覺系統在縮放,移動和其他變換方面的相對不變性。 奇怪的是,這在AI社區中幾乎被忽略了,部分原因是迄今為止,心理物理數據還不夠清晰。 Han的工作現在已經建立了對人類視覺基本不變性的可靠測量。”

為了區分固有計算中的不變性與經驗和記憶中的不變性,這項新研究測量了一次學習中不變性的範圍。 通過向不熟悉該語言的人類受試者呈現韓語字母刺激來執行一次學習任務。 這些字母最初是在一種特定條件下單次出現的,並在與原始條件不同的比例或位置上進行了測試。 第一個實驗結果是-正如您猜到的那樣,僅一次接觸這些新穎的物體,人類就表現出了顯著的尺度不變性識別。 第二個結果是位置不變的範圍受到限制,這取決於對象的大小和位置。

接下來,Han和她的同事們在旨在重現這種人類行為的深度神經網絡中進行了可比的實驗。 結果表明,為了解釋人類對物體的不變識別,神經網絡模型應明確納入內置的尺度不變性。 此外,通過使模型神經元的感受野越遠離視場中心,它們的視野就越能在網絡中得到更好的複制。 該體系結構與常用的神經網絡模型不同,後者使用相同的共享濾鏡以統一的分辨率處理圖像。

“我們的工作為不同觀點下的對象的大腦表示提供了新的理解。 CBMM研究人員,該研究的主要作者Han表示:“這也對AI產生了影響,因為研究結果為深度神經網絡的良好架構設計提供了新的見解。”

Han和Poggio以及Gemma Roig和Gad Geiger參與了這項工作。


資料來源:http://news.mit.edu/2020/bridging-gap-between-human-and-machine-vision-0211

現貨圖片

最新情報

現貨圖片