Логотип Зефирнет

Преодоление разрыва между человеческим и машинным зрением

Дата:

Предположим, вы мельком взглянули с расстояния в несколько футов на человека, которого никогда раньше не встречали. Отойдите на несколько шагов и посмотрите еще раз. Сможете ли вы узнать ее лицо? «Да, конечно», — наверняка подумаете вы. Если это правда, это будет означать, что наша зрительная система, увидев одно изображение объекта, такого как конкретное лицо, надежно распознает его, несмотря, например, на изменения положения и масштаба объекта. С другой стороны, мы знаем, что самые современные классификаторы, такие как ванильные глубокие сети, не пройдут этот простой тест.

Чтобы распознавать конкретное лицо при ряде преобразований, нейронные сети необходимо обучать множеству примеров лица в разных условиях. Другими словами, они могут добиться инвариантности за счет запоминания, но не могут этого сделать, если доступен только один образ. Таким образом, понимание того, как человеческое зрение может осуществить этот замечательный подвиг, важно для инженеров, стремящихся улучшить свои существующие классификаторы. Это также важно для нейробиологов, моделирующих зрительную систему приматов с помощью глубоких сетей. В частности, возможно, что инвариантность к однократному обучению, проявляемая биологическим зрением, требует совсем другой вычислительной стратегии, чем у глубоких сетей. 

Новая статья кандидата наук Массачусетского технологического института в области электротехники и компьютерных наук Йены Хан и ее коллег из Природа Научные доклады под названием «Масштаб и инвариантность к переводу для новых объектов в человеческом видении» обсуждается, как они более тщательно изучают это явление для создания новых сетей, вдохновленных биологией.

«Люди могут учиться на очень немногих примерах, в отличие от глубоких сетей. Это огромная разница, имеющая огромное значение для разработки систем зрения и для понимания того, как на самом деле работает человеческое зрение», — утверждает соавтор Томасо Поджо, директор Центра изучения мозга, разума и машин (CBMM) и профессор мозга Юджина Макдермотта. и когнитивные науки в Массачусетском технологическом институте. «Ключевой причиной этого различия является относительная инвариантность зрительной системы приматов к масштабированию, сдвигу и другим преобразованиям. Как ни странно, этим в основном пренебрегали в сообществе ИИ, отчасти потому, что психофизические данные были далеко не четкими. Работа Хана позволила установить надежные измерения основных инвариантностей человеческого зрения».

Чтобы отличить инвариантность, возникающую в результате внутренних вычислений, от инвариантности, возникающей в результате опыта и запоминания, новое исследование измерило диапазон инвариантности при однократном обучении. Одноразовая обучающая задача была выполнена путем предъявления стимулов с корейскими буквами людям, незнакомым с языком. Эти буквы первоначально предъявлялись один раз при одном конкретном условии и тестировались в разных масштабах или положениях, отличных от исходных условий. Первый экспериментальный результат заключается в том, что, как вы уже догадались, люди продемонстрировали значительное масштабно-инвариантное распознавание уже после однократного воздействия этих новых объектов. Второй результат заключается в том, что диапазон позиционно-инвариантности ограничен в зависимости от размера и размещения объектов.

Затем Хан и ее коллеги провели аналогичный эксперимент с глубокими нейронными сетями, предназначенными для воспроизведения этого человеческого действия. Результаты показывают, что для объяснения инвариантного распознавания объектов людьми модели нейронных сетей должны явно включать встроенную инвариантность к масштабу. Кроме того, ограниченная позиционно-инвариантность человеческого зрения лучше воспроизводится в сети за счет увеличения рецептивных полей модельных нейронов по мере их удаления от центра поля зрения. Эта архитектура отличается от широко используемых моделей нейронных сетей, где изображение обрабатывается с одинаковым разрешением с одинаковыми общими фильтрами.

«Наша работа дает новое понимание представления мозгом объектов с разных точек зрения. Это также имеет значение для ИИ, поскольку результаты дают новое представление о том, что является хорошим архитектурным проектом для глубоких нейронных сетей», — отмечает Хан, исследователь CBMM и ведущий автор исследования.

К Хану и Поджио в работе присоединились Джемма Ройг и Гад Гайгер.


Источник: http://news.mit.edu/2020/bridging-gap-between-human-and-machine-vision-0211.

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?