Логотип Зефирнет

AAAI 2021: Лучшие исследовательские статьи с бизнес-приложениями

Дата:

Эрни-ВиЛ AAAI 2021

С рекордно высокий из 9034 научных статей, представленных в AAAI 2021 и принявших 21%, всего на конференции было представлено 1692 статьи. Как обычно, Награды за выдающиеся и выдающиеся работы были вручены документы, демонстрирующие высочайшие стандарты технической поддержки и экспозиции. Конечно, на конференции было представлено гораздо больше докладов, заслуживающих вашего внимания.

Чтобы помочь вам оставаться в курсе выдающихся достижений в области ИИ, мы обобщили некоторые из наиболее интересных исследовательских работ AAAI 2021 года, представленных Google, Alibaba, Baidu и другими ведущими исследовательскими группами.

Если вы хотите пропустить, вот статьи, которые мы показали:

  1. Informer: Beyond Efficient Transformer для долгосрочного прогнозирования временных рядов
  2. TabNet: внимательное интерпретируемое табличное обучение
  3. Обучите классификатор экземпляров с миллионным числом способов для обучения визуальному представлению без учителя
  4. ERNIE-ViL: представления на языке визуального зрения с расширенными знаниями посредством графов сцен
  5. Обучение усиленному имитационному графическому представлению для профилирования мобильных пользователей: перспектива состязательного обучения

Если этот подробный образовательный контент вам полезен, подпишитесь на нашу рассылку исследований ИИ быть предупрежденным, когда мы выпустим новый материал. 

Лучшие исследования AAAI 2021

1. Informer: Beyond Efficient Transformer для долгосрочного прогнозирования временных рядовАвторы: Хаойи Чжоу, Шанхан Чжан, Цзечи Пэн, Шуай Чжан, Цзяньсинь Ли, Хуэй Сюн, Ванцай Чжан.

Оригинальный реферат 

Для многих реальных приложений требуется прогнозирование временных рядов с длинной последовательностью, например планирование потребления электроэнергии. Прогнозирование временных рядов с длинной последовательностью (LSTF) требует высокой предсказательной способности модели, то есть способности эффективно фиксировать точную связь долгосрочных зависимостей между выходными и входными данными. Недавние исследования показали, что Transformer может повысить предсказательную способность. Однако есть несколько серьезных проблем с Transformer, которые не позволяют напрямую применять его к LSTF, например, квадратичная временная сложность, высокий уровень использования памяти и неотъемлемые ограничения архитектуры кодировщика-декодера. Чтобы решить эти проблемы, мы разрабатываем эффективную модель на основе трансформатора для LSTF, названную Informer, с тремя отличительными характеристиками: (i) a ProbSparse Механизм самовнимания, который достигает O (L журнал L) по временной сложности и использованию памяти, а также имеет сопоставимую производительность при выравнивании зависимостей последовательностей. (ii) дистилляция самовнимания подчеркивает доминирующее внимание путем уменьшения вдвое ввода каскадного слоя и эффективно обрабатывает чрезвычайно длинные входные последовательности. (iii) декодер генеративного стиля, будучи концептуально простым, предсказывает последовательности длинных временных рядов за одну прямую операцию, а не пошагово, что значительно улучшает скорость вывода предсказаний длинных последовательностей. Обширные эксперименты с четырьмя крупномасштабными наборами данных демонстрируют, что Informer значительно превосходит существующие методы и предоставляет новое решение проблемы LSTF.

Наше резюме 

Существующие архитектуры Transformer неэффективны для прогнозирования временных рядов с длинной последовательностью (LSTF), когда модели необходимо изучать долгосрочные зависимости ввода-вывода, а также предлагать скорости вывода, приемлемые для прогнозирования большего количества шагов в будущем (например, 480 точек ежечасные записи температуры за 20 дней). Чтобы сделать архитектуру пригодной для длинных последовательных входов, авторы предложили ProbSparse Самовнимание механизм с O (L журнал L) сложность, а не O (L2) сложность, где L - длина последовательности. Предлагается метод самодистилляции для эффективного масштабирования сети для повышения точности с O ((2 - ε) L журнал L) сложность вместо O (Дж · л2) сложность штатного Трансформера, где J - количество слоев трансформатора. Декодер генеративного стиля адаптирован для увеличения скорости вывода по сравнению с пошаговым предсказанием каждой точки на выходе. Показано, что предлагаемый метод работает лучше, чем существующие методы, в пяти реальных наборах данных для задач, включая прогнозирование ETT (температуры электрического трансформатора), ECL (нагрузки, потребляющей электроэнергию) и погоды.

Информер AAAI 2021
Обзор модели Informer

Какова основная идея этой статьи?

  • ProbSparse Самовнимание предлагается воспользоваться преимуществом разреженного или длиннохвостого распределения вероятностей самовнимания, когда только несколько весов внимания ключевого запроса управляют большей частью вычислений. ProbSparse достигает O (L журнал L) сложность, улучшение O (L2).
  • Чтобы масштабировать модель путем наложения слоев трансформатора, авторы предложили метод самодистилляции с использованием операций свертки и максимального объединения, чтобы выходной размер текущего слоя, то есть входной размер следующего слоя, был меньше входного размера текущий слой. Этим достигается O ((2 - ε) L журнал L) сложность, по сравнению с O (Дж · л2) для общего трансформатора.
  • Наконец, чтобы сделать скорость вывода масштабируемой, предлагается декодер генеративного стиля для прогнозирования нескольких точек в будущем за один прямой проход.

Какое ключевое достижение?

  • Предлагаемый метод обеспечивает превосходную производительность на пяти реальных наборах данных как для одномерного, так и для многомерного прогнозирования временных рядов с длинной последовательностью для таких задач, как прогнозирование ETT (температуры трансформатора электроэнергии), ECL (нагрузки, потребляющей электроэнергию) и погоды.

Что думает сообщество ИИ?

  • Газета получила награду за выдающиеся достижения на выставке AAAI 2021.

Каковы возможные бизнес-приложения?

  • Предлагаемый подход может быть использован для прогнозирования длинных последовательностей, включая потребление энергии, погодные индикаторы, цены на акции и т. Д.

Где вы можете получить код реализации?

  • Оригинальная реализация этой статьи на PyTorch доступна на GitHub.

2. TabNet: внимательное интерпретируемое табличное обучение, Серкан О. Арик и Томас Пфистер

Оригинальный реферат 

Мы предлагаем новую высокопроизводительную и интерпретируемую каноническую архитектуру глубокого изучения табличных данных - TabNet. TabNet использует последовательное внимание, чтобы выбрать, какие функции следует использовать на каждом этапе принятия решения, обеспечивая интерпретируемость и более эффективное обучение, поскольку способность к обучению используется для наиболее важных функций. Мы демонстрируем, что TabNet превосходит другие варианты нейронных сетей и деревьев решений по широкому спектру неэффективных табличных наборов данных и дает интерпретируемые атрибуты функций и понимание поведения глобальной модели. Наконец, впервые, насколько нам известно, мы демонстрируем самостоятельное обучение табличных данных, значительно повышая производительность за счет обучения неконтролируемому представлению, когда немаркированных данных много.

Наше резюме 

Команда Google Cloud AI решает проблему применения глубоких нейронных сетей для табличных данных. В то время как глубокие нейронные сети прекрасно справляются с автоматическим извлечением функций и сквозным обучением, отсутствие индуктивного предубеждения для моделирования границ выходных решений, которые преобладают в табличных данных, и отсутствие интерпретируемости ограничивают широкое распространение глубоких нейронных сетей для табличных данных. данные. Авторы разрабатывают механизм последовательного внимания, чтобы выбрать подмножество функций для обработки на каждом этапе. Это повышает эффективность обучения и интерпретируемость, демонстрируя рассуждения на каждом этапе, аналогично дереву решений. Выбор функций выполняется для каждого экземпляра, чтобы повысить производительность модели с большим количеством данных. Неконтролируемое предварительное обучение также используется для повышения производительности с задачей прогнозирования маскированных значений в разных строках разных столбцов. Предлагаемая модель TabNet работает лучше или наравне со стандартными методами для табличных данных, исключая при этом выбор функций и этапы разработки функций.

Какова основная идея этой статьи?

  • Разработка механизма последовательного внимания, который уделяет внимание только подмножеству функций, маскируя другие на каждом этапе перед обработкой. Это помогает в эффективном обучении, поскольку модель обрабатывает только существенные особенности, а также с возможностью интерпретации, поскольку шаги обоснования могут быть проанализированы на основе выбранных функций.
  • Показано, что предварительное обучение без учителя полезно для повышения производительности модели за счет прогнозирования маскированных значений. Такая повышенная производительность недостижима для традиционных моделей машинного обучения, поскольку их нельзя предварительно обучить неконтролируемым образом.
TabNet AAAI 2021 г.

Какое ключевое достижение?

  • Эксперименты показывают, что предлагаемый метод, TabNet, работает так же или лучше, чем установленные табличные модели данных для пяти реальных наборов данных, при этом решая проблемы интерпретируемости.

Каковы возможные бизнес-приложения?

  • Этот подход может быть полезен для любых приложений, работающих с табличными данными, которые, вероятно, являются наиболее распространенным типом данных в реальных приложениях машинного обучения.

Где вы можете получить код реализации?

  • Реализация этой статьи в PyTorch доступна на GitHub.

3. Обучите классификатор экземпляров с миллионным числом способов для обучения визуальному представлению без учителя, Ю Лю, Лянхуа Хуан, Пан Пан, Бинь Ван, Инхуэй Сю, Жун Цзинь

Оригинальный реферат 

В этой статье представлен простой метод обучения визуальному представлению без учителя с предлогом задачи различения всех изображений в наборе данных с использованием параметрического классификатора на уровне экземпляра. Общая структура является копией модели контролируемой классификации, в которой семантические классы (например, собака, птица и корабль) заменяются идентификаторами экземпляров. Однако увеличение масштаба задачи классификации с тысяч семантических меток до миллионов меток экземпляров создает определенные проблемы, включая 1) крупномасштабные вычисления softmax; 2) медленная сходимость из-за нечастого посещения экземпляров образцов; и 3) огромное количество отрицательных классов, которые могут быть шумными. В этой работе представлены несколько новых методов решения этих трудностей. Во-первых, мы представляем гибридную структуру параллельного обучения, чтобы сделать возможным крупномасштабное обучение. Во-вторых, мы представляем механизм инициализации необработанных признаков для классификационных весов, который, как мы предполагаем, предлагает контрастный априор, например, различение и может явно ускорить сходимость в наших экспериментах. Наконец, мы предлагаем сгладить метки нескольких самых сложных классов, чтобы избежать оптимизации по очень похожим отрицательным парам. Несмотря на то, что наша структура концептуально проста, она обеспечивает конкурентоспособную или превосходную производительность по сравнению с современными неконтролируемыми подходами, то есть SimCLR, MoCoV2 и PIC в рамках протокола линейной оценки ImageNet и для нескольких последующих визуальных задач, подтверждая, что полная классификация экземпляров сильная техника предварительного обучения для многих семантических визуальных задач.

Наше резюме 

Обучение представлению без учителя оказалось полезным, когда у нас много данных, но мало меток или когда задача еще не полностью определена. Исследовательская группа Alibaba решает проблему бесшовного обучения представлению без учителя без необходимости создания отрицательных пар или новых целевых функций. Предлагаемый метод рассматривает обучение представлению без учителя как задачу контролируемой классификации на уровне экземпляра, подразумевая, что всем изображениям присваивается уникальный класс и nобучается модель классификации, где n - общее количество изображений в наборе данных. Авторы также предложили новые методы для решения этой крупномасштабной задачи классификации, в том числе методы параллельного моделирования для вычисления softmax, метод создания противоположного априорного значения и метод сглаживания основных истин очень похожих отрицательных классов. Этот метод превосходит предыдущие современные модели обучения неконтролируемому представлению, такие как SimCLR и PIC.

Классификатор экземпляров AAAI 2021

Какова основная идея этой статьи?

  • Рассмотрение обучения представлению без учителя как крупномасштабной задачи классификации на уровне экземпляра.
  • Предлагая новые методы для решения крупномасштабных задач классификации:
    • введение гибридной параллельной обучающей среды для вычисления операции softmax на разных устройствах;
    • индуцирование контрастного предшествования путем представления механизма инициализации необработанных признаков для весов классификации (т. е. веса инициализируются признаками экземпляра, которые были извлечены путем запуска эпохи вывода, где модель представляет собой фиксированную случайную нейронную сеть только с уровнями пакетной нормализации. проходит обучение);
    • сглаживание основных истин очень похожих отрицательных классов.

Какое ключевое достижение?

  • В этой работе был разработан новый, простой и эффективный метод обучения представлению без учителя без использования отрицательных пар в контрастном обучении на уровне класса или больших размеров пакетов для уменьшения утечки данных при контрастном обучении на уровне экземпляра.

Каковы возможные бизнес-приложения?

  • Этот метод можно использовать для кластеризации немаркированных изображений, что, в свою очередь, облегчает поиск похожих изображений и тегирование изображений для систем архивирования изображений.

4. ERNIE-ViL: представления на языке визуального зрения с расширенными знаниями посредством графов сценАвторы: Фэй Ю, Цзицзи Тан, Вэйчун Инь, Ю Сун, Хао Тянь, Хуа Ву, Хайфэн Ван

Оригинальный реферат 

Мы предлагаем подход, основанный на знаниях, ERNIE-ViL, который включает структурированные знания, полученные из графов сцен, для изучения совместных представлений визуального языка. ERNIE-ViL пытается построить подробные семантические связи (объекты, атрибуты объектов и отношения между объектами) через видение и язык, которые необходимы для кросс-модальных задач языка видения. Используя графы сцен визуальных сцен, ERNIE-ViL строит задачи прогнозирования графов сцен, то есть задачи прогнозирования объектов, атрибутов и прогнозирования взаимосвязей на этапе подготовки к обучению. В частности, эти задачи прогнозирования реализуются путем прогнозирования узлов разных типов в графе сцены, извлеченном из предложения. Таким образом, ERNIE-ViL может изучать совместные представления, характеризующие согласование детальной семантики через видение и язык. После предварительного обучения на крупномасштабных наборах данных, выровненных по изображению и тексту, мы проверяем эффективность ERNIE-ViL на 5 кросс-модальных последующих задачах. ERNIE-ViL достигает высочайшего уровня производительности по всем этим задачам и занимает первое место в таблице лидеров видеомагнитофонов с абсолютным улучшением на 3.7%.

Наше резюме 

В этой работе исследовательская группа Baidu попыталась решить проблему согласования семантических понятий в визуальном и лингвистическом пространстве, чтобы модели лучше справлялись с мультимодальными задачами, требующими здравого смысла и физических рассуждений (например, визуальное рассуждение на основе здравого смысла и визуальные ответы на вопросы). Авторы стремились дать моделям более структурированные знания о сценах путем предварительного обучения моделей явному предсказанию объектов, их атрибутов и объектно-объектных отношений. С изображением и соответствующим текстом, вместо того, чтобы маскировать и предсказывать случайные токены в тексте, авторы использовали синтаксический анализ графа сцены и маскированные токены, которые конкретно представляли объекты, их атрибуты и отношения объект-объект. Модель была предварительно обучена предсказывать замаскированные токены в тексте с учетом изображения. Внедренный подход позволил достичь самых современных результатов в мультимодальных наборах данных для поиска текста и изображений, а также занял первое место в таблице лидеров задач видеомагнитофона с улучшением на 3.7% по сравнению со следующим лучшим решением. 

Какова основная идея этой статьи?

  • Подобно BERT-подобному моделированию языка с масками, модели подписей к изображениям обучаются предсказывать маскированные токены в подписи к изображению с учетом изображения и других токенов. Основная идея этой статьи состоит в том, чтобы выборочно маскировать токены, а не случайным образом.
  • В этом подходе маскируются только токены, которые представляют семантически богатые сущности, такие как объекты, атрибуты объекта и отношения объект-объект. Это обеспечивает лучшее семантическое согласование между текстом и изображениями, поскольку все обучение сосредоточено на семантически богатых токенах в подписи к изображению.
Ernie_ViL AAAI 2021 г.

Какое ключевое достижение?

  • Улучшение обоснования смысловых текстовых сущностей в визуальном пространстве.
  • Достижение самых современных результатов в задачах поиска изображений / текста и визуального здравого смысла.

Каковы области будущих исследований?

  • Включение графов сцены, извлеченных из изображений, в кросс-модальное предварительное обучение.
  • Использование графовых нейронных сетей для представления изображений и текста.

Каковы возможные бизнес-приложения?

  • Лучшее согласование семантических концепций дало бы лучшие результаты для поиска изображений с текстом, субтитров к изображениям, визуальных ответов на вопросы и прогнозирования будущих действий.

5. Обучение усиленному имитационному графическому представлению для профилирования мобильных пользователей: перспектива состязательного обученияАвторы: Дунцзе Ван, Пэнъян Ван, Куньпэн Лю, Юаньчунь Чжоу, Чарльз Хьюз, Яньцзе Фу.

Оригинальный реферат 

В этой статье мы изучаем проблему профилирования мобильных пользователей, которая является важным компонентом для количественной оценки характеристик пользователей в конвейере моделирования мобильности человека. Подвижность людей - это последовательный процесс принятия решений, зависящий от динамических интересов пользователей. Обладая точными профилями пользователей, прогнозная модель может идеально воспроизводить траектории мобильности пользователей. В обратном направлении, когда модель прогнозирования может имитировать модели мобильности пользователей, изученные профили пользователей также являются оптимальными. Такая интуиция побуждает нас предложить платформу профилирования мобильных пользователей на основе имитации, используя обучение с подкреплением, в котором агент обучается точно имитировать модели мобильности пользователей для получения оптимальных профилей пользователей. В частности, предлагаемая структура включает в себя два модуля: (1) модуль представления, который создает состояние, объединяющее профили пользователей и пространственно-временной контекст в реальном времени; (2) модуль имитации, где Deep Q-network (DQN) имитирует поведение (действие) пользователя на основе состояния, которое создается модулем представления. Однако эффективная работа фреймворка сопряжена с двумя проблемами. Во-первых, эпсилон-жадная стратегия в DQN использует компромисс между разведкой и эксплуатацией, случайным образом выбирая действия с вероятностью эпсилон. Такая случайность возвращается в модуль представления, вызывая нестабильность изученных профилей пользователей. Чтобы решить эту проблему, мы предлагаем состязательную стратегию обучения, чтобы гарантировать надежность модуля представления. Во-вторых, модуль представления обновляет профили пользователей поэтапно, что требует интеграции временных эффектов профилей пользователей. Вдохновленные Long-Short Term Memory (LSTM), мы вводим закрытый механизм для включения новых и старых характеристик пользователя в профиль пользователя.

Наше резюме 

Более качественное профилирование мобильных пользователей, которое может точно предсказать, куда пользователь пойдет дальше, поможет, среди прочего, лучше персонализировать функции виртуального помощника и рекламу соответствующих услуг. Моделирование поведения пользователей на основе прошлых данных и обеспечение профилирования мобильных пользователей представляет множество проблем, включая динамические интересы пользователей, меняющиеся с течением времени, и сложность моделирования пространственно-временного контекста мобильности в реальном времени. Эта работа направлена ​​на решение проблемы профилирования мобильных пользователей путем создания агента на базе обучения с подкреплением (RL), который мог бы имитировать решения пользователя, то есть точно предсказывать его следующие шаги. Авторы добились точного профилирования мобильных пользователей, точно предсказав поведение пользователей, поскольку, поскольку точное профилирование пользователей предсказывает будущее поведение пользователя, точное предсказание будущего поведения пользователя также обеспечивает точное мобильное профилирование. Предлагаемый метод обеспечивает превосходные результаты по сравнению с существующими методами на двух крупномасштабных наборах реальных данных, собранных в Нью-Йорке и Пекине.

Какова основная идея этой статьи?

  • Чтобы предсказать будущее поведение пользователя, авторы вводят метод имитационного обучения на основе RL, называемый Обучение имитационному представлению с подкреплением (RIRL). Имитационное обучение достигается с помощью состязательного обучения, при котором генератор, имитирующий агент, предсказывает поведение пользователя, а дискриминатор пытается научиться различать, какое поведение предсказывает генератор, а какое из реальных данных. Имитирующий агент точно предсказывает будущее поведение пользователя после обучения генератора и дискриминатора.
  • Графические нейронные сети используются для представления пространственно-временного характера поведения мобильных пользователей, что лучше, чем его кодирование в виде последовательности или просто списка посещенных мест.
  • Разработан вариант RNN, вдохновленный долгосрочной краткосрочной памятью (LSTM), который используется для моделирования динамической природы интересов пользователей с помощью механизма стробирования, позволяющего сохранять только релевантную информацию из прошлого. Вектор состояния для агента имитации RL генерируется с представлениями из этого варианта RNN и графических нейронных сетей.
Бумага РИРЛ AAAI 2021
Пример для фреймворка RIRL

Какое ключевое достижение?

  • Улучшенное профилирование мобильных пользователей за счет прогнозирования будущего поведения пользователей с помощью имитационного агента на базе RL, обученного противоборствующим сторонам.
  • Лучшие результаты, чем существующие методы для нескольких наборов реальных данных.

Каковы возможные бизнес-приложения?

  • Если точно предсказать, куда человек пойдет дальше, открывается интересный набор бизнес-приложений, таких как:
    • рекомендовать предложения, рестораны или услуги в зависимости от местоположения;
    • улучшенные персонализированные функции виртуального помощника;
    • автоматизация полезных задач с помощью устройств Интернета вещей дома непосредственно перед тем, как пользователь вернется домой.

Наслаждайтесь этой статьей? Подпишитесь на дополнительные исследования ИИ исследований.

Мы сообщим вам, когда мы выпустим больше кратких статей, подобных этой.

Coinsmart. Beste Bitcoin-Börse в Европе
Источник: https://www.topbots.com/aaai-2021-research-papers/

Spot_img

Последняя разведка

Spot_img