Логотип Зефирнет

Учимся играть в Minecraft с помощью Video PreTraining (VPT)

Дата:

Мы обучили нейронную сеть играть в Minecraft с помощью Video PreTraining (VPT) на огромном немаркированном наборе видеоданных о том, как люди играют в Minecraft, при этом используя лишь небольшое количество размеченных данных о подрядчиках. Благодаря точной настройке наша модель может научиться изготавливать алмазные инструменты, что обычно занимает у опытных людей более 20 минут (24,000 XNUMX действий). Наша модель использует родной человеческий интерфейс нажатия клавиш и движений мыши, что делает ее довольно общей и представляет собой шаг к обычным агентам, использующим компьютер.

Читать статью


Посмотреть код и вес модели


Конкурс MineRL

Интернет содержит огромное количество общедоступных видео, из которых мы можем извлечь уроки. Вы можете наблюдать, как человек делает великолепную презентацию, цифровой художник рисует красивый закат, а игрок в Minecraft строит замысловатый дом. Тем не менее, эти видео содержат только запись почему произошло, но не точно КАК это было достигнуто, т.е. вы не будете знать точную последовательность движений мыши и нажатых клавиш. Если мы хотим построить масштабный модели фундамента в этих областях, как мы сделали в языке с GPT, это отсутствие меток действий создает новую проблему, которой нет в языковой области, где «метки действий» — это просто следующие слова в предложении.

Чтобы использовать множество неразмеченных видеоданных, доступных в Интернете, мы представляем новый, но простой метод имитации обучения с полуучителем: предварительное видеообучение (VPT). Мы начинаем со сбора небольшого набора данных от подрядчиков, где мы записываем не только их видео, но и действия, которые они предприняли, в нашем случае это нажатия клавиш и движения мыши. С помощью этих данных мы обучаем модель обратной динамики (IDM), которая предсказывает действия, предпринимаемые на каждом этапе видео. Важно отметить, что IDM может использовать прошлые и будущее информацию, чтобы угадать действие на каждом шаге. Эта задача намного проще и, следовательно, требует гораздо меньше данных, чем задача поведенческого клонирования для предсказания заданных действий. только прошлые кадры видео, который требует вывода о том, что человек хочет сделать и как этого добиться. Затем мы можем использовать обученный IDM для маркировки гораздо большего набора данных онлайн-видео и научиться действовать с помощью поведенческого клонирования.

изображение
изображение
Обзор метода VPT

Результаты VPT Zero-Shot

Мы решили проверить наш метод в Minecraft, потому что он (1) является одной из самых популярных видеоигр в мире и, таким образом, имеет множество свободно доступных видеоданных и (2) открыт для широкого круга вещей. делать, как в реальных приложениях, таких как использование компьютера. в отличие предшествующий работает в Minecraft, в котором используются упрощенные пространства действий, направленные на облегчение исследования, наш ИИ использует гораздо более универсальный, хотя и гораздо более сложный, родной человеческий интерфейс: частота кадров 20 Гц с помощью мыши и клавиатуры.

Наша модель поведенческого клонирования («основная модель VPT»), обученная на 70,000 50 часов онлайн-видео с маркировкой IDM, выполняет задачи в Minecraft, которые почти невозможно выполнить с помощью обучения с подкреплением с нуля. Он учится рубить деревья, чтобы собирать бревна, превращать эти бревна в доски, а затем превращать эти доски в стол для крафта; эта последовательность занимает у человека, владеющего Minecraft, примерно 1,000 секунд или XNUMX последовательных игровых действий.

изображение
изображение
Последовательность предметов, необходимых для изготовления верстака, помеченная средним временем, которое требуется опытным людям для достижения каждого шага.
[Встраиваемое содержимое]
Крафт верстака «с нуля» (т.е. только после предобучения без дополнительной доводки)

Кроме того, модель выполняет другие сложные навыки, которые люди часто используют в игре, такие как плавание, охота на животных в поисках еды и поедание этой пищи. Он также изучил навык «прыжка со столба», распространенного поведения в Minecraft, когда вы поднимаетесь, многократно прыгая и помещая блок под себя.

Тонкая настройка с помощью поведенческого клонирования

Базовые модели имеют широкий профиль поведения и, как правило, способны решать самые разные задачи. Чтобы включить новые знания или позволить им специализироваться на более узком распределении задач, обычной практикой является тонкая настройка этих моделей на меньшие, более конкретные наборы данных. В качестве примера того, насколько хорошо модель фундамента VPT может быть точно настроена для последующих наборов данных, мы попросили наших подрядчиков поиграть в течение 10 минут в совершенно новых мирах Minecraft и построить дом из основных материалов Minecraft. Мы надеялись, что это улучшит способность базовой модели надежно выполнять навыки «ранней игры», такие как создание столов для крафта. При точной настройке этого набора данных мы не только видим значительное улучшение в надежном выполнении навыков ранней игры, уже присутствующих в базовой модели, но и точная настройка модели учится еще глубже проникать в дерево технологий, создавая как деревянные и каменные орудия. Иногда мы даже видим рудиментарное строительство убежища и агента, обыскивающего деревни, в том числе совершающего набеги на сундуки.

изображение
изображение
Последовательность предметов, необходимых для изготовления каменной кирки, помеченная средним временем, которое требуется опытным людям для достижения каждого шага.
Улучшено поведение в начале игры благодаря тонкой настройке БК.

[Встраиваемое содержимое]
Изготовление каменной кирки
[Встраиваемое содержимое]
Строительство элементарного деревянного укрытия
[Встраиваемое содержимое]
Поиск по деревне

Масштабирование данных

Возможно, самая важная гипотеза нашей работы заключается в том, что гораздо эффективнее использовать данные помеченных подрядчиков для обучения IDM (как часть конвейера VPT), ​​чем напрямую обучать модель фундамента BC из того же набора данных небольшого подрядчика. Чтобы проверить эту гипотезу, мы обучаем базовые модели на увеличивающихся объемах данных от 1 до 70,000 2,000 часов. Те, кто обучен менее чем 2,000 часов данных, обучаются на данных подрядчика с пометками достоверности, которые были первоначально собраны для обучения IDM, а те, кто обучен более XNUMX часов, обучаются на интернет-данных, помеченных нашим IDM. Затем мы берем каждую модель фундамента и настраиваем ее на набор данных по строительству дома, описанный в предыдущем разделе.

Влияние данных обучения модели фундамента на тонкую настройку

По мере увеличения данных модели фундамента мы обычно видим увеличение возможностей изготовления, и только в самом большом масштабе данных мы видим появление изготовления каменных орудий.

Тонкая настройка с помощью обучения с подкреплением

Когда можно указать функцию вознаграждения, обучение с подкреплением (RL) может стать мощным методом для достижения высокой, потенциально даже сверхчеловеческой производительности. Тем не менее, многие задачи требуют преодоления сложных проблем исследования, и большинство методов RL решают их с легкостью. случайный априорные исследования, например, модели часто побуждаются к случайным действиям с помощью энтропийных бонусов. Модель VPT должна быть намного лучше для RL, потому что имитация человеческого поведения, вероятно, намного полезнее, чем выполнение случайных действий. Мы поставили перед нашей моделью сложную задачу по сбору алмазной кирки, беспрецедентная возможность в Minecraft стала еще более сложной при использовании родного человеческого интерфейса.

Изготовление алмазной кирки требует длинной и сложной последовательности подзадач. Чтобы сделать эту задачу выполнимой, мы вознаграждаем агентов за каждый пункт в последовательности.

изображение
изображение
[Встраиваемое содержимое]
RL доработал модель VPT для изготовления алмазной кирки

Мы обнаружили, что политика RL, обученная путем случайной инициализации (стандартный метод RL), практически не приносит никакого вознаграждения, так и не научившись собирать журналы и лишь изредка собирая палочки. В противоположность этому, тонкая настройка модели VPT не только учит изготавливать алмазные кирки (что происходит в 2.5% 10-минутных эпизодов Minecraft), но даже имеет уровень успеха на уровне человека при сборе всех предметов, ведущих к алмазная кирка. Это первый раз, когда кто-либо продемонстрировал компьютерного агента, способного создавать алмазные инструменты в Minecraft, что в среднем занимает у людей более 20 минут (24,000 XNUMX действий).

Награда за эпизоды

Заключение

VPT прокладывает путь к тому, чтобы позволить агентам научиться действовать просмотрев огромное количество видеороликов в Интернете. По сравнению с генеративным видеомоделированием или контрастными методами, которые дают только репрезентативный Priors, VPT предлагает захватывающую возможность непосредственного изучения крупномасштабных поведенческие априоры в большем количестве доменов, чем просто язык. Хотя мы экспериментируем только с Minecraft, игра очень открытая, а собственный человеческий интерфейс (мышь и клавиатура) очень общий, поэтому мы считаем, что наши результаты служат хорошим предзнаменованием для других подобных областей, например, использования компьютера.

Для получения более подробной информации, пожалуйста, см наша статья. Мы также публикуем данные о наших подрядчиках, среду Minecraft, код модели и вес модели, что, как мы надеемся, поможет будущим исследованиям VPT. Кроме того, в этом году мы стали партнерами конкурса MineRL NeurIPS. Участники могут использовать и настраивать наши модели, чтобы попытаться решить множество сложных задач в Minecraft. Желающие могут ознакомиться с веб-страница конкурса и соревнуйтесь за приз голубого неба $100,000 в дополнение к обычному призовому фонду $20,000. Гранты доступны для самоидентифицированных недостаточно представленных групп и отдельных лиц.

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?