Логотип Зефирнет

Как цепочка мыслей помогает нейронным сетям выполнять вычисления | Журнал Кванта

Дата:

Введение

Ваш школьный учитель, вероятно, не показал вам, как складывать 20-значные числа. Но если вы умеете складывать меньшие числа, все, что вам нужно, — это бумага, карандаш и немного терпения. Начните с единицы и двигайтесь влево шаг за шагом, и вскоре вы с легкостью будете складывать квинтиллионы.

Подобные проблемы несложны для людей, но только если мы подходим к ним правильно. «Мы, люди, решаем эти проблемы, а не просто смотрим на них, а затем записываем ответ», — сказал он. Эран Малах, исследователь машинного обучения в Гарвардском университете. «На самом деле мы идем по ступенькам».

Это понимание вдохновило исследователей на изучение больших языковых моделей, на которых работают чат-боты, такие как ChatGPT. Хотя эти системы могут решать вопросы, включающие несколько шагов арифметики, они часто проваливают задачи, состоящие из многих шагов, например, вычисление суммы двух больших чисел. Но в 2022 году команда исследователей Google показал что требование к языковым моделям генерировать пошаговые решения позволило моделям решать проблемы, которые раньше казались им недоступными. Их метод, называемый подсказкой по цепочке мыслей, вскоре получил широкое распространение, хотя исследователи изо всех сил пытались понять, что заставляет его работать.

Теперь несколько команд исследовали силу цепочки мыслей, используя методы из загадочной отрасли теоретической информатики, называемой теорией сложности вычислений. Это последняя глава в линии исследований, в которых теория сложности используется для изучения внутренних возможностей и ограничений языковых моделей. Эти усилия проясняют, где нам следует ожидать неудачи моделей, и могут указать на новые подходы к их построению.

«Они удаляют часть магии», — сказал Димитрис Папалиопулос, исследователь машинного обучения из Университета Висконсина, Мэдисон. "Это хорошая вещь."

Тренировочные трансформеры

Большие языковые модели строятся на основе математических структур, называемых искусственными нейронными сетями. Множество «нейронов» внутри этих сетей выполняют простые математические операции над длинными строками чисел, представляющими отдельные слова, преобразуя каждое слово, проходящее через сеть, в другое. Детали этой математической алхимии зависят от другого набора чисел, называемого параметрами сети, которые количественно определяют силу связей между нейронами.

Чтобы обучить языковую модель выдавать последовательные выходные данные, исследователи обычно начинают с нейронной сети, все параметры которой имеют случайные значения, а затем загружают в нее массивы данных со всего Интернета. Каждый раз, когда модель видит новый блок текста, она пытается предсказать каждое слово по очереди: второе слово угадывается на основе первого, третье на основе первых двух и так далее. Он сравнивает каждое предсказание с реальным текстом, а затем настраивает его параметры, чтобы уменьшить разницу. Каждая настройка лишь немного меняет прогнозы модели, но каким-то образом их коллективный эффект позволяет модели согласованно реагировать на входные данные, которых она никогда не видела.

Исследователи обучают нейронные сети обработке речи уже 20 лет. Но по-настоящему работа пошла в гору в 2017 году, когда исследователи из Google представили новый вид сети называется трансформатором.

«Это было предложено семь лет назад, и это кажется предысторией», — сказал Пабло Барсело, исследователь машинного обучения в Папском католическом университете Чили.

Что сделало преобразователи такими революционными, так это то, что их легко масштабировать — увеличить количество параметров и объем обучающих данных — без того, чтобы обучение было непомерно дорогим. До появления трансформаторов нейронные сети имели максимум несколько сотен миллионов параметров; сегодня крупнейших моделей на базе трансформаторов насчитывается более триллиона. Значительная часть улучшения производительности языковых моделей за последние пять лет связана с простым масштабированием.

Трансформеры сделали это возможным благодаря использованию специальных математических структур, называемых «головами внимания», которые дают им вид текста, который они читают, с высоты птичьего полета. Когда преобразователь читает новый блок текста, его центры внимания быстро сканируют весь текст и определяют соответствующие связи между словами — возможно, отмечая, что четвертое и восьмое слова, вероятно, будут наиболее полезны для предсказания 10-го. Затем центры внимания передают слова огромной сети нейронов, называемой сетью прямой связи, которая выполняет тяжелую обработку чисел, необходимую для генерации прогнозов, которые помогают ей учиться.

Настоящие преобразователи имеют несколько уровней «головок внимания», разделенных сетями прямой связи, и выдают предсказания только после последнего уровня. Но на каждом уровне центры внимания уже определили наиболее релевантный контекст для каждого слова, поэтому этап прямой связи с интенсивными вычислениями может выполняться одновременно для каждого слова в тексте. Это ускоряет процесс обучения и позволяет обучать преобразователей на все более больших наборах данных. Что еще более важно, это позволяет исследователям распределить огромную вычислительную нагрузку по обучению огромной нейронной сети на множество процессоров, работающих в тандеме.

Чтобы получить максимальную отдачу от огромных наборов данных, «необходимо делать модели действительно большими», — сказал он. Дэвид Чан, исследователь машинного обучения в Университете Нотр-Дам. «Обучать их без распараллеливания будет просто нецелесообразно».

Однако параллельная структура, которая позволяет так легко обучать трансформеров, не помогает после обучения — на этом этапе нет необходимости предсказывать уже существующие слова. В обычном режиме работы преобразователи выводят по одному слову, прикрепляя каждый выходной сигнал обратно к входному, прежде чем генерировать следующее слово, но они по-прежнему придерживаются архитектуры, оптимизированной для параллельной обработки.

По мере роста моделей, основанных на трансформаторах, и некоторых задач по-прежнему возникали проблемы, некоторые исследователи начали задаваться вопросом, не стоило ли движение к более распараллеливаемым моделям дорогое удовольствие. Был ли способ теоретически понять поведение трансформаторов?

Сложность трансформаторов

Теоретические исследования нейронных сетей сталкиваются со многими трудностями, особенно когда они пытаются учесть обучение. Нейронные сети используют хорошо известную процедуру для настройки своих параметров на каждом этапе процесса обучения. Но может быть трудно понять, почему эта простая процедура сходится при хорошем наборе параметров.

Вместо того, чтобы рассматривать то, что происходит во время обучения, некоторые исследователи изучают внутренние возможности трансформаторов, воображая, что их параметры можно настроить на любые произвольные значения. Это равносильно рассмотрению трансформатора как особого типа программируемого компьютера.

«У вас есть какое-то вычислительное устройство, и вы хотите знать: «Ну, а что оно может сделать?» Какие функции он может вычислять?», — сказал Чан.

Это центральные вопросы формального изучения вычислений. Эта область возникла в 1936 году, когда Алан Тьюринг впервые представил себе причудливое устройство, теперь называемая машиной Тьюринга, которая могла выполнять любые вычисления, считывая и записывая символы на бесконечную ленту. Теоретики вычислительной сложности позже будут опираться на работу Тьюринга, доказывая, что вычислительные задачи естественным образом делятся на разные категории. классы сложности определяются ресурсами, необходимыми для их решения.

В 2019 году Барсело и двое других исследователей доказанный что идеализированная версия трансформатора с фиксированным числом параметров может быть такой же мощной, как машина Тьюринга. Если вы настроите преобразователь так, чтобы его выходной сигнал неоднократно подавался обратно в качестве входного, и установите для параметров соответствующие значения для конкретной проблемы, которую вы хотите решить, он в конечном итоге выдаст правильный ответ.

Этот результат стал отправной точкой, но он основывался на некоторых нереалистичных предположениях, которые, вероятно, привели бы к переоценке мощности трансформаторов. В последующие годы исследователи работали над разработкой более реалистичных теоретических основ.

Одна из таких попыток началась в 2021 году, когда Уильям Меррилл, ныне аспирант Нью-Йоркского университета, заканчивал двухлетнюю стажировку в Институте искусственного интеллекта Аллена в Сиэтле. Там он анализировал другие виды нейронных сетей, используя методы, которые, казалось, плохо подходили для параллельной архитектуры трансформаторов. Незадолго до отъезда он завязал разговор с исследователем Алленовского института искусственного интеллекта. Ашиш Сабхарвал, который изучал теорию сложности, прежде чем заняться исследованиями в области ИИ. Они начали подозревать, что теория сложности может помочь им понять пределы возможностей преобразователей.

«Просто казалось, что это простая модель; должны быть некоторые ограничения, которые можно просто зафиксировать», — сказал Сабхарвал.

Пара проанализировала трансформаторы, используя раздел теории сложности вычислений, называемый сложностью схемы, который часто используется для изучения параллельных вычислений и имел недавно был применен к упрощенным вариантам трансформаторов. В течение следующего года они уточнили несколько нереалистичных предположений, сделанных в предыдущей работе. Чтобы изучить, как параллельная структура трансформаторов может ограничить их возможности, пара рассмотрела случай, когда трансформаторы не передают свой выход обратно на вход — вместо этого их первый выход должен быть окончательным ответом. Они доказанный что преобразователи в этой теоретической системе не могут решить никакие вычислительные задачи, выходящие за рамки определенного класса сложности. Считается, что многие математические задачи, в том числе относительно простые, такие как решение линейных уравнений, лежат за пределами этого класса.

По сути, они показали, что за параллелизм приходится платить — по крайней мере, когда преобразователям приходилось сразу же выдавать ответ. «Трансформеры довольно слабы, если вы используете их так, что вводите данные и просто ожидаете немедленного ответа», — сказал Меррилл.

Мысленные эксперименты

Результаты Меррилла и Сабхарвала подняли естественный вопрос: насколько мощнее становятся трансформаторы, когда им разрешено перерабатывать свою продукцию? Барсело и его соавторы изучали этот случай в своем анализе идеализированных трансформаторов в 2019 году, но при более реалистичных предположениях вопрос оставался открытым. А за прошедшие годы исследователи обнаружили подсказку по цепочке мыслей, что придало этому вопросу новую актуальность.

Меррилл и Сабхарвал знали, что их чисто математический подход не может охватить все аспекты цепочки мыслей в реальных языковых моделях, где формулировки в подсказке может быть очень важным. Но независимо от того, как сформулировано приглашение, если оно заставляет языковую модель выводить пошаговые решения, модель в принципе может повторно использовать результаты промежуточных шагов при последующих проходах через преобразователь. Это может дать возможность обойти ограничения параллельных вычислений.

Тем временем команда из Пекинского университета размышляла в том же направлении, и их предварительные результаты были положительными. В статье, опубликованной в мае 2023 года, они определили некоторые математические задачи, которые должны быть невыполнимы для обычных преобразователей в рамках структуры Меррилла и Сабхарвала, и показал что промежуточные шаги позволили трансформаторам решить эти проблемы.

В октябре Меррилл и Сабхарвал продолжили свою предыдущую работу, выпустив подробное теоретическое исследование вычислительной мощности цепочки мыслей. Они количественно оценили, как эта дополнительная вычислительная мощность зависит от количества промежуточных шагов, которые преобразователю разрешено использовать, прежде чем он должен выдать окончательный ответ. В целом исследователи ожидают, что подходящее количество промежуточных шагов для решения любой проблемы будет зависеть от размера входных данных для решения проблемы. Например, простейшая стратегия сложения двух 20-значных чисел требует вдвое больше промежуточных шагов сложения, чем тот же подход сложения двух 10-значных чисел.

Подобные примеры позволяют предположить, что трансформаторы не получат особой выгоды от использования всего лишь нескольких промежуточных этапов. Действительно, Меррилл и Сабхарвал доказали, что цепочка мыслей начинает действительно помогать только тогда, когда количество промежуточных шагов растет пропорционально размеру входных данных, а многие проблемы требуют, чтобы количество промежуточных шагов выросло еще больше.

Тщательность результата впечатлила исследователей. «Они действительно это зафиксировали», — сказал Дэниел Хсу, исследователь машинного обучения в Колумбийском университете.

Недавняя работа Меррилла и Сабхарвала показывает, что цепочка мыслей не является панацеей: в принципе, она может помочь преобразователям решать более сложные проблемы, но только ценой больших вычислительных усилий.

«Мы заинтересованы в различных способах обойти ограничения трансформаторов одним шагом», — сказал Меррилл. «Цепочка размышлений — это один из способов, но эта статья показывает, что это может быть не самый экономичный путь».

Обратно в реальность

Тем не менее, исследователи предупреждают, что такого рода теоретический анализ может раскрыть лишь очень многое о реальных языковых моделях. Положительные результаты — доказательства того, что преобразователи в принципе могут решать определенные проблемы — не означают, что языковая модель действительно выучит эти решения во время обучения.

И даже результаты, касающиеся ограничений трансформаторов, сопровождаются оговорками: они указывают на то, что ни один трансформатор не может идеально решить определенные проблемы во всех случаях. Конечно, это довольно высокая планка. «Могут быть особые случаи проблемы, с которыми он прекрасно справится», — сказал Сюй.

Несмотря на эти предостережения, новая работа предлагает шаблон для анализа различных типов архитектур нейронных сетей, которые в конечном итоге могут заменить трансформаторы. Если анализ теории сложности покажет, что некоторые типы сетей более мощны, чем другие, это будет свидетельством того, что эти сети могут работать лучше и в реальном мире.

Чан также подчеркнул, что исследования ограничений преобразователей тем более ценны, поскольку языковые модели все чаще используются в широком спектре реальных приложений, что позволяет легко переоценить их возможности.

«На самом деле есть много вещей, которые они делают не очень хорошо, и нам нужно очень, очень хорошо осознавать, в чем заключаются ограничения», — сказал Чан. «Вот почему такая работа действительно важна».

Spot_img

Последняя разведка

Spot_img