Cerebras устанавливает рекорд по самой большой модели искусственного интеллекта на одном чипе

Американский аппаратный стартап Cerebras утверждает, что обучил самую большую модель ИИ на одном устройстве, оснащенном самым большим в мире чипом Wafer Scale Engine 2 размером с тарелку.

«Используя программную платформу Cerebras (CSoft), наши клиенты могут легко обучать современные языковые модели GPT (такие как GPT-3 и GPT-J) с использованием до 20 миллиардов параметров в одной системе CS-2, " компания заявил На этой неделе. «Эти модели, работающие на одном CS-2, настраиваются за несколько минут, и пользователи могут быстро переключаться между моделями всего несколькими нажатиями клавиш».

CS-2 содержит колоссальные 850,000 40 ядер и имеет 20 ГБ встроенной памяти с пропускной способностью XNUMX ПБ/с. Спецификации других типов ускорителей искусственного интеллекта и графических процессоров меркнут по сравнению с ними, а это означает, что инженеры по машинному обучению должны обучать огромные модели искусственного интеллекта с миллиардами параметров на большем количестве серверов.

Несмотря на то, что Cerebras, очевидно, удалось обучить самую большую модель на одном устройстве, ему все равно будет сложно завоевать крупных клиентов ИИ. В наши дни крупнейшие системы нейронных сетей содержат от сотен миллиардов до триллионов параметров. На самом деле для обучения этих моделей потребуется намного больше систем CS-2.

Инженеры по машинному обучению, скорее всего, столкнутся с теми же проблемами, с которыми они уже сталкивались при распределении обучения по многочисленным машинам, содержащим GPU или TPU, — так зачем переключаться на менее знакомую аппаратную систему, которая не имеет такой большой поддержки программного обеспечения?

Сюрприз, сюрприз: робот, обученный на данных из Интернета, оказался расистом и сексистом

Робот, обученный на ошибочном наборе данных, извлеченном из Интернета, в ходе эксперимента продемонстрировал расистское и сексистское поведение.

Исследователи из Университета Джона Хопкинса, Технологического института Джорджии и Вашингтонского университета поручили роботу сложить блоки в коробку. На блоки были наклеены изображения человеческих лиц. Роботу было дано указание упаковать кубик, который, по его мнению, был врачом, домохозяйкой или преступником, в цветную коробку.

Робот был оснащен моделью компьютерного зрения на основе CLIP, часто используемой в системах преобразования текста в изображение. Эти модели обучены тому, чтобы изучать визуальное сопоставление объекта с его словесным описанием. Получив заголовок, он может сгенерировать изображение, соответствующее предложению. К сожалению, эти модели часто демонстрируют те же ошибки, что и их обучающие данные.

Например, робот с большей вероятностью идентифицировал блоки с женскими лицами как домохозяек или больше ассоциировал чернокожих лиц с преступниками, чем белых мужчин. Устройство также, казалось, нравилось женщинам и людям с более темной кожей меньше, чем белым и азиатским мужчинам. Хотя исследование является всего лишь экспериментом, развертывание роботов, обученных на ошибочных данных, может иметь последствия в реальной жизни.

«Возможно, дома робот берет белую куклу, когда ребенок просит красивую куклу», — Вики Зенг, аспирантка, изучающая информатику в Университете Джона Хопкинса. заявил. «Или, может быть, на складе, где есть много продуктов с моделями на коробках, вы можете представить, как робот чаще тянется к продуктам с белыми лицами на них».

Выпущена крупнейшая языковая модель с открытым исходным кодом

На этой неделе российский интернет-бизнес «Яндекс» опубликовал код языковой модели со 100 миллиардами параметров.

Система, названная ЯЛМ, был обучен на 1.7 ТБ текстовых данных, взятых из Интернета, и для вычислений требовалось 800 графических процессоров Nvidia A100. Интересно, код был опубликован под лицензией Apache 2.0, что означает, что модель может использоваться в исследовательских и коммерческих целях.

Академики и разработчики приветствовали усилия по воспроизведению и открытию исходных кодов больших языковых моделей. Эти системы сложно построить, и, как правило, только крупные технологические компании имеют ресурсы и опыт для их разработки. Они часто являются собственностью, и без доступа их трудно изучить.

«Мы искренне верим, что глобальный технологический прогресс возможен только через сотрудничество», — сказал представитель Яндекса. Регистр. «Большие технологические компании многим обязаны открытым результатам исследователей. Однако в последние годы современные технологии НЛП, в том числе большие языковые модели, стали недоступны для научного сообщества, поскольку ресурсы для обучения доступны только крупным технологиям».

«Исследователям и разработчикам во всем мире нужен доступ к этим решениям. Без новых исследований рост замедлится. Единственный способ избежать этого — поделиться передовым опытом с сообществом. Делясь нашей языковой моделью, мы поддерживаем темпы развития глобального НЛП».

Instagram будет использовать ИИ для проверки возраста пользователей

Родительский бизнес Instagram, Meta, тестирует новые методы проверки своих пользователей от 18 лет, включая использование ИИ для анализа фотографий.

Исследования и неофициальные данные показали, что использование социальных сетей может быть вредным для детей и подростков. Пользователи Instagram указывают свою дату рождения, чтобы подтвердить, что они достаточно взрослые, чтобы использовать приложение. Вам должно быть не менее 13 лет, а для лиц моложе 18 действуют дополнительные ограничения.

Теперь его материнская компания Meta пробует три разных способа подтвердить, что кому-то больше 18 лет, если он изменит дату своего рождения.

«Если кто-то попытается изменить дату своего рождения в Instagram в возрасте от 18 до 18 лет и старше, мы потребуем от него подтвердить свой возраст одним из трех способов: загрузить свое удостоверение личности, записать видео-селфи или попросить общих друзей. чтобы подтвердить свой возраст», компания объявило на этой неделе.

Meta заявила, что сотрудничает с Yoti, платформой цифровой идентификации, для анализа возраста людей. Программное обеспечение Yoti тщательно изучит изображения из видеоселфи, чтобы предсказать чей-то возраст. Мета сказал, что Yoti использует «набор данных анонимных изображений разных людей со всего мира».

Исследователи говорят, что GPT-4chan был плохой идеей

Сотни ученых подписали письмо с осуждением ГПТ-4чан, языковая модель ИИ, обученная на более чем 130 миллионах сообщений на печально известной ядовитой доске сообщений в Интернете 4chan.

«Большие языковые модели и, в более общем плане, базовые модели — это мощные технологии, которые несут в себе потенциальный риск значительного вреда», — говорится в статье. письмопод руководством двух профессоров Стэнфордского университета. «К сожалению, нам, сообществу ИИ, в настоящее время не хватает норм сообщества в отношении их ответственной разработки и развертывания. Тем не менее, для членов сообщества ИИ важно осудить явно безответственные действия».

Эти типы систем обучаются на большом количестве текста и учатся имитировать данные. Накормите GPT-4chan тем, что выглядит как разговор между пользователями сети, и он продолжит добавлять в смесь больше фальшивых сплетен. 4chan известен своими смягченными правилами модерации контента: пользователи анонимны и могут публиковать что угодно, если это не противоречит закону. Неудивительно, что GPT-4chan также начал извергать текст с аналогичным уровнем токсичности и содержания. Когда его запустили на 4chan, некоторые пользователи не были уверены, бот это или нет.

Теперь эксперты обвинили его создателя, ютубера Янника Килчера, в безответственном развертывании модели. «Можно представить разумный кейс для обучения языковой модели на токсичной речи — например, для обнаружения и понимания токсичности в Интернете или для общего анализа. Однако решение Килчера развернуть этого бота не выдерживает никакой проверки на разумность. Его действия заслуживают порицания. Он подрывает ответственную практику науки об искусственном интеллекте», — говорится в письме. ®

Генеративный анализ данных

Cerebras устанавливает рекорд по самой большой модели ИИ на одном чипе

Сюрприз, сюрприз: робот, обученный на данных из Интернета, оказался расистом и сексистом

Выпущена крупнейшая языковая модель с открытым исходным кодом

Instagram будет использовать ИИ для проверки возраста пользователей

Исследователи говорят, что GPT-4chan был плохой идеей

Ноутбуки Arm почти готовы к прайм-тайму, а некоторые новые тесты с процессором Snapdragon X будут представлены Intel, AMD и даже Apple…

Обзор валютных новостей ForexLive в Азиатско-Тихоокеанском регионе: USD/JPY быстро опускается ниже 154.00 | Форекслайв

Последняя разведка

10 причин вернуться в Destiny 2 с The Final Shape

Фунт стерлингов падает до 1.2450.

Австралийский доллар вырос до значительного уровня на фоне данных по смешанной рабочей силе и прохладного курса доллара США

Среди спикеров ЕЦБ в четверг Шнабель, Сентено, Симкус и Вуйчич | Форекслайв

Сегодняшний ответ Wordle за четверг, 18 апреля.

Level-5 Vision 2024 анонсирован на апрель, будет представлена новая игра

Чат с нами