Логотип Зефирнет

OpenAI представляет мощную и жуткую новую модель преобразования текста в видео

Дата:

У компании, занимающейся генеративным искусственным интеллектом, стоящей за ChatGPT и DALL-E, появилась новая игрушка: Sora, модель преобразования текста в видео, которая может (иногда) генерировать довольно убедительные 60-секундные видеоролики из подсказок типа «стильная женщина идет по улице Токио…». и «трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме…»

Многие из видеопоколений искусственного интеллекта, которые мы видели до сих пор, не могут поддерживать последовательную реальность, изменяя лица, одежду и объекты от одного кадра к другому. Сора, однако, «понимает не только то, что пользователь запрашивает в командной строке, но и то, как эти вещи существуют в физическом мире», — говорит OpenAI в его рекламный пост (употребляя слово «понимает» в широком смысле).

Посмотреть пост на imgur.com”

Клипы Соры впечатляют. Если бы я не присматривался — скажем, я просто просматривал их в социальных сетях — я бы, наверное, подумал, что многие из них настоящие. Подсказка «Видео о праздновании китайского Лунного Нового года с китайским драконом» на первый взгляд выглядит как типичная документальная съемка парада. Но потом понимаешь, что люди странного телосложения и как будто спотыкаются — это как тот момент во сне, когда ты вдруг замечаешь, что все немного не так. Противный.

«У нынешней модели есть слабые места», — пишет OpenAI. «Он может испытывать трудности с точным моделированием физики сложной сцены и может не понимать конкретные случаи причины и следствия. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса. Модель также может путать пространственные детали подсказки, например, путать лево и право, и может не давать точного описания событий, которые происходят во времени, например, следуя определенной траектории камеры».

Моя любимая демонстрация слабостей Соры — это видео, в котором пластиковый стул начинает трансформироваться в форму жизни Кроненберга. Вот:

Посмотреть пост на imgur.com”

Sora в настоящее время недоступна для широкой публики, и OpenAI заявляет, что оценивает социальные риски модели и работает над их смягчением, например, с помощью «классификатора обнаружения, который может определить, когда Sora сгенерировала видео».

Это увлекательный исследовательский проект, но OpenAI заинтересован не только в крутых компьютерных науках. Если он сможет перехитрить критиков авторского права и законодателей, он здесь, чтобы заработать денег. Компания заявляет, что в настоящее время «предоставляет [Соре] доступ к ряду художников, дизайнеров и режиссеров, чтобы получить отзывы о том, как продвигать модель, чтобы она была наиболее полезной для творческих профессионалов». 

один комментатор X оптимистично задавался вопросом, позволят ли такие модели, как Сора, однажды публике вырвать контроль над кинопроизводством у Голливуда, снимая фильмы исключительно с помощью подсказок, - но мне интересно, откуда, по их мнению, возьмется исходный материал для всего этого сгенерированного видео, если нет, вы знаете, кинематографисты? Голливудские фильмы, возможно, уже выглядят довольно однородными, но автоматическое воспроизведение компьютерной графики в стиле кинематографической вселенной Marvel и съемок с дронов в рекламе автомобилей не совсем приносит творческое выражение массам, если вы спросите меня. (В сообщении блога, в частности, не упоминаются учебные материалы Соры.)

Посмотреть пост на imgur.com”

Несмотря на часто неуклюжие результаты генеративного ИИ и юридическую и этическую трясину, которую он представляет, мы уже видим его использование в профессиональных творческих медиа. Сюда входят видеоигры, как способами, которые мы непосредственно видим, например, для создания рисунков, голосов и диалогов на лету, так и способами, которые менее очевидны, например, создание фрагментов кода или ранних концепт-артов. А недавнее исследование показало, что 31% специалистов по разработке игр в той или иной степени используют генеративный искусственный интеллект. Интересно, что в сочетании с другим программным обеспечением может сделать этот вид видеосимуляции на основе машинного обучения, кроме создания немного не похожих на компьютерную графику клипов?

Я не думаю, что кто-то действительно знает, как генеративный ИИ будет использоваться через пять или десять лет или каковы будут последствия дальнейшего развития, но оно не замедляется, так что, похоже, мы это узнаем. OpenAI и другие компании явно работают не только над улучшением генераторов изображений, видео и текста, но и над «искусственным общим интеллектом» или AGI — например, над научно-фантастическим представлением о том, что такое ИИ.

«Sora служит основой для моделей, которые могут понимать и моделировать реальный мир, и мы считаем, что эта возможность станет важной вехой на пути к достижению AGI», — говорит OpenAI.

Spot_img

Последняя разведка

Spot_img