ゼファーネットのロゴ

OpenAI が強力かつ不気味な新しいテキスト動画モデルを発表

日付:

ChatGPT と DALL-E を支える生成 AI 会社は、新しいおもちゃを開発しました。Sora は、「スタイリッシュな女性が東京の通りを歩いています…」のようなプロンプトから、(場合によっては) 非常に説得力のある 60 秒のクリップを生成できる、テキストからビデオへのモデルです。そして「赤い毛糸で編まれたオートバイのヘルメットをかぶった 30 歳の宇宙人の冒険をフィーチャーした映画の予告編…」

私たちがこれまでに見てきた AI ビデオ生成の多くは、一貫したリアリティを維持できず、フレームごとに顔、衣服、オブジェクトを再設計していました。しかし、Sora は「ユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解している」と OpenAI は述べています。 その発表の投稿 (「理解する」という言葉を大雑把に使います)。

imgur.com で投稿を見る」

ソラのクリップは印象的です。もし私が注意深く見ていなかったら、たとえばソーシャルメディアでスクロールして通り過ぎただけだったとしたら、おそらくそれらの多くは本物だと思うでしょう。 「中国のドラゴンを使った旧正月のお祝いビデオ」というプロンプトは、一見すると典型的なパレードのドキュメンタリー映像のように見えます。しかしその後、人々のバランスが妙に整っていて、つまずいているように見えることに気づきます。それは、すべてが少し間違っていることに突然気づく夢のような瞬間のようなものです。気味の悪い。

「現在のモデルには弱点がある」とOpenAIは書いている。 「複雑なシーンの物理学を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない可能性があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。また、モデルは、たとえば左右を混同するなど、プロンプトの空間的な詳細を混乱させる可能性があり、特定のカメラの軌跡をたどるなど、時間の経過とともに起こるイベントの正確な説明に苦労する可能性があります。」

ソラの弱点を示す私のお気に入りのビデオは、プラスチックの椅子がクローネンバーグ生命体に変形し始めるビデオです。 注視する:

imgur.com で投稿を見る」

Sora は現在一般公開されていないが、OpenAI は、このモデルの社会的リスクを評価し、たとえば「Sora によってビデオがいつ生成されたかを知ることができる検出分類器」などを使用して、それらの軽減に取り組んでいると述べた。

研究プロジェクトとしては興味深いものですが、OpenAI はクールなコンピューター サイエンスを行うことだけに興味があるわけではありません。著作権批判者や議員を出し抜くことができれば、大儲けできるだろう。同社は現在、「クリエイティブな専門家にとって最も役立つモデルをどのように進化させるかについてフィードバックを得るために、[Sora] に多くのビジュアル アーティスト、デザイナー、映画制作者へのアクセスを許可している」と述べています。 

1 Xのコメント者 ソラのようなモデルが、プロンプトだけで映画を作ることで、いつか大衆がハリウッドから映画製作の主導権を奪えるようになるのではないかと楽観的に考えているが、そうでないとしたら、この生成されたビデオすべてのソース素材がどこから来ると考えているのだろうか。映画製作者?ハリウッド映画はすでにかなり均質に見えるかもしれないが、私に言わせれば、マーベル・シネマティック・ユニバーススタイルの CGI や車のコマーシャルドローンショットを自動再生することは、必ずしも大衆に創造的な表現をもたらしているわけではない。 (このブログ投稿では、Sora のトレーニング教材については言及されていません。)

imgur.com で投稿を見る」

生成 AI の結果はしばしば不格好であり、それがもたらす法的、倫理的な泥沼にも関わらず、私たちはすでにそれがプロのクリエイティブ メディアで使用されているのを目にしています。これには、アートや音声、その場での対話を生成するなど、私たちに直接目に見える方法と、コード スニペットや初期のコンセプト アートを生成するなど、あまり明らかではない方法の両方のビデオゲームが含まれます。あ 最近の調査でわかった ゲーム開発専門家の 31% が何らかの形で生成 AI を使用しています。他のソフトウェアと組み合わせると、この種の機械学習主導のビデオ シミュレーションは、CG のようなクリップを生成する以外に何ができるでしょうか?

生成 AI が 5 年後、10 年後にどのように使われるようになるのか、あるいは継続的な開発がどのような結果をもたらすのか、実際のところは誰にも分からないと思います。しかし、その勢いは衰えていないので、いつかは分かるようです。 OpenAI やその他の企業は、より優れた画像、ビデオ、テキスト ジェネレーターだけでなく、「汎用人工知能」 (AGI、つまり AI とは何かという SF の概念) に向けて明確に取り組んでいます。

「Sora は、現実世界を理解してシミュレーションできるモデルの基盤として機能します。この機能は、AGI を達成するための重要なマイルストーンになると私たちは信じています」と OpenAI は述べています。

スポット画像

最新のインテリジェンス

スポット画像