OpenAI が強力かつ不気味な新しいテキスト動画変換モデルを発表

ChatGPT と DALL-E を支える生成 AI 会社は、新しいおもちゃを開発しました。Sora は、「スタイリッシュな女性が東京の通りを歩いています…」のようなプロンプトから、(場合によっては) 非常に説得力のある 60 秒のクリップを生成できる、テキストからビデオへのモデルです。そして「赤い毛糸で編まれたオートバイのヘルメットをかぶった 30 歳の宇宙人の冒険をフィーチャーした映画の予告編…」

私たちがこれまでに見てきた AI ビデオ生成の多くは、一貫したリアリティを維持できず、フレームごとに顔、衣服、オブジェクトを再設計していました。しかし、Sora は「ユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解している」と OpenAI は述べています。その発表の投稿（「理解する」という言葉を大雑把に使います）。

imgur.com で投稿を見る」

ソラのクリップは印象的です。もし私が注意深く見ていなかったら、たとえばソーシャルメディアでスクロールして通り過ぎただけだったとしたら、おそらくそれらの多くは本物だと思うでしょう。「中国のドラゴンを使った旧正月のお祝いビデオ」というプロンプトは、一見すると典型的なパレードのドキュメンタリー映像のように見えます。しかしその後、人々のバランスが妙に整っていて、つまずいているように見えることに気づきます。それは、すべてが少し間違っていることに突然気づく夢のような瞬間のようなものです。気味の悪い。

「現在のモデルには弱点がある」とOpenAIは書いている。「複雑なシーンの物理学を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない可能性があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。また、モデルは、たとえば左右を混同するなど、プロンプトの空間的な詳細を混乱させる可能性があり、特定のカメラの軌跡をたどるなど、時間の経過とともに起こるイベントの正確な説明に苦労する可能性があります。」

ソラの弱点を示す私のお気に入りのビデオは、プラスチックの椅子がクローネンバーグ生命体に変形し始めるビデオです。注視する:

imgur.com で投稿を見る」

Sora は現在一般公開されていないが、OpenAI は、このモデルの社会的リスクを評価し、たとえば「Sora によってビデオがいつ生成されたかを知ることができる検出分類器」などを使用して、それらの軽減に取り組んでいると述べた。

研究プロジェクトとしては興味深いものですが、OpenAI はクールなコンピューターサイエンスを行うことだけに興味があるわけではありません。著作権批判者や議員を出し抜くことができれば、大儲けできるだろう。同社は現在、「クリエイティブな専門家にとって最も役立つモデルをどのように進化させるかについてフィードバックを得るために、[Sora] に多くのビジュアルアーティスト、デザイナー、映画制作者へのアクセスを許可している」と述べています。

1 Xのコメント者ソラのようなモデルが、プロンプトだけで映画を作ることで、いつか大衆がハリウッドから映画製作の主導権を奪えるようになるのではないかと楽観的に考えているが、そうでないとしたら、この生成されたビデオすべてのソース素材がどこから来ると考えているのだろうか。映画製作者？ハリウッド映画はすでにかなり均質に見えるかもしれないが、私に言わせれば、マーベル・シネマティック・ユニバーススタイルの CGI や車のコマーシャルドローンショットを自動再生することは、必ずしも大衆に創造的な表現をもたらしているわけではない。 (このブログ投稿では、Sora のトレーニング教材については言及されていません。)

imgur.com で投稿を見る」

生成 AI の結果はしばしば不格好であり、それがもたらす法的、倫理的な泥沼にも関わらず、私たちはすでにそれがプロのクリエイティブメディアで使用されているのを目にしています。これには、アートや音声、その場での対話を生成するなど、私たちに直接目に見える方法と、コードスニペットや初期のコンセプトアートを生成するなど、あまり明らかではない方法の両方のビデオゲームが含まれます。あ最近の調査でわかったゲーム開発専門家の 31% が何らかの形で生成 AI を使用しています。他のソフトウェアと組み合わせると、この種の機械学習主導のビデオシミュレーションは、CG のようなクリップを生成する以外に何ができるでしょうか?

生成 AI が 5 年後、10 年後にどのように使われるようになるのか、あるいは継続的な開発がどのような結果をもたらすのか、実際のところは誰にも分からないと思います。しかし、その勢いは衰えていないので、いつかは分かるようです。 OpenAI やその他の企業は、より優れた画像、ビデオ、テキストジェネレーターだけでなく、「汎用人工知能」 (AGI、つまり AI とは何かという SF の概念) に向けて明確に取り組んでいます。

「Sora は、現実世界を理解してシミュレーションできるモデルの基盤として機能します。この機能は、AGI を達成するための重要なマイルストーンになると私たちは信じています」と OpenAI は述べています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.pcgamer.com/openai-sora-text-to-video-announcement

生成的データインテリジェンス

OpenAI が強力かつ不気味な新しいテキスト動画モデルを発表

この頑丈な電動カーゴバイクには 2 立方メートルの積載スペースがあり、800 ポンド以上の荷物を運ぶことができます – CleanTechnica

カラスをテーマにしたミームコインが600週間で約XNUMX％急騰

最新のインテリジェンス

イーサリアムのクジラが140億XNUMX万ドルのETH売却で市場混乱を引き起こす

ビットコインは63ドル付近で揺れ、香港スポット仮想通貨ETFのデビューを待つ

中国の新型AIロボットは服をたたんでサンドイッチも作れる

SECが1年間密かにイーサリアムを未登録有価証券とみなしていたことを新たな提出書類で明らかに

MicroStrategy 第 1 四半期、ビットコイン保有の減損費用 53.1 億 191.6 万ドルにより XNUMX 万ドルの営業損失

Web3 ゲームのスタートアップ GFAL、Supercell から 3.2 万ドルを調達、ミッチ・ラスキー