OpenAI によって作成された印象的な新しい生成ビデオ モデルである Sora は、短いテキストの説明を取得して、それを 1 分間の複雑な高解像度のフィルム クリップに変換できます。
OpenAIChatGPT チャットボットと静止画像ジェネレーター DALL-E の親会社である は、このインスタント ビデオ ジェネレーターの強化を競っている多くの企業の 1 つです。他の企業には、Runway のような新興企業や、Google や Facebook や Instagram の所有者である Meta Platforms Inc. などのテクノロジー大手が含まれます。
このテクノロジーは、熟練した映画制作者の作業をスピードアップしながら、スキルの低いデジタル アーティストを完全に置き換える可能性を秘めています。
また読む: OpenAIの共同創設者アンドレイ・カルパシー氏が辞任、個人ベンチャーに目を向ける
テキストからビデオへのモデルである Sora を紹介します。
Sora は、非常に詳細なシーン、複雑なカメラの動き、生き生きとした感情を持った複数のキャラクターをフィーチャーした最大 60 秒のビデオを作成できます。 https://t.co/7j2JN27M3W
プロンプト:「美しい、雪だ... pic.twitter.com/ruTEWn87vf
- OpenAI(@OpenAI) 2024 年 2 月 15 日
ソラを解放する
OpenAI はその新しいシステムを、日本語の空を意味する「Sora」と名付けました。研究者のティム・ブルックス氏とビル・ピーブルズ氏を含むこの技術の開発チームは、「無限の創造的可能性を想起させる」という理由でこの名前を選んだ。
Sora は当社初のビデオ生成モデルです。最長 1 分の HD ビデオを作成できます。 AGI は物理世界をシミュレートできるようになり、Sora はその方向への重要なステップとなります。と一緒にこれに取り組むことができてとてもうれしく思います @billpeeb at @openai 昨年 https://t.co/p4kAkRR0i0 pic.twitter.com/Hipku1LFRM
— ティム・ブルックス (@_tim_brooks) 2024 年 2 月 15 日
また同社は、システムに関連するリスクをまだ調査中であるため、Soraをまだ一般公開していないとも述べた。むしろ、OpenAI は、「レッドチーム」(悪用の可能性を探すことを表す用語)となる学者やその他の外部研究者の選ばれたグループとテクノロジーを共有しています。
ブルックス博士によると、ここでの目的は、人々がこのテクノロジーの機能を確認し、フィードバックを得られるように、今後の展開のプレビューを提供することです。
OpenAI がビデオにタグを付ける
OpenAI はすでに、システムによって作成されたビデオにウォーターマークのタグを付けて、人工知能 (AI) によって生成されたことを示しています。ただし、同社はこれらが削除される可能性があることを認めています。彼らは、それらを特定するのが難しい場合もあると付け加えた。
による OpenAI、彼らは、現実世界のインタラクションを必要とする問題を人々が解決するのに役立つモデルをトレーニングすることを目標に、動いている物理世界を理解し、シミュレーションするように人工知能 (AI) を教えています。
さらに、クリエイティブな専門家にとって最も役立つようにモデルを進化させる方法についてフィードバックを得るために、数人のビジュアル アーティスト、デザイナー、映画製作者にアクセスを許可しています。
これが私たちのビデオ生成モデルである sora です。https://t.co/CDr4DdCrh1
本日、私たちはレッドチームを開始し、限られた数のクリエイターにアクセスを提供します。@_tim_brooks @billpeeb @model_mechanic 本当に信じられないほどです。彼らとチームによる素晴らしい仕事。
注目すべき瞬間。
—サム・アルトマン(@sama) 2024 年 2 月 15 日
彼らは、OpenAI 以外の人々と協力してフィードバックを得て、一般の人々に AI の機能がどのようなものになるのかを理解してもらうために、研究の進捗状況を早期に共有しています。
ソラの開発
しかしながら、 OpenAI システムが学習したビデオの数や、それらがどこから来たのかについては明らかにしなかった。彼らは、トレーニングには一般に公開されているビデオと著作権所有者によってライセンスされたビデオの両方が含まれているとだけ述べました。
同社は著作権で保護されたコンテンツを使用したとして何度か訴訟を起こされている。おそらく競合他社よりも優位性を維持しようとしているため、技術のトレーニングに使用されたデータについては何も開示していません。
さらに、このモデルは言語を深く理解しており、プロンプトを正確に解釈し、感情を生き生きと伝える魅力的なキャラクターを生成することができます。 Sora は、単一生成されたビデオ内で視覚的なショットとキャラクターを維持する複数のショットを生成することもできます。
OpenAI は、X ハンドルでビデオを生成するプロンプトを共有し、X ユーザーからいくつかの反応を引き起こしました。
プロンプト: 「スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持ってカジュアルに歩いています。 pic.twitter.com/cjIdgYFaWq
- OpenAI(@OpenAI) 2024 年 2 月 15 日
モデルの弱点
OpenAIによると、現在のモデルには弱点があるという。複雑なシーンの物理を正確にシミュレートするのに助けが必要な場合や、原因と結果の特定のインスタンスを理解するのに助けが必要な場合があります。たとえば、人がクッキーを噛んだとしても、その後クッキーに噛み跡が残らない場合があります。
モデルはまた、プロンプトの空間的な詳細 (たとえば、左右の混同) を明確にする必要がある場合や、特定のカメラの軌跡をたどるなど、時間の経過とともに発生するイベントの正確な説明に支援が必要な場合もあります。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://metanews.com/openai-presents-ai-that-produces-eye-popping-videos-instantly/