ゼファーネットのロゴ

Sora AI は目を見張るようなビデオを即座に生成します

日付:

OpenAI によって作成された印象的な新しい生成ビデオ モデルである Sora は、短いテキストの説明を取得して、それを 1 分間の複雑な高解像度のフィルム クリップに変換できます。

OpenAIChatGPT チャットボットと静止画像ジェネレーター DALL-E の親会社である は、このインスタント ビデオ ジェネレーターの強化を競っている多くの企業の 1 つです。他の企業には、Runway のような新興企業や、Google や Facebook や Instagram の所有者である Meta Platforms Inc. などのテクノロジー大手が含まれます。

このテクノロジーは、熟練した映画制作者の作業をスピードアップしながら、スキルの低いデジタル アーティストを完全に置き換える可能性を秘めています。

また読む: OpenAIの共同創設者アンドレイ・カルパシー氏が辞任、個人ベンチャーに目を向ける

ソラを解放する

OpenAI はその新しいシステムを、日本語の空を意味する「Sora」と名付けました。研究者のティム・ブルックス氏とビル・ピーブルズ氏を含むこの技術の開発チームは、「無限の創造的可能性を想起させる」という理由でこの名前を選んだ。

また同社は、システムに関連するリスクをまだ調査中であるため、Soraをまだ一般公開していないとも述べた。むしろ、OpenAI は、「レッドチーム」(悪用の可能性を探すことを表す用語)となる学者やその他の外部研究者の選ばれたグループとテクノロジーを共有しています。

ブルックス博士によると、ここでの目的は、人々がこのテクノロジーの機能を確認し、フィードバックを得られるように、今後の展開のプレビューを提供することです。

OpenAI がビデオにタグを付ける

OpenAI はすでに、システムによって作成されたビデオにウォーターマークのタグを付けて、人工知能 (AI) によって生成されたことを示しています。ただし、同社はこれらが削除される可能性があることを認めています。彼らは、それらを特定するのが難しい場合もあると付け加えた。

による OpenAI、彼らは、現実世界のインタラクションを必要とする問題を人々が解決するのに役立つモデルをトレーニングすることを目標に、動いている物理世界を理解し、シミュレーションするように人工知能 (AI) を教えています。

さらに、クリエイティブな専門家にとって最も役立つようにモデルを進化させる方法についてフィードバックを得るために、数人のビジュアル アーティスト、デザイナー、映画製作者にアクセスを許可しています。

彼らは、OpenAI 以外の人々と協力してフィードバックを得て、一般の人々に AI の機能がどのようなものになるのかを理解してもらうために、研究の進捗状況を早期に共有しています。

ソラの開発

しかしながら、 OpenAI システムが学習したビデオの数や、それらがどこから来たのかについては明らかにしなかった。彼らは、トレーニングには一般に公開されているビデオと著作権所有者によってライセンスされたビデオの両方が含まれているとだけ述べました。

同社は著作権で保護されたコンテンツを使用したとして何度か訴訟を起こされている。おそらく競合他社よりも優位性を維持しようとしているため、技術のトレーニングに使用されたデータについては何も開示していません。

さらに、このモデルは言語を深く理解しており、プロンプトを正確に解釈し、感情を生き生きと伝える魅力的なキャラクターを生成することができます。 Sora は、単一生成されたビデオ内で視覚的なショットとキャラクターを維持する複数のショットを生成することもできます。

OpenAI は、X ハンドルでビデオを生成するプロンプトを共有し、X ユーザーからいくつかの反応を引き起こしました。

モデルの弱点

OpenAIによると、現在のモデルには弱点があるという。複雑なシーンの物理を正確にシミュレートするのに助けが必要な場合や、原因と結果の特定のインスタンスを理解するのに助けが必要な場合があります。たとえば、人がクッキーを噛んだとしても、その後クッキーに噛み跡が残らない場合があります。

モデルはまた、プロンプトの空間的な詳細 (たとえば、左右の混同) を明確にする必要がある場合や、特定のカメラの軌跡をたどるなど、時間の経過とともに発生するイベントの正確な説明に支援が必要な場合もあります。

スポット画像

最新のインテリジェンス

スポット画像