ゼファーネットのロゴ

EMO で写真を語らせます

日付:

静止画がしゃべったり歌ったりできたらいいのにと思ったことはありませんか? EMO をご紹介します。Emote Portrait Alive の略です。アリババのインテリジェント コンピューティング研究所の研究者によって開発された EMO は、まさにそれを行うために設計された人工知能システムです。

EMO はアニメーションに対して独自のアプローチを採用し、オーディオをビデオ フレームに直接変換することで複雑な 3D モデルをバイパスします。つまり、アニメーション ビデオでは、音声や歌の自然な動きや表現がすべて XNUMX つの写真とオーディオ クリップから保持されます。

ポートレート アニメーションに革命をもたらすアリババの AI 研究である EMO をご紹介します!静止画からスピーチや歌まで、Emote Portrait Alive はすべてを処理できます。
EMO (Emote Portrait Alive) は、静止したポートレート写真をアニメーション化する AI システムです (画像著作権)

Alibaba AI: Emote Portrait Alive (EMO) とは何ですか?

EMO (Emote Portrait Alive) は、アリババのインテリジェント コンピューティング研究所の研究者によって開発された人工知能システムです。その主な機能は次のとおりです。 静止したポートレート写真をアニメーション化する、被写体がリアルに話したり歌ったりしているように見えるビデオを作成します。

EMO の特徴は、アニメーションを生成するアプローチです。人間の表現のニュアンスを捉えるのに苦労することが多い従来の方法に依存するのではなく、EMO はオーディオ波形をビデオ フレームに直接変換します。これは、アニメーションを生成するために中間の 3D モデルや顔のランドマークが必要ないことを意味します。代わりに、自然な発話に関連する微妙な顔の動きと個々の顔のスタイルをキャプチャすることに重点を置いています。

EMO を支えるテクノロジーは拡散モデルに基づいており、リアルな合成画像を生成する機能でよく知られています。システムをトレーニングするために、研究者らは、スピーチ、映画、テレビ番組、音楽演奏など、さまざまなソースからのトーキング ヘッド ビデオの大規模なデータセットを使用しました。この広範なトレーニングにより、EMO は被写体のアイデンティティを維持し、表現力を伝えながら高品質のビデオを制作できるようになります。

EMO は会話ビデオの生成に加えて、歌っているポートレートをアニメーション化することもできます。口の形や表情をボーカルと同期させることで、さまざまなスタイルや長さの歌唱ビデオを作成できます。

ポートレート アニメーションに革命をもたらすアリババの AI 研究である EMO をご紹介します!静止画からスピーチや歌まで、Emote Portrait Alive はすべてを処理できます。
(画像著作権)

EMO の開発は、パーソナライズされたビデオ コンテンツ作成に刺激的な可能性をもたらす一方で、倫理的な懸念も引き起こします。などの悪用の危険性があります。 なりすまし またはの広がり 誤報。したがって、このようなテクノロジーの導入には慎重に取り組み、倫理的懸念に対処するための適切な保護措置を確実に講じることが重要です。


ピカリップシンク AI が生成したビデオも喋らせる


EMOはどのように機能しますか?

EMO システムは、フレーム エンコーディングと拡散プロセスという 2 つの主要な段階で動作します。

  • フレームエンコーディング: 参照画像とモーション フレームから特徴を抽出して、アニメーションの基礎を確立します。
  • 拡散プロセス: 事前トレーニングされたオーディオ エンコーダーを利用してオーディオ入力を処理します。顔領域マスクとマルチフレーム ノイズを統合してアニメーションを生成します。バックボーン ネットワークは、リファレンス アテンション メカニズムとオーディオ アテンション メカニズムを利用してアニメーションのノイズを除去します。テンポラルモジュールはモーション速度を調整します。

EMOで何ができるの?

EMO は、本物のようなアニメーション ビデオを作成するための多用途ツールを提供し、次のようなパーソナライズされた表現力豊かなコンテンツ作成の可能性を広げます。

  • 歌う:歌のオーディオ入力に同期した表情豊かなボーカルアバタービデオを生成します。
ポートレート アニメーションに革命をもたらすアリババの AI 研究である EMO をご紹介します!静止画からスピーチや歌まで、Emote Portrait Alive はすべてを処理できます。
EMO は、オーディオをビデオ フレームに直接変換することで 3D モデルをバイパスします (画像著作権)
  • 言語とスタイル: 多様な言語とポートレート スタイルをサポートし、動的なアバター アニメーションの色調の変化をキャプチャします。
  • 速いリズム: キャラクターアニメーションと速いペースのリズムを確実に同期させます。
  • 会話: さまざまな言語やスタイルの音声入力に応じてポートレートをアニメーション化します。
  • 俳優を超えたパフォーマンス: 映画やその他のメディアの登場人物を多言語および多文化の文脈で描写します。

要約すると、EMO (Emote Portrait Alive とも呼ばれる) は、アニメーション テクノロジの大幅な進歩です。静止画を、被写体がリアルに話したり歌ったりしているように見える生き生きとしたビデオに変えることができます。 EMO は、音声をビデオ フレームに直接変換し、顔の表情や動きを正確にキャプチャすることでこれを実現します。 EMO は動的なビジュアル コンテンツを作成するための刺激的な可能性を提供しますが、誤用の可能性に関する倫理的な懸念に対処する必要があります。それにもかかわらず、EMO は静止画像に命を吹き込むための貴重なツールであり、将来的には視覚メディアとの関わり方を変える可能性があります。

詳細については、 こちら はその研究論文です。

注目の画像クレジット: EMO: エモート ポートレート アライブ 研究

スポット画像

最新のインテリジェンス

スポット画像