静止画がしゃべったり歌ったりできたらいいのにと思ったことはありませんか? EMO をご紹介します。Emote Portrait Alive の略です。アリババのインテリジェント コンピューティング研究所の研究者によって開発された EMO は、まさにそれを行うために設計された人工知能システムです。
EMO はアニメーションに対して独自のアプローチを採用し、オーディオをビデオ フレームに直接変換することで複雑な 3D モデルをバイパスします。つまり、アニメーション ビデオでは、音声や歌の自然な動きや表現がすべて XNUMX つの写真とオーディオ クリップから保持されます。
Alibaba AI: Emote Portrait Alive (EMO) とは何ですか?
EMO (Emote Portrait Alive) は、アリババのインテリジェント コンピューティング研究所の研究者によって開発された人工知能システムです。その主な機能は次のとおりです。 静止したポートレート写真をアニメーション化する、被写体がリアルに話したり歌ったりしているように見えるビデオを作成します。
EMO の特徴は、アニメーションを生成するアプローチです。人間の表現のニュアンスを捉えるのに苦労することが多い従来の方法に依存するのではなく、EMO はオーディオ波形をビデオ フレームに直接変換します。これは、アニメーションを生成するために中間の 3D モデルや顔のランドマークが必要ないことを意味します。代わりに、自然な発話に関連する微妙な顔の動きと個々の顔のスタイルをキャプチャすることに重点を置いています。
すぐに👀
これは私が今まで見た中で最も素晴らしいオーディオ 2 ビデオです。
それはEMOと呼ばれています:エモートポートレートアライブ pic.twitter.com/3b1AQMzPYu— タイムトラベラーのステルフィー (@StelfieTT) 2024 年 2 月 28 日
EMO を支えるテクノロジーは拡散モデルに基づいており、リアルな合成画像を生成する機能でよく知られています。システムをトレーニングするために、研究者らは、スピーチ、映画、テレビ番組、音楽演奏など、さまざまなソースからのトーキング ヘッド ビデオの大規模なデータセットを使用しました。この広範なトレーニングにより、EMO は被写体のアイデンティティを維持し、表現力を伝えながら高品質のビデオを制作できるようになります。
EMO は会話ビデオの生成に加えて、歌っているポートレートをアニメーション化することもできます。口の形や表情をボーカルと同期させることで、さまざまなスタイルや長さの歌唱ビデオを作成できます。
EMO の開発は、パーソナライズされたビデオ コンテンツ作成に刺激的な可能性をもたらす一方で、倫理的な懸念も引き起こします。などの悪用の危険性があります。 なりすまし またはの広がり 誤報。したがって、このようなテクノロジーの導入には慎重に取り組み、倫理的懸念に対処するための適切な保護措置を確実に講じることが重要です。
ピカリップシンク AI が生成したビデオも喋らせる
EMOはどのように機能しますか?
EMO システムは、フレーム エンコーディングと拡散プロセスという 2 つの主要な段階で動作します。
- フレームエンコーディング: 参照画像とモーション フレームから特徴を抽出して、アニメーションの基礎を確立します。
- 拡散プロセス: 事前トレーニングされたオーディオ エンコーダーを利用してオーディオ入力を処理します。顔領域マスクとマルチフレーム ノイズを統合してアニメーションを生成します。バックボーン ネットワークは、リファレンス アテンション メカニズムとオーディオ アテンション メカニズムを利用してアニメーションのノイズを除去します。テンポラルモジュールはモーション速度を調整します。
EMOで何ができるの?
EMO は、本物のようなアニメーション ビデオを作成するための多用途ツールを提供し、次のようなパーソナライズされた表現力豊かなコンテンツ作成の可能性を広げます。
- 歌う:歌のオーディオ入力に同期した表情豊かなボーカルアバタービデオを生成します。
- 言語とスタイル: 多様な言語とポートレート スタイルをサポートし、動的なアバター アニメーションの色調の変化をキャプチャします。
- 速いリズム: キャラクターアニメーションと速いペースのリズムを確実に同期させます。
- 会話: さまざまな言語やスタイルの音声入力に応じてポートレートをアニメーション化します。
- 俳優を超えたパフォーマンス: 映画やその他のメディアの登場人物を多言語および多文化の文脈で描写します。
要約すると、EMO (Emote Portrait Alive とも呼ばれる) は、アニメーション テクノロジの大幅な進歩です。静止画を、被写体がリアルに話したり歌ったりしているように見える生き生きとしたビデオに変えることができます。 EMO は、音声をビデオ フレームに直接変換し、顔の表情や動きを正確にキャプチャすることでこれを実現します。 EMO は動的なビジュアル コンテンツを作成するための刺激的な可能性を提供しますが、誤用の可能性に関する倫理的な懸念に対処する必要があります。それにもかかわらず、EMO は静止画像に命を吹き込むための貴重なツールであり、将来的には視覚メディアとの関わり方を変える可能性があります。
詳細については、 こちら はその研究論文です。
注目の画像クレジット: EMO: エモート ポートレート アライブ 研究
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://dataconomy.com/2024/02/29/emote-portrait-alive-emo-alibaba-ai/