EMO で写真を語ろう - Plato Data Intelligence

静止画がしゃべったり歌ったりできたらいいのにと思ったことはありませんか? EMO をご紹介します。Emote Portrait Alive の略です。アリババのインテリジェントコンピューティング研究所の研究者によって開発された EMO は、まさにそれを行うために設計された人工知能システムです。

EMO はアニメーションに対して独自のアプローチを採用し、オーディオをビデオフレームに直接変換することで複雑な 3D モデルをバイパスします。つまり、アニメーションビデオでは、音声や歌の自然な動きや表現がすべて XNUMX つの写真とオーディオクリップから保持されます。

ポートレートアニメーションに革命をもたらすアリババの AI 研究である EMO をご紹介します!静止画からスピーチや歌まで、Emote Portrait Alive はすべてを処理できます。 — EMO (Emote Portrait Alive) は、静止したポートレート写真をアニメーション化する AI システムです (画像著作権)

Alibaba AI: Emote Portrait Alive (EMO) とは何ですか?

EMO (Emote Portrait Alive) は、アリババのインテリジェントコンピューティング研究所の研究者によって開発された人工知能システムです。その主な機能は次のとおりです。 静止したポートレート写真をアニメーション化する、被写体がリアルに話したり歌ったりしているように見えるビデオを作成します。

EMO の特徴は、アニメーションを生成するアプローチです。人間の表現のニュアンスを捉えるのに苦労することが多い従来の方法に依存するのではなく、EMO はオーディオ波形をビデオフレームに直接変換します。これは、アニメーションを生成するために中間の 3D モデルや顔のランドマークが必要ないことを意味します。代わりに、自然な発話に関連する微妙な顔の動きと個々の顔のスタイルをキャプチャすることに重点を置いています。

すぐに👀

これは私が今まで見た中で最も素晴らしいオーディオ 2 ビデオです。
それはEMOと呼ばれています：エモートポートレートアライブ pic.twitter.com/3b1AQMzPYu

— タイムトラベラーのステルフィー (@StelfieTT) 2024 年 2 月 28 日

EMO を支えるテクノロジーは拡散モデルに基づいており、リアルな合成画像を生成する機能でよく知られています。システムをトレーニングするために、研究者らは、スピーチ、映画、テレビ番組、音楽演奏など、さまざまなソースからのトーキングヘッドビデオの大規模なデータセットを使用しました。この広範なトレーニングにより、EMO は被写体のアイデンティティを維持し、表現力を伝えながら高品質のビデオを制作できるようになります。

EMO は会話ビデオの生成に加えて、歌っているポートレートをアニメーション化することもできます。口の形や表情をボーカルと同期させることで、さまざまなスタイルや長さの歌唱ビデオを作成できます。

EMO の開発は、パーソナライズされたビデオコンテンツ作成に刺激的な可能性をもたらす一方で、倫理的な懸念も引き起こします。などの悪用の危険性があります。 なりすまし またはの広がり誤報。したがって、このようなテクノロジーの導入には慎重に取り組み、倫理的懸念に対処するための適切な保護措置を確実に講じることが重要です。

ピカリップシンク AI が生成したビデオも喋らせる

EMOはどのように機能しますか?

EMO システムは、フレームエンコーディングと拡散プロセスという 2 つの主要な段階で動作します。

フレームエンコーディング: 参照画像とモーションフレームから特徴を抽出して、アニメーションの基礎を確立します。
拡散プロセス: 事前トレーニングされたオーディオエンコーダーを利用してオーディオ入力を処理します。顔領域マスクとマルチフレームノイズを統合してアニメーションを生成します。バックボーンネットワークは、リファレンスアテンションメカニズムとオーディオアテンションメカニズムを利用してアニメーションのノイズを除去します。テンポラルモジュールはモーション速度を調整します。

EMOで何ができるの？

EMO は、本物のようなアニメーションビデオを作成するための多用途ツールを提供し、次のようなパーソナライズされた表現力豊かなコンテンツ作成の可能性を広げます。

歌う：歌のオーディオ入力に同期した表情豊かなボーカルアバタービデオを生成します。

言語とスタイル: 多様な言語とポートレートスタイルをサポートし、動的なアバターアニメーションの色調の変化をキャプチャします。
速いリズム: キャラクターアニメーションと速いペースのリズムを確実に同期させます。
会話: さまざまな言語やスタイルの音声入力に応じてポートレートをアニメーション化します。
俳優を超えたパフォーマンス: 映画やその他のメディアの登場人物を多言語および多文化の文脈で描写します。

要約すると、EMO (Emote Portrait Alive とも呼ばれる) は、アニメーションテクノロジの大幅な進歩です。静止画を、被写体がリアルに話したり歌ったりしているように見える生き生きとしたビデオに変えることができます。 EMO は、音声をビデオフレームに直接変換し、顔の表情や動きを正確にキャプチャすることでこれを実現します。 EMO は動的なビジュアルコンテンツを作成するための刺激的な可能性を提供しますが、誤用の可能性に関する倫理的な懸念に対処する必要があります。それにもかかわらず、EMO は静止画像に命を吹き込むための貴重なツールであり、将来的には視覚メディアとの関わり方を変える可能性があります。

詳細については、こちらはその研究論文です。

注目の画像クレジット： EMO: エモートポートレートアライブ研究

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://dataconomy.com/2024/02/29/emote-portrait-alive-emo-alibaba-ai/

生成的データインテリジェンス

EMO で写真を語らせます

Alibaba AI: Emote Portrait Alive (EMO) とは何ですか?

EMOはどのように機能しますか?

EMOで何ができるの？

T3rminal Raspberry Pi ベースのポケット PC #piday #raspberrypi @Raspberry_Pi

NATO、科学分野の女性と少女への挑戦を開始

最新のインテリジェンス

Disney 360° トレッドミルの仕組みは次のとおりです

4 月 XNUMX 日土曜日の今日の Wordle の答え

Google、Android から RISC-V サポートを削除

MotoGP 24 Switch ゲームプレイ

グレーゾーン戦争ラジオサイレンスガイド: 孤立した家の場所を見つける

新しいホビットのゲームを「ロード・オブ・ザ・リングのゲーム」と呼んでいるのがとても腹立たしい