EMOのおかげでモナリザは話せるようになった

アリババグループのインテリジェントコンピューティング研究所の研究者は、ポートレートに命を吹き込む、EMO: Emote Portrait Alive として知られる AI ツールを開発しました。

このツールを使用すると、ユーザーは静止画像にオーディオとビデオを追加できます。このツールを使用すると、有名なレオナルドダヴィンチのラジョコンダ (モナリザとしてよく知られている) のような古い肖像画をいじって、頭のポーズ、動き、表情、正確な口パクで彼女を話したり歌わせたりすることができます。

表現力豊かなオーディオ主導のポートレートビデオ生成ツール

彼らのレポート「EMO: Emote Portrait Alive: 弱い条件下での Audio2Video 拡散モデルを使用した表現力豊かなポートレートビデオの生成」では、次のように述べられています。研究者新しいツール、その機能、完璧な結果を得るための使用方法についての洞察を提供します。

表現力豊かなオーディオ主導のポートレート作成 AI ツールを使用すると、ユーザーは表情付きのボーカルアバタービデオを作成できます。研究者らによると、このツールを使用すると、「入力音声の長さに応じて」任意の長さのビデオを作成できるという。

「単一のキャラクター画像と歌などの音声音声を入力すると、私たちの方法は表情豊かな表情やさまざまな頭のポーズを備えたボーカルアバタービデオを生成できます」と研究者らは述べた。

「私たちの手法はさまざまな言語の曲をサポートし、多様なポートレートスタイルに命を吹き込みます。オーディオの音の変化を直感的に認識し、ダイナミックで表現豊かなアバターの生成を可能にします。」

研究者らによると、AIを活用したツールは音楽を処理するだけでなく、さまざまな言語の音声にも対応するという。

「さらに、私たちの手法には、過去の時代の肖像画、絵画、3D モデルと AI 生成コンテンツの両方をアニメーション化して、それらに本物のような動きとリアリズムを吹き込む機能があります」と研究者らは述べています。

しかし、それだけでは終わりません。ユーザーは、さまざまなスタイルや言語でモノローグやパフォーマンスを披露する映画スターのポートレートや画像をいじることもできます。

X プラットフォームを利用した一部の AI 愛好家は、X プラットフォームを「驚くべきもの」と表現しました。

2. シェイクスピアを語るモナ・リザ pic.twitter.com/26k29aAz1P

— ミンチョイ (@minchoi) 2024 年 2 月 28 日

EMOツールのお知らせアリババテクノロジー企業が新製品を発表し続けるにつれて、AI と現実の境界がなくなりつつあると他のユーザーに思わせました。

「AIと現実の間の境界はかつてないほど薄くなっています。」ルーベンを投稿しました他の人が考えている間、Xについて TikTok すぐに作品が溢れかえるでしょう。

「これほど正確で現実的な結果を見たのは初めてです。ビデオAI 今年は信頼できる年になるだろう」と語った。ポール・コバート.

これがクリエイターにとって大きな変革となる可能性があると考える人もいるが、Min Choi氏もそれについては慎重だ。

「できればクリエイティブなことだけに。これは悪者の手に渡れば危険な可能性があります。」

EMOのおかげでモナリザが話せるようになりました

研究者らはプロセスを説明し、EMO フレームワークには 2 つの段階があり、最初の段階はフレームエンコーディングとして知られており、参照画像とモーションフレームから特徴を抽出するために ReferenceNet が展開されることを強調しました。

次の段階は拡散プロセス段階で、事前トレーニングされたオーディオエンコーダーが「オーディオの埋め込みを処理」します。完璧な顔画像を作成するために、ユーザーは顔領域マスクとマルチフレームノイズを統合します。

「これらのメカニズムは、それぞれキャラクターのアイデンティティを維持し、キャラクターの動きを調整するために不可欠です」と説明の一部には書かれています。

「さらに、時間モジュールは時間次元を操作し、速度の動きを調整するために利用されます。」