Zephyrnet-Logo

Dank EMO kann die Mona Lisa jetzt sprechen

Datum:

Forscher am Institute for Intelligent Computing der Alibaba Group haben ein KI-Tool namens EMO: Emote Portrait Alive entwickelt, das Porträts zum Leben erweckt.

Mit dem Tool können Benutzer einem Standbild Audio und Video hinzufügen. Mit dem Tool kann man mit einem alten Porträt wie der berühmten La Gioconda von Leonardo da Vinci, besser bekannt als Mona Lisa, herumspielen und sie mit Kopfhaltung, Bewegung, Gesichtsausdruck und präziser Lippensynchronisation zum Sprechen und Singen bringen.

Ausdrucksstarkes, audiogesteuertes Tool zur Erstellung von Porträt-Videos

In ihrem Bericht „EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions“  die Forscher geben Einblicke in ihr neues Tool, seine Funktionen und wie man damit perfekte Ergebnisse erzielt.

Mit dem ausdrucksstarken, audiogesteuerten KI-Tool zur Porträterstellung können Benutzer Gesangs-Avatar-Videos mit Gesichtsausdrücken erstellen. Den Forschern zufolge können sie mit dem Tool Videos beliebiger Länge erstellen, „abhängig von der Länge des Eingangsaudios“.

„Geben Sie ein einzelnes Zeichenbild und einen Gesangston ein, beispielsweise einen Gesang, und unsere Methode kann Gesangs-Avatar-Videos mit ausdrucksstarken Gesichtsausdrücken und verschiedenen Kopfhaltungen erzeugen“, sagten die Forscher.

„Unsere Methode unterstützt Lieder in verschiedenen Sprachen und erweckt unterschiedliche Porträtstile zum Leben. Es erkennt intuitiv tonale Variationen im Audio und ermöglicht so die Generierung dynamischer, ausdrucksstarker Avatare.“

Lies auch: OpenAI behauptet, die New York Times habe ChatGPT „gehackt“, um einen Urheberrechtsfall zu entwickeln

Reden, Singen aus einem Porträt

Den Forschern zufolge verarbeitet das KI-gestützte Tool nicht nur Musik, sondern berücksichtigt auch gesprochene Audioinhalte in verschiedenen Sprachen.

„Darüber hinaus ist unsere Methode in der Lage, Porträts aus vergangenen Epochen, Gemälde sowie 3D-Modelle und KI-generierte Inhalte zu animieren und ihnen lebensechte Bewegung und Realismus zu verleihen“, sagten die Forscher.

Aber damit ist es noch nicht getan. Benutzer können auch mit Porträts und Bildern von Filmstars experimentieren, die Monologe oder Auftritte in verschiedenen Stilen und Sprachen halten.

Einige KI-Enthusiasten, die sich für die X-Plattform interessierten, bezeichneten sie als „umwerfend“.

Die Grenze zwischen real und KI wird dünner

Neuigkeiten zum EMO-Tool von Alibaba hat andere Benutzer glauben lassen, dass die Grenze zwischen KI und Realität bald verschwinden wird, da Technologiefirmen weiterhin neue Produkte auf den Markt bringen.

„Die Grenze zwischen KI und Realität ist dünner als je zuvor“ gepostet Ruben auf X, während andere denken TikTok wird bald mit den Kreationen überflutet sein.

„Das ist das erste Mal, dass ich ein so präzises und realistisches Ergebnis gesehen habe. Video-KI Dieses Jahr verspricht glaubwürdig zu werden“, sagte er Paul Covert.

Während andere glauben, dass dies für Kreative eine Wende bedeuten könnte, ist Min Choi diesbezüglich ebenfalls vorsichtig.

„Hoffentlich nur für kreative Dinge. In den falschen Händen könnte das gefährlich sein.“

Dank EMO kann die Mona Lisa jetzt sprechen

Verwenden des Tools

Bei der Erläuterung des Prozesses betonten die Forscher, dass das EMO-Framework aus zwei Phasen besteht, wobei die erste als „Frames Encoding“ bekannt ist und in der ReferenceNet eingesetzt wird, um Merkmale aus Referenzbildern und Bewegungsbildern zu extrahieren.

Die nächste Stufe ist die Phase des Diffusionsprozesses, in der ein vorab trainierter Audio-Encoder „die Audio-Einbettung verarbeitet“. Um perfekte Gesichtsbilder zu erstellen, integrieren Benutzer Gesichtsbereichsmasken und Multi-Frame-Rauschen.

„Diese Mechanismen sind wichtig, um die Identität der Figur zu bewahren bzw. die Bewegungen der Figur zu modulieren“, heißt es in einem Teil der Erklärung.

„Darüber hinaus werden Temporalmodule verwendet, um die zeitliche Dimension zu manipulieren und die Geschwindigkeitsbewegung anzupassen.“

spot_img

Neueste Intelligenz

spot_img