Zephyrnet-logo

Dankzij EMO kan de Mona Lisa nu praten

Datum:

Onderzoekers van het Institute for Intelligent Computing van Alibaba Group hebben een AI-tool ontwikkeld die bekend staat als EMO: Emote Portrait Alive, die portretten tot leven brengt.

Met deze tool kunnen gebruikers audio en video aan een stilstaand beeld toevoegen. Met behulp van de tool kun je spelen met een oud portret zoals La Gioconda van de beroemde Leonardo da Vinci, beter bekend als de Mona Lisa, en haar laten praten en zingen met hoofdhoudingen, bewegingen, gezichtsuitdrukkingen en nauwkeurige lipsynchronisatie.

Expressieve, audiogestuurde tool voor het genereren van portretvideo's

In hun rapport, “EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model onder zwakke omstandigheden,”  de onderzoekers geef inzicht in hun nieuwe tool, de functies ervan en hoe u deze kunt gebruiken voor perfecte resultaten.

Met de expressieve, audiogestuurde AI-tool voor het maken van portretten kunnen gebruikers vocale avatarvideo's met gezichtsuitdrukkingen maken. Volgens de onderzoekers kunnen ze met de tool video's van elke duur maken “afhankelijk van de lengte van de invoeraudio.”

"Voer een enkel personagebeeld en een vocale audio in, zoals zingen, en onze methode kan vocale avatarvideo's genereren met expressieve gezichtsuitdrukkingen en verschillende hoofdhoudingen", aldus de onderzoekers.

“Onze methode ondersteunt liedjes in verschillende talen en brengt diverse portretstijlen tot leven. Het herkent intuïtief toonvariaties in de audio, waardoor dynamische, expressierijke avatars kunnen worden gegenereerd.”

Lees ook: OpenAI beweert dat de New York Times ChatGPT heeft “gehackt” om een ​​auteursrechtzaak te ontwikkelen

Praten, zingen vanuit een portret

Volgens de onderzoekers verwerkt de AI-aangedreven tool niet alleen muziek, maar ook gesproken audio in verschillende talen.

“Bovendien heeft onze methode de mogelijkheid om portretten uit vervlogen tijden, schilderijen en zowel 3D-modellen als door AI gegenereerde inhoud te animeren, waardoor ze levensechte beweging en realisme krijgen”, aldus de onderzoekers.

Maar daar houdt het niet op. Gebruikers kunnen ook spelen met portretten en afbeeldingen van filmsterren die monologen of optredens geven in verschillende stijlen en talen.

Sommige AI-enthousiastelingen die het X-platform gebruikten, beschreven het als ‘verbluffend’.

De grens tussen echt en AI wordt dunner

Nieuws over de EMO-tool door Alibaba heeft andere gebruikers doen denken dat de grens tussen AI en de werkelijkheid op het punt staat te verdwijnen naarmate technologiebedrijven nieuwe producten blijven lanceren.

“De grens tussen AI en echt is dunner dan ooit”, geplaatst Ruben op X, terwijl anderen denken TikTok wordt binnenkort overspoeld met de creaties.

“Dit is de eerste keer dat ik zo’n nauwkeurig en realistisch resultaat zie. Video-AI dit jaar belooft geloofwaardig te worden”, zei hij Paul Covert.

Terwijl anderen denken dat dit een game changer kan zijn voor creatieven, is Min Choi er ook voorzichtig mee.

“Hopelijk alleen voor creatieve dingen. In de verkeerde handen kan dit gevaarlijk zijn.”

Dankzij EMO kan de Mona Lisa nu praten

De tool gebruiken

Bij het uitleggen van het proces benadrukten de onderzoekers dat het EMO-framework twee fasen kent, waarbij de eerste bekend staat als Frames Encoding, waarbij ReferenceNet wordt ingezet om kenmerken uit referentiebeelden en bewegingsframes te extraheren.

De volgende fase is de Diffusion Process-fase, waarbij een vooraf getrainde audio-encoder “de audio-inbedding verwerkt.” Om perfecte gezichtsbeelden te creëren, integreren gebruikers gezichtsregiomaskers en multi-frame ruis.

“Deze mechanismen zijn essentieel voor het behoud van respectievelijk de identiteit van het personage en het moduleren van de bewegingen van het personage”, luidt een deel van de uitleg.

“Bovendien worden tijdelijke modules gebruikt om de temporele dimensie te manipuleren en de snelheidsbeweging aan te passen.”

spot_img

Laatste intelligentie

spot_img