De Mona Lisa kan nu praten dankzij EMO - Plato Data Intelligence

Onderzoekers van het Institute for Intelligent Computing van Alibaba Group hebben een AI-tool ontwikkeld die bekend staat als EMO: Emote Portrait Alive, die portretten tot leven brengt.

Met deze tool kunnen gebruikers audio en video aan een stilstaand beeld toevoegen. Met behulp van de tool kun je spelen met een oud portret zoals La Gioconda van de beroemde Leonardo da Vinci, beter bekend als de Mona Lisa, en haar laten praten en zingen met hoofdhoudingen, bewegingen, gezichtsuitdrukkingen en nauwkeurige lipsynchronisatie.

Expressieve, audiogestuurde tool voor het genereren van portretvideo's

In hun rapport, “EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model onder zwakke omstandigheden,” de onderzoekers geef inzicht in hun nieuwe tool, de functies ervan en hoe u deze kunt gebruiken voor perfecte resultaten.

Met de expressieve, audiogestuurde AI-tool voor het maken van portretten kunnen gebruikers vocale avatarvideo's met gezichtsuitdrukkingen maken. Volgens de onderzoekers kunnen ze met de tool video's van elke duur maken “afhankelijk van de lengte van de invoeraudio.”

"Voer een enkel personagebeeld en een vocale audio in, zoals zingen, en onze methode kan vocale avatarvideo's genereren met expressieve gezichtsuitdrukkingen en verschillende hoofdhoudingen", aldus de onderzoekers.

“Onze methode ondersteunt liedjes in verschillende talen en brengt diverse portretstijlen tot leven. Het herkent intuïtief toonvariaties in de audio, waardoor dynamische, expressierijke avatars kunnen worden gegenereerd.”

Lees ook: OpenAI beweert dat de New York Times ChatGPT heeft “gehackt” om een auteursrechtzaak te ontwikkelen

Praten, zingen vanuit een portret

Volgens de onderzoekers verwerkt de AI-aangedreven tool niet alleen muziek, maar ook gesproken audio in verschillende talen.

“Bovendien heeft onze methode de mogelijkheid om portretten uit vervlogen tijden, schilderijen en zowel 3D-modellen als door AI gegenereerde inhoud te animeren, waardoor ze levensechte beweging en realisme krijgen”, aldus de onderzoekers.

Maar daar houdt het niet op. Gebruikers kunnen ook spelen met portretten en afbeeldingen van filmsterren die monologen of optredens geven in verschillende stijlen en talen.

Sommige AI-enthousiastelingen die het X-platform gebruikten, beschreven het als ‘verbluffend’.

2. Mona Lisa praat over Shakespeare pic.twitter.com/26k29aAz1P

— Min Choi (@minchoi) 28 februari 2024

De grens tussen echt en AI wordt dunner

Nieuws over de EMO-tool door Alibaba heeft andere gebruikers doen denken dat de grens tussen AI en de werkelijkheid op het punt staat te verdwijnen naarmate technologiebedrijven nieuwe producten blijven lanceren.

“De grens tussen AI en echt is dunner dan ooit”, geplaatst Ruben op X, terwijl anderen denken TikTok wordt binnenkort overspoeld met de creaties.

“Dit is de eerste keer dat ik zo’n nauwkeurig en realistisch resultaat zie. Video-AI dit jaar belooft geloofwaardig te worden”, zei hij Paul Covert.

Terwijl anderen denken dat dit een game changer kan zijn voor creatieven, is Min Choi er ook voorzichtig mee.

“Hopelijk alleen voor creatieve dingen. In de verkeerde handen kan dit gevaarlijk zijn.”

Dankzij EMO kan de Mona Lisa nu praten

De tool gebruiken

Bij het uitleggen van het proces benadrukten de onderzoekers dat het EMO-framework twee fasen kent, waarbij de eerste bekend staat als Frames Encoding, waarbij ReferenceNet wordt ingezet om kenmerken uit referentiebeelden en bewegingsframes te extraheren.

De volgende fase is de Diffusion Process-fase, waarbij een vooraf getrainde audio-encoder “de audio-inbedding verwerkt.” Om perfecte gezichtsbeelden te creëren, integreren gebruikers gezichtsregiomaskers en multi-frame ruis.

“Deze mechanismen zijn essentieel voor het behoud van respectievelijk de identiteit van het personage en het moduleren van de bewegingen van het personage”, luidt een deel van de uitleg.

“Bovendien worden tijdelijke modules gebruikt om de temporele dimensie te manipuleren en de snelheidsbeweging aan te passen.”

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Generatieve data-intelligentie

Dankzij EMO kan de Mona Lisa nu praten

Expressieve, audiogestuurde tool voor het genereren van portretvideo's

Praten, zingen vanuit een portret

De grens tussen echt en AI wordt dunner

De tool gebruiken

Carlie Hanson brengt hulde met haar oprechte cover van Alice In Chains' 'Nutshell'

Drake bedreigd met rechtszaak over Tupac AI-zang

Laatste intelligentie

Exclusieve Trump Bitcoin NFT's met aangepaste rangtelwoorden voor kopers van 'Mugshot Edition' - CryptoInfoNet

Bedrijf biedt digitale financiële geletterdheidstraining voor Nigerianen - CryptoInfoNet

BDAG leidt de top 5 van veelbelovende crypto-voorverkoop van 2024

Hoe u het marktsentiment kunt beoordelen voordat u cryptocurrency koopt

BlockDAG's liquiditeits- en vestingperiode van $ 100 miljoen te midden van SOL-netwerkproblemen en DOT-prijsvoorspellingen

Rainbet- en Crypto-casino's: leiders van het peloton