Zephyrnet-logo

EMO laat uw foto's spreken

Datum:

Heb je ooit gewenst dat je foto's konden spreken of zingen? Maak kennis met EMO, een afkorting van Emote Portrait Alive. EMO is ontwikkeld door onderzoekers van Alibaba's Institute for Intelligent Computing en is een kunstmatig intelligentiesysteem dat precies daarvoor is ontworpen.

EMO hanteert een unieke benadering van animatie, waarbij complexe 3D-modellen worden omzeild door audio direct om te zetten in videoframes. Dit betekent dat uw geanimeerde video's de natuurlijke bewegingen en uitdrukkingen van spraak of zang behouden, allemaal uit één foto- en audiofragment.

Maak kennis met EMO, het Alibaba AI-onderzoek dat een revolutie teweegbrengt in portretanimatie! Van foto's tot spraak of liedjes, Emote Portrait Alive kan alles aan.
EMO, of Emote Portrait Alive, is een AI-systeem voor het animeren van statische portretfoto's (Image credit)

Alibaba AI: Wat is Emote Portrait Alive (EMO)?

EMO, of Emote Portrait Alive, is een kunstmatig intelligentiesysteem ontwikkeld door onderzoekers van Alibaba's Institute for Intelligent Computing. Zijn voornaamste functie is om animeer statische portretfoto's, waarbij video's worden gemaakt waarin het onderwerp realistisch lijkt te praten of zingen.

Wat EMO onderscheidt is de aanpak voor het genereren van deze animaties. In plaats van te vertrouwen op traditionele methoden die vaak moeite hebben om de nuances van menselijke expressie vast te leggen, zet EMO audiogolfvormen rechtstreeks om in videoframes. Dit betekent dat er geen tussenliggende 3D-modellen of gezichtsoriëntatiepunten nodig zijn om animaties te genereren. In plaats daarvan richt het zich op het vastleggen van subtiele gezichtsbewegingen en individuele gezichtsstijlen die verband houden met natuurlijke spraak.

De technologie die EMO aandrijft, is gebaseerd op een diffusiemodel, dat bekend staat om zijn vermogen om realistische synthetische beelden te genereren. Om het systeem te trainen, gebruikten onderzoekers een grote dataset van video’s met pratende hoofden uit verschillende bronnen, waaronder toespraken, films, tv-shows en muziekoptredens. Dankzij deze uitgebreide training is EMO in staat video's van hoge kwaliteit te produceren, waarbij de identiteit van het onderwerp behouden blijft en zeggingskracht wordt overgebracht.

Naast het genereren van conversatievideo’s kan EMO ook zingende portretten animeren. Door mondvormen en gezichtsuitdrukkingen te synchroniseren met de zang kunnen zangvideo's in verschillende stijlen en duur ontstaan.

Maak kennis met EMO, het Alibaba AI-onderzoek dat een revolutie teweegbrengt in portretanimatie! Van foto's tot spraak of liedjes, Emote Portrait Alive kan alles aan.
(Image credit)

Hoewel de ontwikkeling van EMO opwindende mogelijkheden biedt voor het creëren van gepersonaliseerde video-inhoud, roept het ook ethische zorgen op. Er bestaat een risico op misbruik, bijv verpersoonlijking of de verspreiding ervan desinformatie. Daarom is het essentieel om de inzet van dergelijke technologie met voorzichtigheid te benaderen en ervoor te zorgen dat er passende waarborgen zijn om deze ethische problemen aan te pakken.


Pika Lipsynchronisatie laat door AI gegenereerde video's ook praten


Hoe werkt EMO?

Het EMO-systeem werkt in twee hoofdfasen: Frames Encoding en Diffusion Process.

  • Framecodering: extraheert kenmerken uit referentiebeelden en bewegingsframes om de basis voor animatie te leggen.
  • Verspreidingsproces: Maakt gebruik van een vooraf getrainde audio-encoder om audio-invoer te verwerken. Het integreert gezichtsregiomaskers met multi-frame ruis voor het genereren van animaties. Backbone Network verwijdert ruis van animaties, geholpen door referentie-aandacht- en audio-aandachtsmechanismen. Tijdelijke modules passen de bewegingssnelheid aan.

Wat kun je met EMO?

EMO biedt een veelzijdige tool voor het maken van levensechte animatievideo's, waardoor de mogelijkheden voor gepersonaliseerde en expressieve contentcreatie worden uitgebreid, zoals:

  • Zingen: Genereert vocale avatarvideo's met expressieve gezichtsuitdrukkingen die worden gesynchroniseerd met zingende audio-invoer.
Maak kennis met EMO, het Alibaba AI-onderzoek dat een revolutie teweegbrengt in portretanimatie! Van foto's tot spraak of liedjes, Emote Portrait Alive kan alles aan.
EMO omzeilt 3D-modellen door audio direct om te zetten in videoframes (Image credit)
  • Taal & Stijl: Ondersteunt diverse talen en portretstijlen, waarbij toonvariaties worden vastgelegd voor dynamische avatar-animaties.
  • Snel ritme: Zorgt voor synchronisatie van karakteranimaties met snelle ritmes.
  • Praat: animeert portretten als reactie op gesproken audio-invoer in verschillende talen en stijlen.
  • Prestaties tussen acteurs: Portretteert personages uit films of andere media in meertalige en multiculturele contexten.

Samenvattend is EMO, ook wel bekend als Emote Portrait Alive, een aanzienlijke vooruitgang in de animatietechnologie. Het kan stilstaande beelden omzetten in levendige video's waarin de onderwerpen realistisch lijken te praten of zingen. EMO bereikt dit door audio direct om te zetten in videoframes, waardoor gezichtsuitdrukkingen en bewegingen nauwkeurig worden vastgelegd. Hoewel EMO opwindende mogelijkheden biedt voor het creëren van dynamische visuele inhoud, moeten ethische zorgen over het mogelijke misbruik ervan worden aangepakt. Desalniettemin biedt EMO een waardevol hulpmiddel om stilstaande beelden tot leven te brengen en kan het mogelijk de manier waarop we in de toekomst omgaan met visuele media transformeren.

Voor meer gedetailleerde informatie, hier is het onderzoekspaper.

Uitgelicht beeldtegoed: EMO: Emote Portrait Alive-onderzoek

spot_img

Laatste intelligentie

spot_img