Logo Zephyrnet

La Monna Lisa ora può parlare, grazie a EMO

Data:

I ricercatori dell’Institute for Intelligent Computing di Alibaba Group hanno sviluppato uno strumento di intelligenza artificiale noto come EMO: Emote Portrait Alive, che dà vita ai ritratti.

Lo strumento consente agli utenti di aggiungere audio e video a un'immagine fissa. Utilizzando lo strumento, è possibile giocare con un vecchio ritratto come la famosa La Gioconda di Leonardo da Vinci, meglio conosciuta come la Monna Lisa, facendola parlare e cantare con pose della testa, movimenti, espressioni facciali e un'accurata sincronizzazione labiale.

Strumento espressivo per la generazione di ritratti-video basati su audio

Nel loro rapporto, "EMO: Emote Portrait Alive: generazione di video di ritratti espressivi con il modello di diffusione Audio2Video in condizioni deboli",  i ricercatori fornire approfondimenti sul loro nuovo strumento, sulle sue funzioni e su come utilizzarlo per risultati perfetti.

Con lo strumento AI espressivo per la creazione di ritratti basato sull'audio, gli utenti possono creare video avatar vocali con espressioni facciali. Secondo i ricercatori, lo strumento consente loro di creare video di qualsiasi durata “a seconda della lunghezza dell’audio in ingresso”.

"Inserisci l'immagine di un singolo personaggio e un audio vocale, come il canto, e il nostro metodo può generare video avatar vocali con espressioni facciali espressive e varie pose della testa", hanno affermato i ricercatori.

“Il nostro metodo supporta canzoni in varie lingue e dà vita a diversi stili di ritratto. Riconosce in modo intuitivo le variazioni tonali nell’audio, consentendo la generazione di avatar dinamici e ricchi di espressione”.

Leggi anche: OpenAI rivendica il ChatGPT "hackerato" dal New York Times per sviluppare un caso di copyright

Parlare, cantare da un ritratto

Secondo i ricercatori, lo strumento basato sull’intelligenza artificiale non solo elabora la musica, ma accoglie anche l’audio parlato in diverse lingue.

“Inoltre, il nostro metodo ha la capacità di animare ritratti di epoche passate, dipinti e sia modelli 3D che contenuti generati dall’intelligenza artificiale, infondendo loro movimento e realismo realistici”, hanno affermato i ricercatori.

Ma non finisce lì. Gli utenti possono anche giocare con ritratti e immagini di star del cinema che offrono monologhi o spettacoli in vari stili e linguaggi.

Alcuni appassionati di intelligenza artificiale che hanno adottato la piattaforma X l'hanno descritta come "strabiliante".

Il confine tra reale e intelligenza artificiale si assottiglia

Novità sullo strumento EMO di Alibaba ha fatto credere ad altri utenti che il confine tra intelligenza artificiale e realtà stia per scomparire mentre le aziende tecnologiche continuano a lanciare nuovi prodotti.

“Il confine tra intelligenza artificiale e realtà è più sottile che mai” ha postato Ruben su X, mentre gli altri pensano TikTok sarà presto inondato di creazioni.

“Questa è la prima volta che vedo un risultato così preciso e realistico. IA video quest’anno promette di essere credibile”, ha detto Paolo Covert.

Mentre altri pensano che questo potrebbe essere un punto di svolta per i creativi, anche Min Choi è cauto al riguardo.

“Speriamo solo per cose creative. Potrebbe essere pericoloso nelle mani sbagliate”.

La Monna Lisa ora può parlare, grazie a EMO

Usando lo strumento

Spiegando il processo, i ricercatori hanno evidenziato che il framework EMO ha due fasi, la prima nota come Frames Encoding, in cui ReferenceNet viene distribuito per estrarre caratteristiche dalle immagini di riferimento e dai fotogrammi di movimento.

La fase successiva è la fase del processo di diffusione, in cui un codificatore audio preaddestrato “elabora l’incorporamento dell’audio”. Per creare immagini facciali perfette, gli utenti integrano maschere della regione facciale e rumore multi-frame.

"Questi meccanismi sono essenziali rispettivamente per preservare l'identità del personaggio e per modularne i movimenti", si legge in una parte della spiegazione.

"Inoltre, i moduli temporali vengono utilizzati per manipolare la dimensione temporale e regolare la velocità del movimento."

spot_img

L'ultima intelligenza

spot_img