Logo Zéphyrnet

EMO laisse parler vos photos

Date :

Avez-vous déjà souhaité que vos photos puissent parler ou chanter ? Rencontrez EMO, abréviation de Emote Portrait Alive. Développé par des chercheurs de l’Institute for Intelligent Computing d’Alibaba, EMO est un système d’intelligence artificielle conçu précisément pour cela.

EMO adopte une approche unique de l'animation, en contournant les modèles 3D complexes en convertissant directement l'audio en images vidéo. Cela signifie que vos vidéos animées conservent les mouvements et expressions naturels de la parole ou de la chanson, le tout à partir d’un seul clip photo et audio.

Rencontrez EMO, la recherche Alibaba AI qui révolutionne l'animation de portraits ! Des photos fixes aux discours ou aux chansons, Emote Portrait Alive peut tout gérer.
EMO, ou Emote Portrait Alive, est un système d'IA permettant d'animer des photos de portraits statiques (Crédit image)

Alibaba AI : Qu'est-ce qu'Emote Portrait Alive (EMO) ?

EMO, ou Emote Portrait Alive, est un système d'intelligence artificielle développé par des chercheurs de l'Institute for Intelligent Computing d'Alibaba. Sa fonction première est de animer des photos de portraits statiques, créant des vidéos où le sujet semble parler ou chanter de manière réaliste.

Ce qui distingue EMO, c'est son approche pour générer ces animations. Plutôt que de s'appuyer sur des méthodes traditionnelles qui ont souvent du mal à capturer les nuances de l'expression humaine, EMO convertit directement les formes d'onde audio en images vidéo. Cela signifie qu'il n'a pas besoin de modèles 3D intermédiaires ou de repères faciaux pour générer des animations. Au lieu de cela, il se concentre sur la capture de mouvements faciaux subtils et de styles faciaux individuels associés à un discours naturel.

La technologie qui alimente EMO est basée sur un modèle de diffusion, bien connu pour sa capacité à générer des images synthétiques réalistes. Pour entraîner le système, les chercheurs ont utilisé un vaste ensemble de données de vidéos de têtes parlantes provenant de diverses sources, notamment des discours, des films, des émissions de télévision et des performances musicales. Cette formation approfondie permet à EMO de réaliser des vidéos de haute qualité tout en préservant l'identité du sujet et en véhiculant l'expressivité.

En plus de générer des vidéos conversationnelles, EMO peut également animer des portraits chantés. La synchronisation des formes de bouche et des expressions faciales avec le chant peut créer des vidéos de chant de différents styles et durées.

Rencontrez EMO, la recherche Alibaba AI qui révolutionne l'animation de portraits ! Des photos fixes aux discours ou aux chansons, Emote Portrait Alive peut tout gérer.
(Crédit image)

Si le développement d’EMO présente des possibilités passionnantes pour la création de contenu vidéo personnalisé, il soulève également des préoccupations éthiques. Il existe un risque d'utilisation abusive, comme imitation ou la propagation de désinformation. Il est donc essentiel d’aborder le déploiement d’une telle technologie avec prudence et de veiller à ce que des garanties appropriées soient en place pour répondre à ces préoccupations éthiques.


Synchronisation labiale Pika fait aussi parler les vidéos générées par l'IA


Comment fonctionne l'EMO ?

Le système EMO fonctionne en deux étapes principales : le processus d'encodage des trames et le processus de diffusion.

  • Encodage des images: Extrait les caractéristiques des images de référence et des images animées pour établir les bases de l'animation.
  • Processus de diffusion: utilise un encodeur audio pré-entraîné pour traiter l'entrée audio. Il intègre des masques de région faciale avec un bruit multi-images pour la génération d'animations. Backbone Network débruit les animations, aidé par les mécanismes Reference-Attention et Audio-Attention. Les modules temporels ajustent la vitesse de mouvement.

Que pouvez-vous faire avec EMO ?

EMO offre un outil polyvalent pour créer des vidéos animées réalistes, élargissant les possibilités de création de contenu personnalisé et expressif, tels que :

  • En chantant: génère des vidéos d'avatar vocal avec des expressions faciales expressives synchronisées avec les entrées audio chantées.
Rencontrez EMO, la recherche Alibaba AI qui révolutionne l'animation de portraits ! Des photos fixes aux discours ou aux chansons, Emote Portrait Alive peut tout gérer.
EMO contourne les modèles 3D en convertissant directement l'audio en images vidéo (Crédit image)
  • Langue et style: Prend en charge diverses langues et styles de portrait, capturant les variations tonales pour les animations dynamiques des avatars.
  • Rythme rapide: Assure la synchronisation des animations des personnages avec des rythmes rapides.
  • Parlent: anime les portraits en réponse aux entrées audio parlées dans différentes langues et styles.
  • Performance inter-acteurs: Représente des personnages de films ou d'autres médias dans des contextes multilingues et multiculturels.

En résumé, EMO, également connu sous le nom d'Emote Portrait Alive, constitue une avancée significative dans la technologie d'animation. Il peut transformer des images fixes en vidéos animées dans lesquelles les sujets semblent parler ou chanter de manière réaliste. EMO y parvient en convertissant directement l'audio en images vidéo, capturant avec précision les expressions faciales et les mouvements. Même si EMO offre des possibilités intéressantes pour créer du contenu visuel dynamique, les préoccupations éthiques concernant son utilisation abusive potentielle doivent être prises en compte. Néanmoins, EMO présente un outil précieux pour donner vie aux images fixes et peut potentiellement transformer la façon dont nous interagissons avec les médias visuels à l’avenir.

Pour des informations plus détaillées, ici est son document de recherche.

Crédit d'image en vedette: EMO : recherche Emote Portrait Alive

spot_img

Dernières informations

spot_img