Zephyrnet-logo

Creëer realistische avatars van audio met behulp van Meta's Audio2Photoreal

Datum:

In een sprong voorwaarts op het gebied van generatieve AI heeft Meta AI onlangs een revolutionaire technologie onthuld genaamd Audio2Photoreal. Dit baanbrekende project, ontworpen als een open-sourceinitiatief, maakt het mogelijk om full-body, levensechte 3D-avatars te genereren op basis van audio-invoer. De avatars vertonen niet alleen realistische gezichtsuitdrukkingen, maar bootsen ook volledige lichaams- en gebarenbewegingen na die overeenkomen met de gesproken woorden in gesprekken met meerdere personen. Laten we ons verdiepen in de fijne kneepjes van deze baanbrekende technologie.

Lees ook: U kunt nu tekst in afbeeldingen bewerken met AnyText van Alibaba

Hoe Audio2Photoreal werkt

Audio2Photoreal maakt gebruik van een geavanceerde aanpak die de samplediversiteit van vectorkwantisering combineert met hoogfrequente details verkregen door diffusie, wat resulteert in meer dynamische en expressieve bewegingen. Het proces omvat verschillende belangrijke stappen:

  1. Gegevensset vastleggen: Het model legt eerst rijke datasets van tweepersoonsgesprekken vast om realistische reconstructies mogelijk te maken.
  2. Constructie van bewegingsmodellen: Op basis van de gegevens bouwt het een samengesteld bewegingsmodel op, inclusief gezichts-, houdings- en lichaamsbewegingsmodellen.
  3. Generatie van gezichtsbewegingen: Tegelijkertijd verwerkt het model de audio met behulp van een vooraf getrainde lipregressor om gezichtsbewegingskenmerken te extraheren. Een conditioneel diffusiemodel genereert vervolgens gezichtsuitdrukkingen op basis van deze kenmerken.
  4. Body Motion-generatie: Vervolgens wordt de audio-invoer gebruikt om autoregressief geleide houdingen via vectorkwantisering (VQ) uit te voeren met een snelheid van 1 frame per seconde. Deze worden, samen met audio, in een diffusiemodel ingevoerd om hoogfrequente lichaamsbewegingen van 30 frames/seconde te genereren.
  5. Virtuele karakterweergave: De gegenereerde gezichts- en lichaamsbewegingen worden uiteindelijk doorgegeven aan een getrainde virtuele karakterrenderer om realistische avatars te produceren.
  6. Resultaatweergave: Het uiteindelijke resultaat toont realistische, virtuele karakters die subtiele nuances in gesprekken tot uitdrukking brengen.
Hoe Audio2Photoreal werkt | Meta-AI

Voorbeeld van gebruiksscenario

Audio2Photoreal vindt toepassing in verschillende scenario's, zoals trainingsmodellen met verzamelde stemgegevens om aangepaste karakteravatars te genereren, het synthetiseren van realistische virtuele beelden uit de stemgegevens van historische figuren en het aanpassen van stemacteurs aan 3D-games en virtuele ruimtes.

Lees ook: Decodering van Google VideoPoet: een uitgebreide gids voor het genereren van AI-video's

Kenmerken van het product

  • Genereert realistische menselijke avatars uit audio.
  • Biedt vooraf getrainde modellen en datasets.
  • Inclusief gezichts- en lichaamsmodellen.
  • Bereikt avatarweergave van hoge kwaliteit.
  • Biedt open-source PyTorch-code-implementatie.

Audio2Photoreal gebruiken

Om Audio2Photoreal te gebruiken, moeten gebruikers audiogegevens invoeren. De geavanceerde modellen genereren vervolgens realistische menselijke avatars op basis van de geleverde audio, waardoor het een waardevolle hulpbron wordt voor ontwikkelaars en makers op het gebied van digitale media, game-ontwikkeling of virtual reality.

Lees ook: MidJourney v6 gaat een revolutie teweegbrengen in het genereren van AI-afbeeldingen

Audio2Photoreal gebruiken | Meta-AI

Ons zeggen

De onthulling van Meta AI’s Audio2Photoreal markeert een belangrijke stap op het gebied van het genereren van avatars. Het vermogen om de nuances van menselijke gebaren en uitdrukkingen uit audio vast te leggen, demonstreert zijn potentieel om een ​​revolutie teweeg te brengen in virtuele interacties. Het open-source karakter van het project stimuleert samenwerking en innovatie tussen onderzoekers en ontwikkelaars, waardoor de weg wordt vrijgemaakt voor het creëren van hoogwaardige, levensechte avatars. Terwijl we getuige zijn van de voortdurende evolutie van technologie, is Audio2Photoreal een bewijs van de grenzeloze mogelijkheden op het kruispunt van audio- en visuele synthese.

spot_img

Laatste intelligentie

spot_img