Creëer realistische avatars van audio met behulp van Meta's Audio2Photoreal

In een sprong voorwaarts op het gebied van generatieve AI heeft Meta AI onlangs een revolutionaire technologie onthuld genaamd Audio2Photoreal. Dit baanbrekende project, ontworpen als een open-sourceinitiatief, maakt het mogelijk om full-body, levensechte 3D-avatars te genereren op basis van audio-invoer. De avatars vertonen niet alleen realistische gezichtsuitdrukkingen, maar bootsen ook volledige lichaams- en gebarenbewegingen na die overeenkomen met de gesproken woorden in gesprekken met meerdere personen. Laten we ons verdiepen in de fijne kneepjes van deze baanbrekende technologie.

Lees ook: U kunt nu tekst in afbeeldingen bewerken met AnyText van Alibaba

Hoe Audio2Photoreal werkt

Audio2Photoreal maakt gebruik van een geavanceerde aanpak die de samplediversiteit van vectorkwantisering combineert met hoogfrequente details verkregen door diffusie, wat resulteert in meer dynamische en expressieve bewegingen. Het proces omvat verschillende belangrijke stappen:

Gegevensset vastleggen: Het model legt eerst rijke datasets van tweepersoonsgesprekken vast om realistische reconstructies mogelijk te maken.
Constructie van bewegingsmodellen: Op basis van de gegevens bouwt het een samengesteld bewegingsmodel op, inclusief gezichts-, houdings- en lichaamsbewegingsmodellen.
Generatie van gezichtsbewegingen: Tegelijkertijd verwerkt het model de audio met behulp van een vooraf getrainde lipregressor om gezichtsbewegingskenmerken te extraheren. Een conditioneel diffusiemodel genereert vervolgens gezichtsuitdrukkingen op basis van deze kenmerken.
Body Motion-generatie: Vervolgens wordt de audio-invoer gebruikt om autoregressief geleide houdingen via vectorkwantisering (VQ) uit te voeren met een snelheid van 1 frame per seconde. Deze worden, samen met audio, in een diffusiemodel ingevoerd om hoogfrequente lichaamsbewegingen van 30 frames/seconde te genereren.
Virtuele karakterweergave: De gegenereerde gezichts- en lichaamsbewegingen worden uiteindelijk doorgegeven aan een getrainde virtuele karakterrenderer om realistische avatars te produceren.
Resultaatweergave: Het uiteindelijke resultaat toont realistische, virtuele karakters die subtiele nuances in gesprekken tot uitdrukking brengen.

Voorbeeld van gebruiksscenario

Audio2Photoreal vindt toepassing in verschillende scenario's, zoals trainingsmodellen met verzamelde stemgegevens om aangepaste karakteravatars te genereren, het synthetiseren van realistische virtuele beelden uit de stemgegevens van historische figuren en het aanpassen van stemacteurs aan 3D-games en virtuele ruimtes.

Lees ook: Decodering van Google VideoPoet: een uitgebreide gids voor het genereren van AI-video's

Kenmerken van het product

Genereert realistische menselijke avatars uit audio.
Biedt vooraf getrainde modellen en datasets.
Inclusief gezichts- en lichaamsmodellen.
Bereikt avatarweergave van hoge kwaliteit.
Biedt open-source PyTorch-code-implementatie.

Audio2Photoreal gebruiken

Om Audio2Photoreal te gebruiken, moeten gebruikers audiogegevens invoeren. De geavanceerde modellen genereren vervolgens realistische menselijke avatars op basis van de geleverde audio, waardoor het een waardevolle hulpbron wordt voor ontwikkelaars en makers op het gebied van digitale media, game-ontwikkeling of virtual reality.

Lees ook: MidJourney v6 gaat een revolutie teweegbrengen in het genereren van AI-afbeeldingen

Ons zeggen

De onthulling van Meta AI’s Audio2Photoreal markeert een belangrijke stap op het gebied van het genereren van avatars. Het vermogen om de nuances van menselijke gebaren en uitdrukkingen uit audio vast te leggen, demonstreert zijn potentieel om een revolutie teweeg te brengen in virtuele interacties. Het open-source karakter van het project stimuleert samenwerking en innovatie tussen onderzoekers en ontwikkelaars, waardoor de weg wordt vrijgemaakt voor het creëren van hoogwaardige, levensechte avatars. Terwijl we getuige zijn van de voortdurende evolutie van technologie, is Audio2Photoreal een bewijs van de grenzeloze mogelijkheden op het kruispunt van audio- en visuele synthese.

Verwant

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://www.analyticsvidhya.com/blog/2024/01/create-realistic-avatars-from-audio-using-metas-audio2photoreal/

Generatieve data-intelligentie

Creëer realistische avatars van audio met behulp van Meta's Audio2Photoreal

Hoe Audio2Photoreal werkt

Voorbeeld van gebruiksscenario

Kenmerken van het product

Audio2Photoreal gebruiken

Ons zeggen

Verwant

Bitcoin leidt 30-daagse NFT-verkopen en overtreft 24 Blockchain-concurrenten

De geweldige technische verhalen van deze week van overal op internet (tot en met 27 april)

Laatste intelligentie

Prioriteit geven aan first-mover-voordeel boven beveiliging zorgt ervoor dat defi-protocollen kwetsbaar zijn voor hacks – Nikita Ovchinnik

HKTDC onthult evenementen voor geschenken, drukwerk, verpakkingen en licenties

Carlie Hanson brengt hulde met haar oprechte cover van Alice In Chains' 'Nutshell'

Hyundai gaat meer hybrides bouwen om de afnemende vraag naar elektrische voertuigen aan te vullen – Autoblog

Drake bedreigd met rechtszaak over Tupac AI-zang

Exclusieve Trump Bitcoin NFT's met aangepaste rangtelwoorden voor kopers van 'Mugshot Edition' - CryptoInfoNet