Zephyrnet-logotyp

Användare drabbade av Microsofts bild till videoverktyg – VASA-

Datum:

När kapplöpningen om AI-herravälde fortsätter vill Microsoft nu förvandla människors porträttbilder till talande ansikten eller videor med sitt senaste verktyg, VASA-1.

Enligt en forskningsartikel från teknikjätten tar Microsoft AI-racet till en annan nivå, med VASA 1, ram för att skapa verklighetstrogna talande ansikten av virtuella karaktärer med visuella affektiva färdigheter (VAS), allt från ett porträtt.

Läs också: Videospelsindustrin skyndar sig att samarbeta över AI

Från porträtt till talande ansikten

Även om det ännu inte är tillgängligt för allmänheten, tar verktyget ett enda porträttfoto och talljud och producerar en hyperrealistisk talande ansiktsvideo med exakt läpp-ljudsynkronisering, verklighetstroget ansiktsbeteende och naturalistiska huvudrörelser genererade i realtid.

Verktyget är fortfarande på forskningsförhandsstadiet med Microsoft Research-teamet, och demovideorna "ser imponerande ut."

Medan företag som Nvidia och Runway redan har liknande teknik för huvudrörelser och läppsynk, verkar VASA-1 "vara av mycket högre kvalitet och realism", vilket minskar munartefakter, enligt Tom's Guide.

Dessutom är detta tillvägagångssätt för ljuddriven animation också som det senaste Vlogger AI modell av Google Research.

Enligt Microsoft, medan alla bilder i demonstrationsexemplen är syntetiska skapade av Dall-E, kan VASA-1 fortfarande animera en riktig bild.

Demot visar olika människor som pratar med nästan naturliga rörelser, ansiktsuttryck, ögonrörelser "inga artefakter runt toppen och botten av munnen som ses i andra verktyg."

Det krävs inte heller en bild i porträttstil med ansiktet framåt för att det ska fungera.

VASA-1 fick folk att prata

Redan AI-entusiaster verkar betagna av tekniken som beskriver den som "vild" och "galen" på X-plattformen.

"Förbättringarna vi får mellan varje release är otroliga," sade Linus Ekenstam.

Andra menar att världen bevittnar en "seismisk förändring i hur medieinnehåll skapas" och hur det konsumeras.

"Det här är fantastiskt, realismen är på topp", sa en annan entusiast identifierad som Sam.

Även om andra känner igen verktygets förmåga, tycker de också att det är lite oansvarigt från Microsofts sida att introducera ett verktyg som enkelt kan manipuleras för valdeepfakes.

"Vild att släppa detta precis innan valet" skrev Rowan Cheung på X-plattformen.

En annan användare Evan Kirstel kommenterade med en sträng varning: "Microsoft Researchs VASA-1 är en spelväxlare som skapar hyperrealistiska AI-genererade videor från bara ett foto och ljud."

"Möjligheterna är oändliga, från att återuppliva klassiska biolegender till personlig media. Men låt oss vara uppmärksamma på deepfake-risker.”

Redan har världen sett en inströmning av valdeepfakes där politikers röster eller bilder har manipulerats med hjälp av AI för att sprida propaganda. Ungefär en tredjedel av världens befolkning går till val i år.

Forskarna vid Microsoft har dock indikerat att detta bara är för demonstration och det finns för närvarande inga planer på en offentlig release eller att göra den tillgänglig för utvecklare.

Hur fungerar VASA-1?

Enligt Tom's Guide är forskarna själva förvånade över modellens förmåga att "perfekt läppsynkronisera till en låt, vilket återspeglar orden från sångaren utan problem trots att ingen musik används i träningsdataset."

Dessutom hanterade VASA-1 olika bildstilar inklusive de historiska porträtten som de berömda Mona Lisa.

Verktyget kan användas i spel på baksidan av dess avancerade läppsynkroniseringsförmåga. Detta, har experter sagt, kan vara en spelväxlare för fördjupning.

Dessutom kan tekniken vara avgörande för att skapa avatarer för sociala medievideor, som i fallet med företag som Synthesia och HeyGen.

AI-baserade filmer och musikvideoproduktioner kan också utnyttja VASA-1-tekniken för mer realistiska videor.

Det finns chanser att med Microsofts andel i OpenAI, kan VASA-1 vara en del av en "framtida Copilot sora integration."

plats_img

Senaste intelligens

plats_img