Användare drabbade av Microsofts bild till videoverktyg

När kapplöpningen om AI-herravälde fortsätter vill Microsoft nu förvandla människors porträttbilder till talande ansikten eller videor med sitt senaste verktyg, VASA-1.

Enligt en forskningsartikel från teknikjätten tar Microsoft AI-racet till en annan nivå, med VASA 1, ram för att skapa verklighetstrogna talande ansikten av virtuella karaktärer med visuella affektiva färdigheter (VAS), allt från ett porträtt.

Läs också: Videospelsindustrin skyndar sig att samarbeta över AI

Från porträtt till talande ansikten

Även om det ännu inte är tillgängligt för allmänheten, tar verktyget ett enda porträttfoto och talljud och producerar en hyperrealistisk talande ansiktsvideo med exakt läpp-ljudsynkronisering, verklighetstroget ansiktsbeteende och naturalistiska huvudrörelser genererade i realtid.

Verktyget är fortfarande på forskningsförhandsstadiet med Microsoft Research-teamet, och demovideorna "ser imponerande ut."

Medan företag som Nvidia och Runway redan har liknande teknik för huvudrörelser och läppsynk, verkar VASA-1 "vara av mycket högre kvalitet och realism", vilket minskar munartefakter, enligt Tom's Guide.

Dessutom är detta tillvägagångssätt för ljuddriven animation också som det senaste Vlogger AI modell av Google Research.

Enligt Microsoft, medan alla bilder i demonstrationsexemplen är syntetiska skapade av Dall-E, kan VASA-1 fortfarande animera en riktig bild.

Demot visar olika människor som pratar med nästan naturliga rörelser, ansiktsuttryck, ögonrörelser "inga artefakter runt toppen och botten av munnen som ses i andra verktyg."

Det krävs inte heller en bild i porträttstil med ansiktet framåt för att det ska fungera.

Microsoft har precis introducerat VASA-1.

Det är en ny AI-modell som kan förvandla 1 foto och 1 ljudstycke till en helt verklighetstrogen mänsklig deepfake.

Vildt att släppa detta precis innan valet 😬pic.twitter.com/MuLkZVOKRM

— Rowan Cheung (@rowancheung) 18 april 2024

VASA-1 fick folk att prata

Redan AI-entusiaster verkar betagna av tekniken som beskriver den som "vild" och "galen" på X-plattformen.

"Förbättringarna vi får mellan varje release är otroliga," sade Linus Ekenstam.

Andra menar att världen bevittnar en "seismisk förändring i hur medieinnehåll skapas" och hur det konsumeras.

"Det här är fantastiskt, realismen är på topp", sa en annan entusiast identifierad som Sam.

Även om andra känner igen verktygets förmåga, tycker de också att det är lite oansvarigt från Microsofts sida att introducera ett verktyg som enkelt kan manipuleras för valdeepfakes.

"Vild att släppa detta precis innan valet" skrev Rowan Cheung på X-plattformen.

En annan användare Evan Kirstel kommenterade med en sträng varning: "Microsoft Researchs VASA-1 är en spelväxlare som skapar hyperrealistiska AI-genererade videor från bara ett foto och ljud."

"Möjligheterna är oändliga, från att återuppliva klassiska biolegender till personlig media. Men låt oss vara uppmärksamma på deepfake-risker.”

Redan har världen sett en inströmning av valdeepfakes där politikers röster eller bilder har manipulerats med hjälp av AI för att sprida propaganda. Ungefär en tredjedel av världens befolkning går till val i år.

Forskarna vid Microsoft har dock indikerat att detta bara är för demonstration och det finns för närvarande inga planer på en offentlig release eller att göra den tillgänglig för utvecklare.

Hur fungerar VASA-1?

Enligt Tom's Guide är forskarna själva förvånade över modellens förmåga att "perfekt läppsynkronisera till en låt, vilket återspeglar orden från sångaren utan problem trots att ingen musik används i träningsdataset."

Dessutom hanterade VASA-1 olika bildstilar inklusive de historiska porträtten som de berömda Mona Lisa.

Verktyget kan användas i spel på baksidan av dess avancerade läppsynkroniseringsförmåga. Detta, har experter sagt, kan vara en spelväxlare för fördjupning.

Dessutom kan tekniken vara avgörande för att skapa avatarer för sociala medievideor, som i fallet med företag som Synthesia och HeyGen.

AI-baserade filmer och musikvideoproduktioner kan också utnyttja VASA-1-tekniken för mer realistiska videor.

Det finns chanser att med Microsofts andel i OpenAI, kan VASA-1 vara en del av en "framtida Copilot sora integration."

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/

Generativ dataintelligens

Användare drabbade av Microsofts bild till videoverktyg – VASA-

Från porträtt till talande ansikten

VASA-1 fick folk att prata

Hur fungerar VASA-1?

🔴Ethereum ETF:er försenade | Denna vecka i Crypto – 11 mars 2024

Få dessa benledningshörlurar för bara $40

Senaste intelligens

5 tips om att spela ansvarsfullt på spelautomater online

Skaffa en BirdBike eBike med fri frakt för mer än $1,500 XNUMX rabatt under en begränsad tid

T3rminal Raspberry Pi-baserad fickdator #piday #raspberrypi @Raspberry_Pi

NATO lanserar utmaning för kvinnor och flickor inom vetenskap

Så här fungerar Disney 360° löpband

Call For Papers – Hawaii International Conference on Education 2025