Zephyrnet-logo

Denne AI utfører sømløs videomanipulering uten dyp læring eller datasett

Dato:

Har du noen gang ønsket å redigere en video for å fjerne eller legge til noen, endre bakgrunnen, få den til å vare litt lenger, eller endre oppløsningen for å passe til et spesifikt sideforhold uten å komprimere eller strekke den? For de av dere som allerede har kjørt reklamekampanjer, ville dere absolutt ha varianter av videoene deres for AB-testing og se hva som fungerer best. Vel, denne nye forskningen av Niv Haim et al. kan hjelpe deg med å gjøre alt om i en enkelt video og i HD! Ved å bruke en enkel video kan du faktisk utføre alle oppgavene jeg nettopp nevnte i løpet av sekunder eller noen minutter for videoer av høy kvalitet. Du kan i utgangspunktet bruke den til alle videomanipulerings- eller videogenereringsapplikasjoner du har i tankene. Den utkonkurrerer til og med GAN-er på alle måter og bruker ikke noen fancy forskning med dyp læring og krever heller ikke et stort og upraktisk datasett! Og det beste er at denne teknikken er skalerbar til høyoppløselige videoer

bilde

Louis Bouchard Hacker Noon profilbilde

Louis Bouchard

Jeg forklarer vilkår og nyheter for kunstig intelligens til ikke-eksperter.

Har du noen gang ønsket å redigere en video for å fjerne eller legge til noen, endre bakgrunnen, få den til å vare litt lenger, eller endre oppløsningen for å passe til et spesifikt sideforhold uten å komprimere eller strekke den? For de av dere som allerede har kjørt reklamekampanjer, ville dere absolutt ha varianter av videoene deres for AB-testing og se hva som fungerer best.

Vel, denne nye forskningen av Niv Haim et al. kan hjelpe deg å gjøre alt om i en enkelt video og i HD!

Ved å bruke en enkel video kan du faktisk utføre alle oppgavene jeg nettopp nevnte i løpet av sekunder eller noen minutter for videoer av høy kvalitet. Du kan i utgangspunktet bruke den til alle videomanipulerings- eller videogenereringsapplikasjoner du har i tankene. Den utkonkurrerer til og med GAN-er på alle måter og bruker ikke noen fancy forskning med dyp læring og krever heller ikke et stort og upraktisk datasett!

Og det beste er at denne teknikken er skalerbar til høyoppløselige videoer...

Se videoen

Referanser

►Les hele artikkelen: https://www.louisbouchard.ai/vgpnn-ge…
►Papir dekket: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse generasjoner fra en enkelt video gjort mulig. ArXiv, abs/2109.08591.
►Teknikken som ble tilpasset fra bilder til videoer: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon og Michal Irani. Drop the gan: Til forsvar for patcher nærmeste naboer som enkeltbilde generative modeller. arXiv forhåndstrykk arXiv:2103.15545, 2021.
►Kode (tilgjengelig snart): https://nivha.github.io/vgpnn/
►Mitt nyhetsbrev (En ny AI-applikasjon blir ukentlig forklart til e-postene dine!): https://www.louisbouchard.ai/newsletter/

Videoutskrift

00:00

har du noen gang ønsket å redigere en video

00:02

fjerne eller legge til noen endre

00:04

bakgrunn får den til å vare litt lenger eller

00:06

endre oppløsningen for å passe til en bestemt

00:08

sideforhold uten å komprimere eller

00:10

strekker det for de av dere som

00:12

allerede kjørte reklamekampanjer du

00:14

absolutt ønsket å ha varianter av

00:16

videoene dine for ab-testing og se hva

00:19

fungerer best bra denne nye forskningen av niv

00:22

haim ital kan hjelpe deg med alt dette

00:24

ut av en enkelt video og i høy

00:27

definisjon faktisk ved hjelp av en enkel video

00:29

du kan utføre alle oppgaver jeg bare

00:32

nevnt i sekunder eller om noen minutter

00:34

for videoer av høy kvalitet kan du

00:36

i utgangspunktet bruke den for hvilken som helst video

00:38

manipulasjon eller videogenerering

00:40

søknad du har i tankene det selv

00:42

utkonkurrerer våpen på noen måter og gjør det ikke

00:45

bruke noen dyp læring fancy forskning heller

00:48

krever et stort og upraktisk datasett

00:51

og det beste er at dette

00:52

teknikken er skalerbar til høy oppløsning

00:55

videoer det er ikke bare for forskning

00:57

formål med 256 x 256 piksler videoer oh

01:01

og selvfølgelig kan du bruke det med bilder

01:04

la oss se hvordan det fungerer er modellen

01:06

kalt videobasert generativ patch

01:08

nærmeste naboer vgpnn i stedet for å bruke

01:11

komplekse algoritmer og modeller som gans

01:14

eller transformatorer forskerne som

01:16

utviklet vgpn velger en mye enklere

01:19

tilnærming, men besøkte den nærmeste

01:22

naboalgoritmen først nedskalerer de

01:24

bildet på en pyramide måte hvor hver

01:26

nivå er en blomst oppløsning enn

01:28

en over så legger de tilfeldig støy til

01:31

det groveste nivået for å generere en

01:33

annet bilde som ligner på hva våpen gjør

01:36

i det komprimerte rommet etter koding

01:38

bildet merk at her vil jeg si

01:40

bilde for enkelhets skyld, men i dette tilfellet

01:42

siden det er brukt på videoer prosessen

01:45

er laget på tre rammer samtidig

01:48

legge til en tidsdimensjon, men

01:49

forklaring forblir den samme med en ekstra

01:52

trinn på slutten bildet på

01:54

groveste skala med støy lagt er

01:56

delt inn i flere små firkanter

01:59

lapper alle lappene i bildet med

02:01

støy lagt er erstattet med de fleste

02:04

lignende oppdatering fra den opprinnelige skalerte

02:06

ned bilde uten støy dette mest

02:09

lignende lapp måles med

02:11

nærmeste nabo-algoritme som vi vil

02:13

se at de fleste av disse oppdateringene vil forbli

02:15

samme, men avhengig av den ekstra støyen

02:17

noen patcher vil endre akkurat nok til

02:19

få dem til å ligne mer på en annen

02:21

oppdatering i det første bildet er dette

02:24

vpn-utgang ser du her disse endringene

02:27

er akkurat nok til å generere en ny

02:29

versjon av bildet, så dette først

02:31

output oppskaleres og brukes til å sammenligne

02:34

med inngangsbildet til neste skala

02:36

å fungere som en støyende versjon av den og den

02:38

samme trinn gjentas i denne neste

02:41

iterasjon vi deler disse bildene inn i

02:43

små flekker og erstatte de tidligere

02:45

genererte de med de mest like

02:48

de på det nåværende trinnet, la oss komme inn på

02:50

denne vpn-modulen dekket vi nettopp som deg

02:53

kan se her den eneste forskjellen fra

02:55

det første trinnet med støy lagt til er

02:58

at vi sammenligner oppskaleringen som genereres

03:00

bilde her betegnet som q med en oppskalert

03:03

versjon av forrige bilde bare så det

03:06

har samme detaljnivå angitt som

03:09

k bruker i utgangspunktet nivået under som

03:12

sammenligninger sammenligner vi q og k og deretter

03:15

velg tilsvarende patcher i

03:17

bilde fra dette nåværende nivå v til

03:20

generere det nye bildet for dette trinnet

03:22

som skal brukes til neste

03:24

iterasjon som du ser her med det lille

03:26

arrows k er bare en eksklusiv versjon av

03:28

bildet vi laget nedskalering v in

03:31

det første trinnet i denne algoritmen hvor

03:33

vi laget den pyramideformede skaleringen

03:35

versjoner av vårt bilde dette er gjort til

03:38

sammenligne samme nivå av skarphet i

03:40

både bilder som oppskalere generert

03:42

bilde fra forrige lag q vil være

03:45

mye mer uskarpt enn bildet på

03:48

nåværende trinn v og det vil være veldig vanskelig

03:50

for å finne lignende oppdateringer gjentas dette

03:53

til vi kommer tilbake til toppen av

03:54

pyramide med høyoppløselige resultater

03:57

da er alle disse genererte oppdateringene

03:59

foldet sammen til en video og voila du kan

04:02

gjenta dette med forskjellige lyder eller

04:04

modifikasjoner for å generere eventuelle variasjoner

04:06

du vil ha på videoene dine, la oss gjøre en rask

04:09

oppsummering bildet er nedskalert ved

04:11

flere skalaer støy legges til

04:13

corsa skala bilde som er delt inn i

04:16

små firkantede flekker hver støyende lapp er

04:18

deretter erstattet med den mest like

04:20

patcher fra det samme komprimerte bildet

04:23

uten at støy forårsaker få tilfeldige endringer

04:26

i bildet mens begge deler er realistisk

04:28

det nylig genererte bildet og bildet

04:31

uten støy av dette trinnet oppskaleres

04:33

og sammenlignet med å finne den mest like

04:36

lapper med nærmeste nabo igjen

04:38

disse mest like lappene er da

04:40

valgt fra bildet for øyeblikket

04:42

oppløsning for å generere et nytt bilde for

04:45

trinnet igjen og vi gjentar dette

04:47

oppskalere og sammenligne trinn til vi

04:49

komme tilbake til toppen av pyramiden med

04:52

høyoppløselige resultater selvfølgelig

04:54

resultatene er ikke perfekte du kan fortsatt

04:56

se noen gjenstander som mennesker dukker opp

04:58

og forsvinner på rare steder eller

05:00

bare kopiere inn noen i noen

05:02

tilfeller gjør det veldig åpenbart hvis du

05:05

fokuser på det, men det er bare den første

05:07

papirangrep videomanipulasjoner med

05:09

den nærmeste naboalgoritmen og

05:11

gjør den skalerbar til høy oppløsning

05:13

videoer det er alltid fantastisk å se

05:15

forskjellige tilnærminger jeg er superspent

05:18

for å se den neste artikkelen bli bedre

05:20

denne er også resultatene stille

05:22

ganske imponerende og de kunne brukes

05:24

som et dataforsterkningsverktøy for modeller

05:26

jobber med videoer på grunn av deres svært lave

05:29

kjøretid slik at andre modeller kan trene

05:31

på større og mer varierte datasett

05:33

uten store kostnader hvis du er interessert

05:35

i å lære mer om denne teknikken i

05:37

vil sterkt anbefale å lese deres

05:38

papir det er den første lenken i

05:40

beskrivelse takk for at du så og

05:42

til alle som støtter arbeidet mitt

05:44

patreon eller ved å kommentere og like

05:46

videoer her på youtube

05:54

du

Engelsk (automatisk generert)

Alle

Nylig lastet opp

overvåket

Tags

Bli med på Hacker Noon

Opprett din gratis konto for å låse opp din tilpassede leseopplevelse.

PlatonAi. Web3 Reimagined. Data Intelligence Amplified.
Klikk her for å få tilgang.

Kilde: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

spot_img

VC kafé

LifeSciVC

Siste etterretning

VC kafé

LifeSciVC

spot_img