Har du noen gang ønsket å redigere en video for å fjerne eller legge til noen, endre bakgrunnen, få den til å vare litt lenger, eller endre oppløsningen for å passe til et spesifikt sideforhold uten å komprimere eller strekke den? For de av dere som allerede har kjørt reklamekampanjer, ville dere absolutt ha varianter av videoene deres for AB-testing og se hva som fungerer best. Vel, denne nye forskningen av Niv Haim et al. kan hjelpe deg med å gjøre alt om i en enkelt video og i HD! Ved å bruke en enkel video kan du faktisk utføre alle oppgavene jeg nettopp nevnte i løpet av sekunder eller noen minutter for videoer av høy kvalitet. Du kan i utgangspunktet bruke den til alle videomanipulerings- eller videogenereringsapplikasjoner du har i tankene. Den utkonkurrerer til og med GAN-er på alle måter og bruker ikke noen fancy forskning med dyp læring og krever heller ikke et stort og upraktisk datasett! Og det beste er at denne teknikken er skalerbar til høyoppløselige videoer
Har du noen gang ønsket å redigere en video for å fjerne eller legge til noen, endre bakgrunnen, få den til å vare litt lenger, eller endre oppløsningen for å passe til et spesifikt sideforhold uten å komprimere eller strekke den? For de av dere som allerede har kjørt reklamekampanjer, ville dere absolutt ha varianter av videoene deres for AB-testing og se hva som fungerer best.
Vel, denne nye forskningen av Niv Haim et al. kan hjelpe deg å gjøre alt om i en enkelt video og i HD!
Ved å bruke en enkel video kan du faktisk utføre alle oppgavene jeg nettopp nevnte i løpet av sekunder eller noen minutter for videoer av høy kvalitet. Du kan i utgangspunktet bruke den til alle videomanipulerings- eller videogenereringsapplikasjoner du har i tankene. Den utkonkurrerer til og med GAN-er på alle måter og bruker ikke noen fancy forskning med dyp læring og krever heller ikke et stort og upraktisk datasett!
Og det beste er at denne teknikken er skalerbar til høyoppløselige videoer...
Se videoen
Referanser
►Les hele artikkelen: https://www.louisbouchard.ai/vgpnn-ge…
►Papir dekket: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse generasjoner fra en enkelt video gjort mulig. ArXiv, abs/2109.08591.
►Teknikken som ble tilpasset fra bilder til videoer: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon og Michal Irani. Drop the gan: Til forsvar for patcher nærmeste naboer som enkeltbilde generative modeller. arXiv forhåndstrykk arXiv:2103.15545, 2021.
►Kode (tilgjengelig snart): https://nivha.github.io/vgpnn/
►Mitt nyhetsbrev (En ny AI-applikasjon blir ukentlig forklart til e-postene dine!): https://www.louisbouchard.ai/newsletter/
Videoutskrift
00:00
har du noen gang ønsket å redigere en video
00:02
fjerne eller legge til noen endre
00:04
bakgrunn får den til å vare litt lenger eller
00:06
endre oppløsningen for å passe til en bestemt
00:08
sideforhold uten å komprimere eller
00:10
strekker det for de av dere som
00:12
allerede kjørte reklamekampanjer du
00:14
absolutt ønsket å ha varianter av
00:16
videoene dine for ab-testing og se hva
00:19
fungerer best bra denne nye forskningen av niv
00:22
haim ital kan hjelpe deg med alt dette
00:24
ut av en enkelt video og i høy
00:27
definisjon faktisk ved hjelp av en enkel video
00:29
du kan utføre alle oppgaver jeg bare
00:32
nevnt i sekunder eller om noen minutter
00:34
for videoer av høy kvalitet kan du
00:36
i utgangspunktet bruke den for hvilken som helst video
00:38
manipulasjon eller videogenerering
00:40
søknad du har i tankene det selv
00:42
utkonkurrerer våpen på noen måter og gjør det ikke
00:45
bruke noen dyp læring fancy forskning heller
00:48
krever et stort og upraktisk datasett
00:51
og det beste er at dette
00:52
teknikken er skalerbar til høy oppløsning
00:55
videoer det er ikke bare for forskning
00:57
formål med 256 x 256 piksler videoer oh
01:01
og selvfølgelig kan du bruke det med bilder
01:04
la oss se hvordan det fungerer er modellen
01:06
kalt videobasert generativ patch
01:08
nærmeste naboer vgpnn i stedet for å bruke
01:11
komplekse algoritmer og modeller som gans
01:14
eller transformatorer forskerne som
01:16
utviklet vgpn velger en mye enklere
01:19
tilnærming, men besøkte den nærmeste
01:22
naboalgoritmen først nedskalerer de
01:24
bildet på en pyramide måte hvor hver
01:26
nivå er en blomst oppløsning enn
01:28
en over så legger de tilfeldig støy til
01:31
det groveste nivået for å generere en
01:33
annet bilde som ligner på hva våpen gjør
01:36
i det komprimerte rommet etter koding
01:38
bildet merk at her vil jeg si
01:40
bilde for enkelhets skyld, men i dette tilfellet
01:42
siden det er brukt på videoer prosessen
01:45
er laget på tre rammer samtidig
01:48
legge til en tidsdimensjon, men
01:49
forklaring forblir den samme med en ekstra
01:52
trinn på slutten bildet på
01:54
groveste skala med støy lagt er
01:56
delt inn i flere små firkanter
01:59
lapper alle lappene i bildet med
02:01
støy lagt er erstattet med de fleste
02:04
lignende oppdatering fra den opprinnelige skalerte
02:06
ned bilde uten støy dette mest
02:09
lignende lapp måles med
02:11
nærmeste nabo-algoritme som vi vil
02:13
se at de fleste av disse oppdateringene vil forbli
02:15
samme, men avhengig av den ekstra støyen
02:17
noen patcher vil endre akkurat nok til
02:19
få dem til å ligne mer på en annen
02:21
oppdatering i det første bildet er dette
02:24
vpn-utgang ser du her disse endringene
02:27
er akkurat nok til å generere en ny
02:29
versjon av bildet, så dette først
02:31
output oppskaleres og brukes til å sammenligne
02:34
med inngangsbildet til neste skala
02:36
å fungere som en støyende versjon av den og den
02:38
samme trinn gjentas i denne neste
02:41
iterasjon vi deler disse bildene inn i
02:43
små flekker og erstatte de tidligere
02:45
genererte de med de mest like
02:48
de på det nåværende trinnet, la oss komme inn på
02:50
denne vpn-modulen dekket vi nettopp som deg
02:53
kan se her den eneste forskjellen fra
02:55
det første trinnet med støy lagt til er
02:58
at vi sammenligner oppskaleringen som genereres
03:00
bilde her betegnet som q med en oppskalert
03:03
versjon av forrige bilde bare så det
03:06
har samme detaljnivå angitt som
03:09
k bruker i utgangspunktet nivået under som
03:12
sammenligninger sammenligner vi q og k og deretter
03:15
velg tilsvarende patcher i
03:17
bilde fra dette nåværende nivå v til
03:20
generere det nye bildet for dette trinnet
03:22
som skal brukes til neste
03:24
iterasjon som du ser her med det lille
03:26
arrows k er bare en eksklusiv versjon av
03:28
bildet vi laget nedskalering v in
03:31
det første trinnet i denne algoritmen hvor
03:33
vi laget den pyramideformede skaleringen
03:35
versjoner av vårt bilde dette er gjort til
03:38
sammenligne samme nivå av skarphet i
03:40
både bilder som oppskalere generert
03:42
bilde fra forrige lag q vil være
03:45
mye mer uskarpt enn bildet på
03:48
nåværende trinn v og det vil være veldig vanskelig
03:50
for å finne lignende oppdateringer gjentas dette
03:53
til vi kommer tilbake til toppen av
03:54
pyramide med høyoppløselige resultater
03:57
da er alle disse genererte oppdateringene
03:59
foldet sammen til en video og voila du kan
04:02
gjenta dette med forskjellige lyder eller
04:04
modifikasjoner for å generere eventuelle variasjoner
04:06
du vil ha på videoene dine, la oss gjøre en rask
04:09
oppsummering bildet er nedskalert ved
04:11
flere skalaer støy legges til
04:13
corsa skala bilde som er delt inn i
04:16
små firkantede flekker hver støyende lapp er
04:18
deretter erstattet med den mest like
04:20
patcher fra det samme komprimerte bildet
04:23
uten at støy forårsaker få tilfeldige endringer
04:26
i bildet mens begge deler er realistisk
04:28
det nylig genererte bildet og bildet
04:31
uten støy av dette trinnet oppskaleres
04:33
og sammenlignet med å finne den mest like
04:36
lapper med nærmeste nabo igjen
04:38
disse mest like lappene er da
04:40
valgt fra bildet for øyeblikket
04:42
oppløsning for å generere et nytt bilde for
04:45
trinnet igjen og vi gjentar dette
04:47
oppskalere og sammenligne trinn til vi
04:49
komme tilbake til toppen av pyramiden med
04:52
høyoppløselige resultater selvfølgelig
04:54
resultatene er ikke perfekte du kan fortsatt
04:56
se noen gjenstander som mennesker dukker opp
04:58
og forsvinner på rare steder eller
05:00
bare kopiere inn noen i noen
05:02
tilfeller gjør det veldig åpenbart hvis du
05:05
fokuser på det, men det er bare den første
05:07
papirangrep videomanipulasjoner med
05:09
den nærmeste naboalgoritmen og
05:11
gjør den skalerbar til høy oppløsning
05:13
videoer det er alltid fantastisk å se
05:15
forskjellige tilnærminger jeg er superspent
05:18
for å se den neste artikkelen bli bedre
05:20
denne er også resultatene stille
05:22
ganske imponerende og de kunne brukes
05:24
som et dataforsterkningsverktøy for modeller
05:26
jobber med videoer på grunn av deres svært lave
05:29
kjøretid slik at andre modeller kan trene
05:31
på større og mer varierte datasett
05:33
uten store kostnader hvis du er interessert
05:35
i å lære mer om denne teknikken i
05:37
vil sterkt anbefale å lese deres
05:38
papir det er den første lenken i
05:40
beskrivelse takk for at du så og
05:42
til alle som støtter arbeidet mitt
05:44
patreon eller ved å kommentere og like
05:46
videoer her på youtube
05:54
du
Engelsk (automatisk generert)
Alle
Nylig lastet opp
overvåket
Tags
Opprett din gratis konto for å låse opp din tilpassede leseopplevelse.
PlatonAi. Web3 Reimagined. Data Intelligence Amplified.
Klikk her for å få tilgang.