Heb je ooit een video willen bewerken om iemand te verwijderen of toe te voegen, de achtergrond te wijzigen, het iets langer te laten duren of de resolutie te wijzigen om in een specifieke beeldverhouding te passen zonder deze te comprimeren of uit te rekken? Voor degenen onder u die al advertentiecampagnes hebben uitgevoerd, u wilde zeker variaties van uw video's hebben voor AB-testen en kijken wat het beste werkt. Welnu, dit nieuwe onderzoek van Niv Haim et al. kan je helpen alles te doen in een enkele video en in HD! Inderdaad, met een eenvoudige video kun je alle taken die ik zojuist noemde in seconden of een paar minuten uitvoeren voor video's van hoge kwaliteit. Je kunt het in principe gebruiken voor elke videomanipulatie- of videogeneratietoepassing die je in gedachten hebt. Het presteert zelfs in alle opzichten beter dan GAN's en gebruikt geen fancy deep learning-onderzoek en vereist ook geen enorme en onpraktische dataset! En het beste is dat deze techniek schaalbaar is tot video's met een hoge resolutie
Heb je ooit een video willen bewerken om iemand te verwijderen of toe te voegen, de achtergrond te wijzigen, het iets langer te laten duren of de resolutie te wijzigen om in een specifieke beeldverhouding te passen zonder deze te comprimeren of uit te rekken? Voor degenen onder u die al advertentiecampagnes hebben uitgevoerd, u wilde zeker variaties van uw video's hebben voor AB-testen en kijken wat het beste werkt.
Welnu, dit nieuwe onderzoek van Niv Haim et al. kan je helpen alles te doen in een enkele video en in HD!
Inderdaad, met een eenvoudige video kun je alle taken die ik zojuist noemde in seconden of een paar minuten uitvoeren voor video's van hoge kwaliteit. Je kunt het in principe gebruiken voor elke videomanipulatie- of videogeneratietoepassing die je in gedachten hebt. Het presteert zelfs in alle opzichten beter dan GAN's en gebruikt geen fancy deep learning-onderzoek en vereist ook geen enorme en onpraktische dataset!
En het beste is dat deze techniek schaalbaar is tot video's met een hoge resolutie...
Bekijk de video
Referenties
►Lees het volledige artikel: https://www.louisbouchard.ai/vgpnn-ge…
►Met papier bedekt: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse generatie van een enkele video mogelijk gemaakt. ArXiv, abs/2109.08591.
►De techniek die is aangepast van afbeeldingen naar video's: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon en Michal Irani. Drop the gan: ter verdediging van patches die naaste buren zijn als generatieve modellen met één afbeelding. arXiv voordruk arXiv:2103.15545, 2021.
►Code (binnenkort beschikbaar): https://nivha.github.io/vgpnn/
►Mijn nieuwsbrief (een nieuwe AI-toepassing die wekelijks wordt uitgelegd aan uw e-mails!): https://www.louisbouchard.ai/newsletter/
Videotranscript
00:00
heb je ooit een video willen bewerken
00:02
iemand verwijderen of toevoegen wijzig de
00:04
achtergrond laat het wat langer meegaan of
00:06
verander de resolutie zodat deze bij een specifieke past
00:08
beeldverhouding zonder compressie of
00:10
het uitrekken voor degenen onder u die
00:12
heb je al advertentiecampagnes uitgevoerd
00:14
wilde zeker variaties van hebben
00:16
je video's voor ab-testen en kijk wat
00:19
werkt het beste goed dit nieuwe onderzoek van niv
00:22
haim ital kan je helpen om dit allemaal te doen
00:24
uit een enkele video en in high
00:27
definitie inderdaad met behulp van een eenvoudige video
00:29
je kunt alle taken uitvoeren die ik gewoon heb
00:32
vermeld in seconden of in een paar minuten
00:34
voor video's van hoge kwaliteit kun je
00:36
gebruik het in principe voor elke video
00:38
manipulatie of videogeneratie
00:40
applicatie die je in gedachten hebt, zelfs
00:42
presteert beter dan wapens op welke manier dan ook en doet dat niet
00:45
gebruik geen deep learning fancy research nor
00:48
vereist een enorme en onpraktische dataset
00:51
en het beste is dat dit
00:52
techniek is schaalbaar tot hoge resolutie
00:55
video's het is niet alleen voor onderzoek
00:57
doeleinden met video's van 256 bij 256 pixels oh
01:01
en natuurlijk kun je het gebruiken met afbeeldingen
01:04
laten we eens kijken hoe het werkt het model is
01:06
op video gebaseerde generatieve patch genoemd
01:08
naaste buren vgpnn in plaats van het gebruik van
01:11
complexe algoritmen en modellen zoals gans
01:14
of transformeert de onderzoekers die
01:16
ontwikkelde vgpn kiezen voor een veel eenvoudiger
01:19
naderen, maar de dichtstbijzijnde opnieuw bezocht
01:22
buuralgoritme eerst downscalen
01:24
het beeld op een piramide manier waar elk
01:26
niveau is een bloemresolutie dan de
01:28
één hierboven, dan voegen ze willekeurige ruis toe aan
01:31
het grofste niveau om een te genereren
01:33
ander beeld vergelijkbaar met wat geweren doen
01:36
in de gecomprimeerde ruimte na codering
01:38
de afbeelding nota dat ik hier zal zeggen
01:40
afbeelding voor de eenvoud, maar in dit geval
01:42
omdat het wordt toegepast op video's het proces
01:45
is gemaakt op drie frames tegelijk
01:48
een tijdsdimensie toevoegen, maar de
01:49
uitleg blijft hetzelfde met een extra
01:52
stap aan het einde de afbeelding bij de
01:54
grofste schaal met toegevoegde ruis is
01:56
verdeeld in meerdere kleine vierkante
01:59
patcht alle patches in de afbeelding met
02:01
toegevoegde ruis wordt vervangen door de meeste
02:04
soortgelijke patch van de eerste geschaald
02:06
down beeld zonder ruis dit meest
02:09
soortgelijke patch wordt gemeten met de
02:11
naaste buur algoritme zoals we zullen
02:13
zie de meeste van deze patches blijven de
02:15
hetzelfde maar afhankelijk van de toegevoegde ruis
02:17
sommige patches zullen net genoeg veranderen om
02:19
laat ze meer op elkaar lijken
02:21
patch in de eerste afbeelding dit is de
02:24
vpn output zie je hier deze veranderingen
02:27
zijn net genoeg om een nieuwe . te genereren
02:29
versie van de afbeelding dan eerst deze
02:31
output wordt opgeschaald en gebruikt om te vergelijken
02:34
met de invoerafbeelding van de volgende schaal
02:36
om op te treden als een luidruchtige versie ervan en de
02:38
dezelfde stappen worden herhaald in deze volgende
02:41
iteratie splitsen we deze afbeeldingen in
02:43
kleine patches en vervang de eerder
02:45
gegenereerde met de meest vergelijkbare
02:48
degenen bij de huidige stap laten we ingaan op
02:50
deze vpn-module hebben we net behandeld als jij
02:53
kan hier het enige verschil zien met
02:55
de eerste stap met toegevoegde ruis is
02:58
dat we de gegenereerde luxe vergelijken
03:00
afbeelding hier aangeduid als q met een opgeschaalde
03:03
versie van de vorige afbeelding, gewoon zo
03:06
heeft hetzelfde detailniveau aangeduid als
03:09
k gebruik in feite het onderstaande niveau als
03:12
vergelijkingen we vergelijken q en k en dan
03:15
selecteer overeenkomstige patches in de
03:17
afbeelding van dit huidige niveau v tot
03:20
genereer de nieuwe afbeelding voor deze stap
03:22
die zal worden gebruikt voor de volgende
03:24
iteratie zoals je hier ziet met de kleine
03:26
pijlen k is slechts een luxe versie van
03:28
de afbeelding die we hebben gemaakt om te verkleinen v in
03:31
de eerste stap van dit algoritme, waarbij:
03:33
we hebben de piramidale schaalverdeling gemaakt
03:35
versies van onze afbeelding dit is gedaan om
03:38
vergelijk hetzelfde scherpteniveau in
03:40
zowel afbeeldingen als de gegenereerde upscale
03:42
afbeelding van de vorige laag q zal zijn
03:45
veel waziger dan de afbeelding bij de
03:48
huidige stap v en het zal heel moeilijk zijn
03:50
om vergelijkbare patches te vinden, wordt dit herhaald
03:53
totdat we terug zijn bij de top van de
03:54
piramide met resultaten in hoge resolutie
03:57
dan zijn al deze gegenereerde patches:
03:59
gevouwen tot een video en voila dat kan
04:02
herhaal dit met verschillende geluiden of
04:04
aanpassingen om variaties te genereren
04:06
je wilt op je video's, laten we het snel doen
04:09
recap de afbeelding is verkleind op
04:11
meerdere schalen ruis wordt toegevoegd aan de
04:13
corsa schaal afbeelding die is onderverdeeld in
04:16
kleine vierkante patches elke luidruchtige patch is
04:18
dan vervangen door de meest vergelijkbare
04:20
patches van dezelfde gecomprimeerde afbeelding
04:23
zonder ruis die weinig willekeurige veranderingen veroorzaakt
04:26
in het beeld met behoud van realisme beide
04:28
de nieuw gegenereerde afbeelding en afbeelding
04:31
zonder ruis van deze stap worden opgeschaald
04:33
en vergeleken om de meest vergelijkbare te vinden
04:36
weer patchen met de dichtstbijzijnde buur
04:38
deze meest vergelijkbare patches zijn dan
04:40
gekozen uit de afbeelding bij de huidige
04:42
resolutie om een nieuwe afbeelding te genereren voor
04:45
de stap opnieuw en we herhalen dit
04:47
opschalen en vergelijken van stappen totdat we
04:49
ga terug naar de top van de piramide met
04:52
hoge resolutie resultaten natuurlijk de
04:54
resultaten zijn niet perfect, je kunt nog steeds
04:56
zie enkele artefacten zoals mensen die verschijnen
04:58
en verdwijnen op rare plekken of
05:00
gewoon iemand in iets kopiëren en plakken
05:02
gevallen waardoor het heel duidelijk wordt als je
05:05
focus erop, het is nog maar de eerste
05:07
papier aanvallende videomanipulaties met
05:09
het dichtstbijzijnde buuralgoritme en
05:11
waardoor het schaalbaar is naar hoge resolutie
05:13
video's altijd geweldig om te zien
05:15
verschillende benaderingen ik ben super enthousiast
05:18
om de volgende paper te zien verbeteren op
05:20
deze ook de resultaten zijn nog steeds
05:22
best indrukwekkend en ze kunnen worden gebruikt
05:24
als een hulpmiddel voor gegevensvergroting voor modellen
05:26
werken aan video's vanwege hun zeer lage
05:29
runtime waardoor andere modellen kunnen trainen
05:31
op grotere en meer diverse datasets
05:33
zonder veel kosten als je geïnteresseerd bent
05:35
om meer te leren over deze techniek i
05:37
zal het ten zeerste aanbevelen om hun . te lezen
05:38
papier het is de eerste link in de
05:40
beschrijving bedankt voor het kijken en
05:42
aan iedereen die mijn werk steunt op
05:44
patreon of door commentaar te geven en de . leuk te vinden
05:46
video's hier op youtube
05:54
u
Engels (automatisch gegenereerd)
Alles
Onlangs geüpload
Bekeken
Tags
Maak uw gratis account aan om uw persoonlijke leeservaring te ontgrendelen.
PlatoAi. Web3 opnieuw uitgevonden. Gegevensintelligentie versterkt.
Klik hier om toegang te krijgen.