Zephyrnet-logo

Deze AI voert naadloze videomanipulatie uit zonder diepgaand leren of datasets

Datum:

Heb je ooit een video willen bewerken om iemand te verwijderen of toe te voegen, de achtergrond te wijzigen, het iets langer te laten duren of de resolutie te wijzigen om in een specifieke beeldverhouding te passen zonder deze te comprimeren of uit te rekken? Voor degenen onder u die al advertentiecampagnes hebben uitgevoerd, u wilde zeker variaties van uw video's hebben voor AB-testen en kijken wat het beste werkt. Welnu, dit nieuwe onderzoek van Niv Haim et al. kan je helpen alles te doen in een enkele video en in HD! Inderdaad, met een eenvoudige video kun je alle taken die ik zojuist noemde in seconden of een paar minuten uitvoeren voor video's van hoge kwaliteit. Je kunt het in principe gebruiken voor elke videomanipulatie- of videogeneratietoepassing die je in gedachten hebt. Het presteert zelfs in alle opzichten beter dan GAN's en gebruikt geen fancy deep learning-onderzoek en vereist ook geen enorme en onpraktische dataset! En het beste is dat deze techniek schaalbaar is tot video's met een hoge resolutie

beeld

Louis Bouchard Hacker Noon profielfoto

Louis Bouchard

Ik leg termen en nieuws over kunstmatige intelligentie uit aan niet-experts.

Heb je ooit een video willen bewerken om iemand te verwijderen of toe te voegen, de achtergrond te wijzigen, het iets langer te laten duren of de resolutie te wijzigen om in een specifieke beeldverhouding te passen zonder deze te comprimeren of uit te rekken? Voor degenen onder u die al advertentiecampagnes hebben uitgevoerd, u wilde zeker variaties van uw video's hebben voor AB-testen en kijken wat het beste werkt.

Welnu, dit nieuwe onderzoek van Niv Haim et al. kan je helpen alles te doen in een enkele video en in HD!

Inderdaad, met een eenvoudige video kun je alle taken die ik zojuist noemde in seconden of een paar minuten uitvoeren voor video's van hoge kwaliteit. Je kunt het in principe gebruiken voor elke videomanipulatie- of videogeneratietoepassing die je in gedachten hebt. Het presteert zelfs in alle opzichten beter dan GAN's en gebruikt geen fancy deep learning-onderzoek en vereist ook geen enorme en onpraktische dataset!

En het beste is dat deze techniek schaalbaar is tot video's met een hoge resolutie...

Bekijk de video

Referenties

►Lees het volledige artikel: https://www.louisbouchard.ai/vgpnn-ge…
►Met papier bedekt: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse generatie van een enkele video mogelijk gemaakt. ArXiv, abs/2109.08591.
►De techniek die is aangepast van afbeeldingen naar video's: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon en Michal Irani. Drop the gan: ter verdediging van patches die naaste buren zijn als generatieve modellen met één afbeelding. arXiv voordruk arXiv:2103.15545, 2021.
►Code (binnenkort beschikbaar): https://nivha.github.io/vgpnn/
►Mijn nieuwsbrief (een nieuwe AI-toepassing die wekelijks wordt uitgelegd aan uw e-mails!): https://www.louisbouchard.ai/newsletter/

Videotranscript

00:00

heb je ooit een video willen bewerken

00:02

iemand verwijderen of toevoegen wijzig de

00:04

achtergrond laat het wat langer meegaan of

00:06

verander de resolutie zodat deze bij een specifieke past

00:08

beeldverhouding zonder compressie of

00:10

het uitrekken voor degenen onder u die

00:12

heb je al advertentiecampagnes uitgevoerd

00:14

wilde zeker variaties van hebben

00:16

je video's voor ab-testen en kijk wat

00:19

werkt het beste goed dit nieuwe onderzoek van niv

00:22

haim ital kan je helpen om dit allemaal te doen

00:24

uit een enkele video en in high

00:27

definitie inderdaad met behulp van een eenvoudige video

00:29

je kunt alle taken uitvoeren die ik gewoon heb

00:32

vermeld in seconden of in een paar minuten

00:34

voor video's van hoge kwaliteit kun je

00:36

gebruik het in principe voor elke video

00:38

manipulatie of videogeneratie

00:40

applicatie die je in gedachten hebt, zelfs

00:42

presteert beter dan wapens op welke manier dan ook en doet dat niet

00:45

gebruik geen deep learning fancy research nor

00:48

vereist een enorme en onpraktische dataset

00:51

en het beste is dat dit

00:52

techniek is schaalbaar tot hoge resolutie

00:55

video's het is niet alleen voor onderzoek

00:57

doeleinden met video's van 256 bij 256 pixels oh

01:01

en natuurlijk kun je het gebruiken met afbeeldingen

01:04

laten we eens kijken hoe het werkt het model is

01:06

op video gebaseerde generatieve patch genoemd

01:08

naaste buren vgpnn in plaats van het gebruik van

01:11

complexe algoritmen en modellen zoals gans

01:14

of transformeert de onderzoekers die

01:16

ontwikkelde vgpn kiezen voor een veel eenvoudiger

01:19

naderen, maar de dichtstbijzijnde opnieuw bezocht

01:22

buuralgoritme eerst downscalen

01:24

het beeld op een piramide manier waar elk

01:26

niveau is een bloemresolutie dan de

01:28

één hierboven, dan voegen ze willekeurige ruis toe aan

01:31

het grofste niveau om een ​​te genereren

01:33

ander beeld vergelijkbaar met wat geweren doen

01:36

in de gecomprimeerde ruimte na codering

01:38

de afbeelding nota dat ik hier zal zeggen

01:40

afbeelding voor de eenvoud, maar in dit geval

01:42

omdat het wordt toegepast op video's het proces

01:45

is gemaakt op drie frames tegelijk

01:48

een tijdsdimensie toevoegen, maar de

01:49

uitleg blijft hetzelfde met een extra

01:52

stap aan het einde de afbeelding bij de

01:54

grofste schaal met toegevoegde ruis is

01:56

verdeeld in meerdere kleine vierkante

01:59

patcht alle patches in de afbeelding met

02:01

toegevoegde ruis wordt vervangen door de meeste

02:04

soortgelijke patch van de eerste geschaald

02:06

down beeld zonder ruis dit meest

02:09

soortgelijke patch wordt gemeten met de

02:11

naaste buur algoritme zoals we zullen

02:13

zie de meeste van deze patches blijven de

02:15

hetzelfde maar afhankelijk van de toegevoegde ruis

02:17

sommige patches zullen net genoeg veranderen om

02:19

laat ze meer op elkaar lijken

02:21

patch in de eerste afbeelding dit is de

02:24

vpn output zie je hier deze veranderingen

02:27

zijn net genoeg om een ​​nieuwe . te genereren

02:29

versie van de afbeelding dan eerst deze

02:31

output wordt opgeschaald en gebruikt om te vergelijken

02:34

met de invoerafbeelding van de volgende schaal

02:36

om op te treden als een luidruchtige versie ervan en de

02:38

dezelfde stappen worden herhaald in deze volgende

02:41

iteratie splitsen we deze afbeeldingen in

02:43

kleine patches en vervang de eerder

02:45

gegenereerde met de meest vergelijkbare

02:48

degenen bij de huidige stap laten we ingaan op

02:50

deze vpn-module hebben we net behandeld als jij

02:53

kan hier het enige verschil zien met

02:55

de eerste stap met toegevoegde ruis is

02:58

dat we de gegenereerde luxe vergelijken

03:00

afbeelding hier aangeduid als q met een opgeschaalde

03:03

versie van de vorige afbeelding, gewoon zo

03:06

heeft hetzelfde detailniveau aangeduid als

03:09

k gebruik in feite het onderstaande niveau als

03:12

vergelijkingen we vergelijken q en k en dan

03:15

selecteer overeenkomstige patches in de

03:17

afbeelding van dit huidige niveau v tot

03:20

genereer de nieuwe afbeelding voor deze stap

03:22

die zal worden gebruikt voor de volgende

03:24

iteratie zoals je hier ziet met de kleine

03:26

pijlen k is slechts een luxe versie van

03:28

de afbeelding die we hebben gemaakt om te verkleinen v in

03:31

de eerste stap van dit algoritme, waarbij:

03:33

we hebben de piramidale schaalverdeling gemaakt

03:35

versies van onze afbeelding dit is gedaan om

03:38

vergelijk hetzelfde scherpteniveau in

03:40

zowel afbeeldingen als de gegenereerde upscale

03:42

afbeelding van de vorige laag q zal zijn

03:45

veel waziger dan de afbeelding bij de

03:48

huidige stap v en het zal heel moeilijk zijn

03:50

om vergelijkbare patches te vinden, wordt dit herhaald

03:53

totdat we terug zijn bij de top van de

03:54

piramide met resultaten in hoge resolutie

03:57

dan zijn al deze gegenereerde patches:

03:59

gevouwen tot een video en voila dat kan

04:02

herhaal dit met verschillende geluiden of

04:04

aanpassingen om variaties te genereren

04:06

je wilt op je video's, laten we het snel doen

04:09

recap de afbeelding is verkleind op

04:11

meerdere schalen ruis wordt toegevoegd aan de

04:13

corsa schaal afbeelding die is onderverdeeld in

04:16

kleine vierkante patches elke luidruchtige patch is

04:18

dan vervangen door de meest vergelijkbare

04:20

patches van dezelfde gecomprimeerde afbeelding

04:23

zonder ruis die weinig willekeurige veranderingen veroorzaakt

04:26

in het beeld met behoud van realisme beide

04:28

de nieuw gegenereerde afbeelding en afbeelding

04:31

zonder ruis van deze stap worden opgeschaald

04:33

en vergeleken om de meest vergelijkbare te vinden

04:36

weer patchen met de dichtstbijzijnde buur

04:38

deze meest vergelijkbare patches zijn dan

04:40

gekozen uit de afbeelding bij de huidige

04:42

resolutie om een ​​nieuwe afbeelding te genereren voor

04:45

de stap opnieuw en we herhalen dit

04:47

opschalen en vergelijken van stappen totdat we

04:49

ga terug naar de top van de piramide met

04:52

hoge resolutie resultaten natuurlijk de

04:54

resultaten zijn niet perfect, je kunt nog steeds

04:56

zie enkele artefacten zoals mensen die verschijnen

04:58

en verdwijnen op rare plekken of

05:00

gewoon iemand in iets kopiëren en plakken

05:02

gevallen waardoor het heel duidelijk wordt als je

05:05

focus erop, het is nog maar de eerste

05:07

papier aanvallende videomanipulaties met

05:09

het dichtstbijzijnde buuralgoritme en

05:11

waardoor het schaalbaar is naar hoge resolutie

05:13

video's altijd geweldig om te zien

05:15

verschillende benaderingen ik ben super enthousiast

05:18

om de volgende paper te zien verbeteren op

05:20

deze ook de resultaten zijn nog steeds

05:22

best indrukwekkend en ze kunnen worden gebruikt

05:24

als een hulpmiddel voor gegevensvergroting voor modellen

05:26

werken aan video's vanwege hun zeer lage

05:29

runtime waardoor andere modellen kunnen trainen

05:31

op grotere en meer diverse datasets

05:33

zonder veel kosten als je geïnteresseerd bent

05:35

om meer te leren over deze techniek i

05:37

zal het ten zeerste aanbevelen om hun . te lezen

05:38

papier het is de eerste link in de

05:40

beschrijving bedankt voor het kijken en

05:42

aan iedereen die mijn werk steunt op

05:44

patreon of door commentaar te geven en de . leuk te vinden

05:46

video's hier op youtube

05:54

u

Engels (automatisch gegenereerd)

Alles

Onlangs geüpload

Bekeken

Tags

Doe mee met Hacker Noon

Maak uw gratis account aan om uw persoonlijke leeservaring te ontgrendelen.

PlatoAi. Web3 opnieuw uitgevonden. Gegevensintelligentie versterkt.
Klik hier om toegang te krijgen.

Bron: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?