Questa intelligenza artificiale esegue una manipolazione video senza interruzioni senza deep learning o set di dati

Ripubblicato da Platone

Data:

26 settembre 2021

Visualizzazioni: 505

Apri TLDR

Hai mai desiderato modificare un video per rimuovere o aggiungere qualcuno, cambiare lo sfondo, farlo durare un po' più a lungo o modificare la risoluzione per adattarlo a proporzioni specifiche senza comprimerlo o allungarlo? Per quelli di voi che hanno già eseguito campagne pubblicitarie, volevi sicuramente avere variazioni dei tuoi video per i test AB e vedere cosa funziona meglio. Ebbene, questa nuova ricerca di Niv Haim et al. può aiutarti a fare tutto in un unico video e in HD! In effetti, utilizzando un semplice video, puoi eseguire qualsiasi attività che ho appena menzionato in pochi secondi o pochi minuti per video di alta qualità. Puoi praticamente usarlo per qualsiasi applicazione di manipolazione video o generazione di video che hai in mente. Supera persino i GAN in tutti i modi e non utilizza alcuna ricerca fantasiosa di deep learning né richiede un set di dati enorme e poco pratico! E la cosa migliore è che questa tecnica è scalabile per video ad alta risoluzione

Immagine

Luigi Bouchard

Spiego i termini e le novità dell'Intelligenza Artificiale ai non esperti.

Hai mai desiderato modificare un video per rimuovere o aggiungere qualcuno, cambiare lo sfondo, farlo durare un po' più a lungo o modificare la risoluzione per adattarlo a proporzioni specifiche senza comprimerlo o allungarlo? Per quelli di voi che hanno già eseguito campagne pubblicitarie, volevi sicuramente avere variazioni dei tuoi video per i test AB e vedere cosa funziona meglio.

Ebbene, questa nuova ricerca di Niv Haim et al. può aiutarti a fare tutto in un unico video e in HD!

In effetti, utilizzando un semplice video, puoi eseguire qualsiasi attività che ho appena menzionato in pochi secondi o pochi minuti per video di alta qualità. Puoi praticamente usarlo per qualsiasi applicazione di manipolazione video o generazione di video che hai in mente. Supera persino i GAN in tutti i modi e non utilizza alcuna ricerca fantasiosa di deep learning né richiede un set di dati enorme e poco pratico!

E la cosa migliore è che questa tecnica è scalabile per video ad alta risoluzione...

Guarda il video

[Contenuto incorporato]

Riferimenti

► Leggi l'articolo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Carta coperta: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T. e Irani, M. (2021). Generazione diversa da un singolo video resa possibile. ArXiv, abs/2109.08591.
►La tecnica che è stata adattata dalle immagini ai video: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon e Michal Irani. Drop the gan: in difesa delle patch più vicine come modelli generativi di immagini singole. arXiv prestampa arXiv:2103.15545, 2021.
►Codice (disponibile a breve): https://nivha.github.io/vgpnn/
►My Newsletter (Una nuova applicazione AI spiegata settimanalmente alle tue e-mail!): https://www.louisbouchard.ai/newsletter/

Trascrizione video

00:00

hai mai desiderato modificare un video

00:02

rimuovi o aggiungi qualcuno cambia il

00:04

lo sfondo lo fa durare un po' più a lungo o

00:06

modificare la risoluzione per adattarla a uno specifico

00:08

proporzioni senza comprimere o

00:10

allungandolo per quelli di voi che

00:12

hai già eseguito campagne pubblicitarie

00:14

sicuramente voleva avere variazioni di

00:16

i tuoi video per il test addominali e guarda cosa

00:19

funziona meglio questa nuova ricerca di niv

00:22

haim ital può aiutarti a fare tutto questo

00:24

da un singolo video e in alto

00:27

definizione infatti utilizzando un semplice video

00:29

puoi eseguire qualsiasi attività che ho appena

00:32

menzionato in pochi secondi o in pochi minuti

00:34

per video di alta qualità puoi

00:36

praticamente usarlo per qualsiasi video

00:38

manipolazione o generazione di video

00:40

applicazione che hai in mente anche

00:42

supera le pistole in qualsiasi modo e non lo fa

00:45

utilizzare qualsiasi ricerca di fantasia di apprendimento profondo né

00:48

richiede un set di dati enorme e poco pratico

00:51

e la cosa migliore è che questo

00:52

la tecnica è scalabile ad alta risoluzione

00:55

video non è solo per la ricerca

00:57

scopi con video da 256 per 256 pixel oh

01:01

e ovviamente puoi usarlo con le immagini

01:04

vediamo come funziona il modello è

01:06

chiamata patch generativa basata su video

01:08

vicini più vicini vgpnn invece di usare

01:11

algoritmi e modelli complessi come gans

01:14

o trasforma i ricercatori che

01:16

sviluppato vgpn optare per un molto più semplice

01:19

approccio ma rivisitato il più vicino

01:22

algoritmo neighbor prima di ridimensionare

01:24

l'immagine in modo piramidale in cui ciascuno

01:26

il livello è una risoluzione floreale rispetto al

01:28

uno sopra poi aggiungono rumore casuale a

01:31

il livello più grossolano per generare a

01:33

immagine diversa simile a quella che fanno le pistole

01:36

nello spazio compresso dopo la codifica

01:38

l'immagine nota che qui dirò

01:40

immagine per semplicità ma in questo caso

01:42

poiché è applicato ai video il processo

01:45

è realizzato su tre telai contemporaneamente

01:48

aggiungendo una dimensione temporale ma il

01:49

la spiegazione rimane la stessa con un extra

01:52

passo alla fine l'immagine al

01:54

la scala più grossolana con il rumore aggiunto è

01:56

suddiviso in più piazzette

01:59

patch tutte le patch nell'immagine con

02:01

il rumore aggiunto viene sostituito con il massimo

02:04

patch simile dal ridimensionato iniziale

02:06

giù l'immagine senza rumore questo più

02:09

patch simile è misurato con il

02:11

algoritmo del vicino più vicino come faremo noi

02:13

vedere la maggior parte di queste patch rimarranno

02:15

lo stesso ma a seconda del rumore aggiunto

02:17

alcune patch cambieranno quanto basta

02:19

farli sembrare più simili a un altro

02:21

patch nell'immagine iniziale questo è il

02:24

vpn output qui vedi queste modifiche

02:27

sono appena sufficienti per generarne una nuova

02:29

versione dell'immagine, quindi questa prima

02:31

l'output viene aumentato e utilizzato per il confronto

02:34

con l'immagine di input della scala successiva

02:36

agire come una versione rumorosa di esso e il

02:38

gli stessi passaggi vengono ripetuti in questo successivo

02:41

iterazione in cui abbiamo suddiviso queste immagini

02:43

piccole macchie e sostituire la precedente

02:45

quelli generati con i più simili

02:48

quelli al passaggio corrente entriamo

02:50

questo modulo VPN abbiamo appena coperto come te

02:53

può vedere qui l'unica differenza da

02:55

il passo iniziale con il rumore aggiunto è

02:58

che confrontiamo il lusso generato

03:00

immagine qui indicata come q con un upscaling

03:03

versione dell'immagine precedente solo così

03:06

ha lo stesso livello di dettagli indicato come

03:09

k fondamentalmente usando il livello sottostante come

03:12

confronti confrontiamo qek e poi

03:15

selezionare le patch corrispondenti in

03:17

immagine da questo livello attuale v a

03:20

generare la nuova immagine per questo passaggio

03:22

che sarà utilizzato per il prossimo

03:24

iterazione come vedi qui con il piccolo

03:26

arrows k è solo una versione di alto livello di

03:28

l'immagine che abbiamo creato ridimensionando v in

03:31

il passo iniziale di questo algoritmo dove

03:33

abbiamo creato il ridimensionamento piramidale

03:35

versioni della nostra immagine questo è fatto a

03:38

confrontare lo stesso livello di nitidezza in

03:40

entrambe le immagini come l'upscaling generato

03:42

sarà l'immagine del livello precedente q

03:45

molto più sfocato dell'immagine al

03:48

corrente passaggio v e sarà molto difficile

03:50

per trovare patch simili questo viene ripetuto

03:53

fino a quando non torniamo in cima alla

03:54

piramide con risultati ad alta risoluzione

03:57

allora tutte queste patch generate lo sono

03:59

piegato in un video e voilà puoi

04:02

ripetere questo con diversi rumori o

04:04

modifiche per generare eventuali variazioni

04:06

vuoi sui tuoi video facciamo un veloce

04:09

ricapitolare l'immagine è ridimensionata

04:11

il rumore di più scale viene aggiunto al

04:13

immagine in scala corsa che è divisa in

04:16

piccole patch quadrate ogni patch rumorosa è

04:18

poi sostituito con il più simile

04:20

patch dalla stessa immagine compressa

04:23

senza rumore che causa pochi cambiamenti casuali

04:26

nell'immagine mantenendo il realismo entrambi

04:28

l'immagine e l'immagine appena generate

04:31

senza rumore di questo passaggio vengono aumentati

04:33

e confrontato per trovare il più simile

04:36

patch con il vicino più vicino di nuovo

04:38

queste patch più simili sono quindi

04:40

scelto dall'immagine attuale

04:42

risoluzione per generare una nuova immagine

04:45

il passaggio di nuovo e lo ripetiamo

04:47

upscaling e confronto dei passaggi fino a quando non abbiamo

04:49

tornare in cima alla piramide con

04:52

risultati ad alta risoluzione ovviamente il

04:54

i risultati non sono perfetti puoi ancora

04:56

vedere alcuni artefatti come persone che appaiono

04:58

e scomparendo in posti strani o

05:00

semplicemente copiando e incollando qualcuno in alcuni

05:02

casi che lo rendono molto ovvio se tu

05:05

concentrati su di esso ancora è solo il primo

05:07

manipolazioni video che attaccano la carta

05:09

l'algoritmo del vicino più vicino e

05:11

rendendolo scalabile ad alta risoluzione

05:13

video è sempre fantastico da vedere

05:15

approcci diversi sono super eccitato

05:18

per vedere il prossimo documento migliorare

05:20

anche questo i risultati sono ancora

05:22

abbastanza impressionante e potrebbero essere usati

05:24

come strumento di aumento dei dati per i modelli

05:26

lavorando sui video a causa del loro molto basso

05:29

tempo di esecuzione che consente ad altri modelli di allenarsi

05:31

su set di dati più ampi e diversificati

05:33

senza molto costo se sei interessato

05:35

per saperne di più su questa tecnica i

05:37

consiglio vivamente di leggere il loro

05:38

carta è il primo collegamento nel

05:40

descrizione grazie per la visione e

05:42

a tutti coloro che sostengono il mio lavoro

05:44

patreon o commentando e mettendo mi piace a

05:46

video qui su youtube

05:54

Tu

Inglese (generato automaticamente)

Tutti

Caricato di recente

Seguiti

tag

Iscriviti a Hacker Noon

Crea il tuo account gratuito per sbloccare la tua esperienza di lettura personalizzata.

Platone Ai. Web3 reinventato. Intelligenza dei dati amplificata.
Clicca qui per accedere.

Fonte: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

spot_img

L'ultima intelligenza

spot_img