Hai mai desiderato modificare un video per rimuovere o aggiungere qualcuno, cambiare lo sfondo, farlo durare un po' più a lungo o modificare la risoluzione per adattarlo a proporzioni specifiche senza comprimerlo o allungarlo? Per quelli di voi che hanno già eseguito campagne pubblicitarie, volevi sicuramente avere variazioni dei tuoi video per i test AB e vedere cosa funziona meglio. Ebbene, questa nuova ricerca di Niv Haim et al. può aiutarti a fare tutto in un unico video e in HD! In effetti, utilizzando un semplice video, puoi eseguire qualsiasi attività che ho appena menzionato in pochi secondi o pochi minuti per video di alta qualità. Puoi praticamente usarlo per qualsiasi applicazione di manipolazione video o generazione di video che hai in mente. Supera persino i GAN in tutti i modi e non utilizza alcuna ricerca fantasiosa di deep learning né richiede un set di dati enorme e poco pratico! E la cosa migliore è che questa tecnica è scalabile per video ad alta risoluzione
Hai mai desiderato modificare un video per rimuovere o aggiungere qualcuno, cambiare lo sfondo, farlo durare un po' più a lungo o modificare la risoluzione per adattarlo a proporzioni specifiche senza comprimerlo o allungarlo? Per quelli di voi che hanno già eseguito campagne pubblicitarie, volevi sicuramente avere variazioni dei tuoi video per i test AB e vedere cosa funziona meglio.
Ebbene, questa nuova ricerca di Niv Haim et al. può aiutarti a fare tutto in un unico video e in HD!
In effetti, utilizzando un semplice video, puoi eseguire qualsiasi attività che ho appena menzionato in pochi secondi o pochi minuti per video di alta qualità. Puoi praticamente usarlo per qualsiasi applicazione di manipolazione video o generazione di video che hai in mente. Supera persino i GAN in tutti i modi e non utilizza alcuna ricerca fantasiosa di deep learning né richiede un set di dati enorme e poco pratico!
E la cosa migliore è che questa tecnica è scalabile per video ad alta risoluzione...
Guarda il video
Riferimenti
► Leggi l'articolo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Carta coperta: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T. e Irani, M. (2021). Generazione diversa da un singolo video resa possibile. ArXiv, abs/2109.08591.
►La tecnica che è stata adattata dalle immagini ai video: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon e Michal Irani. Drop the gan: in difesa delle patch più vicine come modelli generativi di immagini singole. arXiv prestampa arXiv:2103.15545, 2021.
►Codice (disponibile a breve): https://nivha.github.io/vgpnn/
►My Newsletter (Una nuova applicazione AI spiegata settimanalmente alle tue e-mail!): https://www.louisbouchard.ai/newsletter/
Trascrizione video
00:00
hai mai desiderato modificare un video
00:02
rimuovi o aggiungi qualcuno cambia il
00:04
lo sfondo lo fa durare un po' più a lungo o
00:06
modificare la risoluzione per adattarla a uno specifico
00:08
proporzioni senza comprimere o
00:10
allungandolo per quelli di voi che
00:12
hai già eseguito campagne pubblicitarie
00:14
sicuramente voleva avere variazioni di
00:16
i tuoi video per il test addominali e guarda cosa
00:19
funziona meglio questa nuova ricerca di niv
00:22
haim ital può aiutarti a fare tutto questo
00:24
da un singolo video e in alto
00:27
definizione infatti utilizzando un semplice video
00:29
puoi eseguire qualsiasi attività che ho appena
00:32
menzionato in pochi secondi o in pochi minuti
00:34
per video di alta qualità puoi
00:36
praticamente usarlo per qualsiasi video
00:38
manipolazione o generazione di video
00:40
applicazione che hai in mente anche
00:42
supera le pistole in qualsiasi modo e non lo fa
00:45
utilizzare qualsiasi ricerca di fantasia di apprendimento profondo né
00:48
richiede un set di dati enorme e poco pratico
00:51
e la cosa migliore è che questo
00:52
la tecnica è scalabile ad alta risoluzione
00:55
video non è solo per la ricerca
00:57
scopi con video da 256 per 256 pixel oh
01:01
e ovviamente puoi usarlo con le immagini
01:04
vediamo come funziona il modello è
01:06
chiamata patch generativa basata su video
01:08
vicini più vicini vgpnn invece di usare
01:11
algoritmi e modelli complessi come gans
01:14
o trasforma i ricercatori che
01:16
sviluppato vgpn optare per un molto più semplice
01:19
approccio ma rivisitato il più vicino
01:22
algoritmo neighbor prima di ridimensionare
01:24
l'immagine in modo piramidale in cui ciascuno
01:26
il livello è una risoluzione floreale rispetto al
01:28
uno sopra poi aggiungono rumore casuale a
01:31
il livello più grossolano per generare a
01:33
immagine diversa simile a quella che fanno le pistole
01:36
nello spazio compresso dopo la codifica
01:38
l'immagine nota che qui dirò
01:40
immagine per semplicità ma in questo caso
01:42
poiché è applicato ai video il processo
01:45
è realizzato su tre telai contemporaneamente
01:48
aggiungendo una dimensione temporale ma il
01:49
la spiegazione rimane la stessa con un extra
01:52
passo alla fine l'immagine al
01:54
la scala più grossolana con il rumore aggiunto è
01:56
suddiviso in più piazzette
01:59
patch tutte le patch nell'immagine con
02:01
il rumore aggiunto viene sostituito con il massimo
02:04
patch simile dal ridimensionato iniziale
02:06
giù l'immagine senza rumore questo più
02:09
patch simile è misurato con il
02:11
algoritmo del vicino più vicino come faremo noi
02:13
vedere la maggior parte di queste patch rimarranno
02:15
lo stesso ma a seconda del rumore aggiunto
02:17
alcune patch cambieranno quanto basta
02:19
farli sembrare più simili a un altro
02:21
patch nell'immagine iniziale questo è il
02:24
vpn output qui vedi queste modifiche
02:27
sono appena sufficienti per generarne una nuova
02:29
versione dell'immagine, quindi questa prima
02:31
l'output viene aumentato e utilizzato per il confronto
02:34
con l'immagine di input della scala successiva
02:36
agire come una versione rumorosa di esso e il
02:38
gli stessi passaggi vengono ripetuti in questo successivo
02:41
iterazione in cui abbiamo suddiviso queste immagini
02:43
piccole macchie e sostituire la precedente
02:45
quelli generati con i più simili
02:48
quelli al passaggio corrente entriamo
02:50
questo modulo VPN abbiamo appena coperto come te
02:53
può vedere qui l'unica differenza da
02:55
il passo iniziale con il rumore aggiunto è
02:58
che confrontiamo il lusso generato
03:00
immagine qui indicata come q con un upscaling
03:03
versione dell'immagine precedente solo così
03:06
ha lo stesso livello di dettagli indicato come
03:09
k fondamentalmente usando il livello sottostante come
03:12
confronti confrontiamo qek e poi
03:15
selezionare le patch corrispondenti in
03:17
immagine da questo livello attuale v a
03:20
generare la nuova immagine per questo passaggio
03:22
che sarà utilizzato per il prossimo
03:24
iterazione come vedi qui con il piccolo
03:26
arrows k è solo una versione di alto livello di
03:28
l'immagine che abbiamo creato ridimensionando v in
03:31
il passo iniziale di questo algoritmo dove
03:33
abbiamo creato il ridimensionamento piramidale
03:35
versioni della nostra immagine questo è fatto a
03:38
confrontare lo stesso livello di nitidezza in
03:40
entrambe le immagini come l'upscaling generato
03:42
sarà l'immagine del livello precedente q
03:45
molto più sfocato dell'immagine al
03:48
corrente passaggio v e sarà molto difficile
03:50
per trovare patch simili questo viene ripetuto
03:53
fino a quando non torniamo in cima alla
03:54
piramide con risultati ad alta risoluzione
03:57
allora tutte queste patch generate lo sono
03:59
piegato in un video e voilà puoi
04:02
ripetere questo con diversi rumori o
04:04
modifiche per generare eventuali variazioni
04:06
vuoi sui tuoi video facciamo un veloce
04:09
ricapitolare l'immagine è ridimensionata
04:11
il rumore di più scale viene aggiunto al
04:13
immagine in scala corsa che è divisa in
04:16
piccole patch quadrate ogni patch rumorosa è
04:18
poi sostituito con il più simile
04:20
patch dalla stessa immagine compressa
04:23
senza rumore che causa pochi cambiamenti casuali
04:26
nell'immagine mantenendo il realismo entrambi
04:28
l'immagine e l'immagine appena generate
04:31
senza rumore di questo passaggio vengono aumentati
04:33
e confrontato per trovare il più simile
04:36
patch con il vicino più vicino di nuovo
04:38
queste patch più simili sono quindi
04:40
scelto dall'immagine attuale
04:42
risoluzione per generare una nuova immagine
04:45
il passaggio di nuovo e lo ripetiamo
04:47
upscaling e confronto dei passaggi fino a quando non abbiamo
04:49
tornare in cima alla piramide con
04:52
risultati ad alta risoluzione ovviamente il
04:54
i risultati non sono perfetti puoi ancora
04:56
vedere alcuni artefatti come persone che appaiono
04:58
e scomparendo in posti strani o
05:00
semplicemente copiando e incollando qualcuno in alcuni
05:02
casi che lo rendono molto ovvio se tu
05:05
concentrati su di esso ancora è solo il primo
05:07
manipolazioni video che attaccano la carta
05:09
l'algoritmo del vicino più vicino e
05:11
rendendolo scalabile ad alta risoluzione
05:13
video è sempre fantastico da vedere
05:15
approcci diversi sono super eccitato
05:18
per vedere il prossimo documento migliorare
05:20
anche questo i risultati sono ancora
05:22
abbastanza impressionante e potrebbero essere usati
05:24
come strumento di aumento dei dati per i modelli
05:26
lavorando sui video a causa del loro molto basso
05:29
tempo di esecuzione che consente ad altri modelli di allenarsi
05:31
su set di dati più ampi e diversificati
05:33
senza molto costo se sei interessato
05:35
per saperne di più su questa tecnica i
05:37
consiglio vivamente di leggere il loro
05:38
carta è il primo collegamento nel
05:40
descrizione grazie per la visione e
05:42
a tutti coloro che sostengono il mio lavoro
05:44
patreon o commentando e mettendo mi piace a
05:46
video qui su youtube
05:54
Tu
Inglese (generato automaticamente)
Tutti
Caricato di recente
Seguiti
tag
Crea il tuo account gratuito per sbloccare la tua esperienza di lettura personalizzata.
Platone Ai. Web3 reinventato. Intelligenza dei dati amplificata.
Clicca qui per accedere.