Você já quis editar um vídeo para remover ou adicionar alguém, alterar o plano de fundo, fazê-lo durar um pouco mais ou alterar a resolução para se adequar a uma proporção específica sem comprimi-la ou esticá-la? Para aqueles que já fizeram campanhas publicitárias, certamente gostariam de ter variações de seus vídeos para testes AB e ver o que funciona melhor. Bem, esta nova pesquisa de Niv Haim et al. pode ajudá-lo a fazer tudo em um único vídeo e em HD! De fato, usando um vídeo simples, você pode executar qualquer tarefa que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Basicamente, você pode usá-lo para qualquer manipulação de vídeo ou aplicativo de geração de vídeo que tenha em mente. Ele até supera os GANs em todos os aspectos e não usa nenhuma pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável! E o melhor é que essa técnica é escalável para vídeos de alta resolução
Você já quis editar um vídeo para remover ou adicionar alguém, alterar o plano de fundo, fazê-lo durar um pouco mais ou alterar a resolução para se adequar a uma proporção específica sem comprimi-la ou esticá-la? Para aqueles que já fizeram campanhas publicitárias, certamente gostariam de ter variações de seus vídeos para testes AB e ver o que funciona melhor.
Bem, esta nova pesquisa de Niv Haim et al. pode ajudá-lo a fazer tudo em um único vídeo e em HD!
De fato, usando um vídeo simples, você pode executar qualquer tarefa que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Basicamente, você pode usá-lo para qualquer manipulação de vídeo ou aplicativo de geração de vídeo que tenha em mente. Ele até supera os GANs em todos os aspectos e não usa nenhuma pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável!
E o melhor é que essa técnica é escalável para vídeos de alta resolução…
Assista ao vídeo
Referências
►Leia o artigo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Papel coberto: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Geração diversificada a partir de um único vídeo possível. ArXiv, abs/2109.08591.
►A técnica que foi adaptada de imagens para vídeos: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon e Michal Irani. Largue o gan: Em defesa de patches vizinhos mais próximos como modelos geradores de imagem única. arXiv pré-impressão arXiv:2103.15545, 2021.
►Código (disponível em breve): https://nivha.github.io/vgpnn/
►Minha newsletter (um novo aplicativo de IA explicado semanalmente em seus e-mails!): https://www.louisbouchard.ai/newsletter/
Transcrição de vídeo
00:00
você já quis editar um vídeo
00:02
remover ou adicionar alguém alterar o
00:04
fundo faz com que dure um pouco mais ou
00:06
alterar a resolução para se adequar a um determinado
00:08
proporção de aspecto sem comprimir ou
00:10
esticando-o para aqueles de vocês que
00:12
já executou campanhas publicitárias que você
00:14
certamente queria ter variações de
00:16
seus vídeos para testes abdominais e veja o que
00:19
funciona melhor esta nova pesquisa por niv
00:22
hai ital pode ajudá-lo a fazer tudo isso
00:24
de um único vídeo e em alta
00:27
definição de fato usando um vídeo simples
00:29
você pode executar qualquer tarefa que eu apenas
00:32
mencionado em segundos ou em poucos minutos
00:34
para vídeos de alta qualidade, você pode
00:36
basicamente usá-lo para qualquer vídeo
00:38
manipulação ou geração de vídeo
00:40
aplicativo que você tem em mente mesmo
00:42
supera as armas de todas as maneiras e não
00:45
usar qualquer pesquisa sofisticada de aprendizado profundo nem
00:48
requer um conjunto de dados enorme e impraticável
00:51
e o melhor é que isso
00:52
técnica é escalável para alta resolução
00:55
vídeos não é apenas para pesquisa
00:57
propósitos com vídeos de 256 por 256 pixels oh
01:01
e é claro que você pode usá-lo com imagens
01:04
vamos ver como funciona o modelo é
01:06
chamado patch generativo baseado em vídeo
01:08
vizinhos mais próximos vgpnn em vez de usar
01:11
algoritmos e modelos complexos como gans
01:14
ou transformadores dos pesquisadores que
01:16
vgpn desenvolvido opte por um muito mais simples
01:19
abordagem, mas revisitou o mais próximo
01:22
algoritmo vizinho primeiro eles reduzem a escala
01:24
a imagem em forma de pirâmide onde cada
01:26
nível é uma resolução de flor do que o
01:28
um acima, então eles adicionam ruído aleatório a
01:31
o nível mais grosseiro para gerar um
01:33
imagem diferente semelhante ao que as armas fazem
01:36
no espaço compactado após a codificação
01:38
a imagem note que aqui vou dizer
01:40
imagem por simplicidade, mas neste caso
01:42
uma vez que é aplicado aos vídeos o processo
01:45
é feito em três quadros simultaneamente
01:48
adicionando uma dimensão de tempo, mas o
01:49
explicação permanece a mesma com um extra
01:52
passo no final da imagem no
01:54
escala mais grosseira com ruído adicionado é
01:56
dividido em vários pequenos quadrados
01:59
corrige todos os patches na imagem com
02:01
ruído adicionado são substituídos pelo mais
02:04
patch semelhante da escala inicial
02:06
para baixo imagem sem ruído este mais
02:09
patch semelhante é medido com o
02:11
algoritmo do vizinho mais próximo, como iremos
02:13
ver a maioria desses patches permanecerá o
02:15
mesmo, mas dependendo do ruído adicionado
02:17
alguns patches mudarão apenas o suficiente para
02:19
torná-los mais parecidos com os outros
02:21
patch na imagem inicial este é o
02:24
saída vpn você vê aqui essas alterações
02:27
são suficientes para gerar um novo
02:29
versão da imagem então esta primeira
02:31
a saída é aumentada e usada para comparar
02:34
com a imagem de entrada da próxima escala
02:36
para atuar como uma versão barulhenta e o
02:38
mesmos passos são repetidos neste próximo
02:41
iteração, dividimos essas imagens em
02:43
pequenos remendos e substitua os anteriormente
02:45
gerados com os mais semelhantes
02:48
aqueles na etapa atual, vamos entrar
02:50
este módulo vpn que acabamos de abordar como você
02:53
pode ver aqui a única diferença de
02:55
o passo inicial com ruído adicionado é
02:58
que comparamos o upscale gerado
03:00
imagem aqui denotada como q com um upscaled
03:03
versão da imagem anterior apenas para que
03:06
tem o mesmo nível de detalhes indicado como
03:09
k basicamente usando o nível abaixo como
03:12
comparações comparamos q e k e então
03:15
selecione os patches correspondentes no
03:17
imagem deste nível atual v para
03:20
gere a nova imagem para esta etapa
03:22
que será usado no próximo
03:24
iteração como você vê aqui com o pequeno
03:26
setas k é apenas uma versão de luxo do
03:28
a imagem que criamos reduzindo o v em
03:31
o passo inicial deste algoritmo onde
03:33
criamos a escala piramidal
03:35
versões da nossa imagem isso é feito para
03:38
comparar o mesmo nível de nitidez em
03:40
tanto as imagens quanto o upscale gerado
03:42
imagem da camada anterior q será
03:45
muito mais desfocado do que a imagem no
03:48
passo atual v e será muito difícil
03:50
para encontrar patches semelhantes, isso é repetido
03:53
até voltarmos ao topo da
03:54
pirâmide com resultados de alta resolução
03:57
então todos esses patches gerados são
03:59
dobrado em um vídeo e pronto, você pode
04:02
repita isso com diferentes ruídos ou
04:04
modificações para gerar quaisquer variações
04:06
você quer em seus vídeos, vamos fazer uma rápida
04:09
recapitulando a imagem é reduzida em
04:11
ruído de várias escalas é adicionado ao
04:13
imagem em escala corsa que é dividida em
04:16
pequenos remendos quadrados cada remendo barulhento é
04:18
em seguida, substituído pelo mais semelhante
04:20
patches da mesma imagem compactada
04:23
sem ruído causando poucas mudanças aleatórias
04:26
na imagem mantendo o realismo tanto
04:28
a imagem e a imagem recém-geradas
04:31
sem ruído desta etapa são upscaled
04:33
e comparados para encontrar os mais semelhantes
04:36
patches com o vizinho mais próximo novamente
04:38
esses patches mais semelhantes são então
04:40
escolhido a partir da imagem no momento
04:42
resolução para gerar uma nova imagem para
04:45
o passo novamente e repetimos isso
04:47
upscaling e comparando etapas até que
04:49
voltar ao topo da pirâmide com
04:52
resultados de alta resolução, é claro, o
04:54
os resultados não são perfeitos você ainda pode
04:56
ver alguns artefatos como pessoas aparecendo
04:58
e desaparecendo em lugares estranhos ou
05:00
simplesmente copiar e colar alguém em algum
05:02
casos tornando muito óbvio se você
05:05
concentre-se nisso ainda é apenas o primeiro
05:07
manipulações de vídeo de ataque de papel com
05:09
o algoritmo do vizinho mais próximo e
05:11
tornando-o escalável para alta resolução
05:13
vídeos é sempre incrível ver
05:15
abordagens diferentes estou super animado
05:18
para ver o próximo artigo melhorando
05:20
este também os resultados ainda são
05:22
bastante impressionante e eles poderiam ser usados
05:24
como uma ferramenta de aumento de dados para modelos
05:26
trabalhando em vídeos devido à sua baixa
05:29
tempo de execução permitindo que outros modelos treinem
05:31
em conjuntos de dados maiores e mais diversos
05:33
sem muito custo se você estiver interessado
05:35
em aprender mais sobre esta técnica eu
05:37
recomendo fortemente a leitura de seus
05:38
papel é o primeiro link no
05:40
descrição obrigado por assistir e
05:42
a todos que apoiam meu trabalho
05:44
patreon ou comentando e curtindo o
05:46
videos aqui no youtube
05:54
Você
Inglês (gerado automaticamente)
Todos os Produtos
Carregado recentemente
Assistidos
Tags
Crie sua conta gratuita para desbloquear sua experiência de leitura personalizada.
PlatoAi. Web3 Reimagined. Inteligência de dados amplificada.
Clique aqui para acessar.