Zephyrnet Logo

Esta IA executa manipulação de vídeo perfeita, sem aprendizado profundo ou conjuntos de dados

Data:

Você já quis editar um vídeo para remover ou adicionar alguém, alterar o plano de fundo, fazê-lo durar um pouco mais ou alterar a resolução para se adequar a uma proporção específica sem comprimi-la ou esticá-la? Para aqueles que já fizeram campanhas publicitárias, certamente gostariam de ter variações de seus vídeos para testes AB e ver o que funciona melhor. Bem, esta nova pesquisa de Niv Haim et al. pode ajudá-lo a fazer tudo em um único vídeo e em HD! De fato, usando um vídeo simples, você pode executar qualquer tarefa que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Basicamente, você pode usá-lo para qualquer manipulação de vídeo ou aplicativo de geração de vídeo que tenha em mente. Ele até supera os GANs em todos os aspectos e não usa nenhuma pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável! E o melhor é que essa técnica é escalável para vídeos de alta resolução

imagem

Foto de perfil de Louis Bouchard Hacker Noon

Louis Bouchard

Eu explico os termos e notícias da Inteligência Artificial para não especialistas.

Você já quis editar um vídeo para remover ou adicionar alguém, alterar o plano de fundo, fazê-lo durar um pouco mais ou alterar a resolução para se adequar a uma proporção específica sem comprimi-la ou esticá-la? Para aqueles que já fizeram campanhas publicitárias, certamente gostariam de ter variações de seus vídeos para testes AB e ver o que funciona melhor.

Bem, esta nova pesquisa de Niv Haim et al. pode ajudá-lo a fazer tudo em um único vídeo e em HD!

De fato, usando um vídeo simples, você pode executar qualquer tarefa que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Basicamente, você pode usá-lo para qualquer manipulação de vídeo ou aplicativo de geração de vídeo que tenha em mente. Ele até supera os GANs em todos os aspectos e não usa nenhuma pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável!

E o melhor é que essa técnica é escalável para vídeos de alta resolução…

Assista ao vídeo

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Papel coberto: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Geração diversificada a partir de um único vídeo possível. ArXiv, abs/2109.08591.
►A técnica que foi adaptada de imagens para vídeos: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon e Michal Irani. Largue o gan: Em defesa de patches vizinhos mais próximos como modelos geradores de imagem única. arXiv pré-impressão arXiv:2103.15545, 2021.
►Código (disponível em breve): https://nivha.github.io/vgpnn/
►Minha newsletter (um novo aplicativo de IA explicado semanalmente em seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

00:00

você já quis editar um vídeo

00:02

remover ou adicionar alguém alterar o

00:04

fundo faz com que dure um pouco mais ou

00:06

alterar a resolução para se adequar a um determinado

00:08

proporção de aspecto sem comprimir ou

00:10

esticando-o para aqueles de vocês que

00:12

já executou campanhas publicitárias que você

00:14

certamente queria ter variações de

00:16

seus vídeos para testes abdominais e veja o que

00:19

funciona melhor esta nova pesquisa por niv

00:22

hai ital pode ajudá-lo a fazer tudo isso

00:24

de um único vídeo e em alta

00:27

definição de fato usando um vídeo simples

00:29

você pode executar qualquer tarefa que eu apenas

00:32

mencionado em segundos ou em poucos minutos

00:34

para vídeos de alta qualidade, você pode

00:36

basicamente usá-lo para qualquer vídeo

00:38

manipulação ou geração de vídeo

00:40

aplicativo que você tem em mente mesmo

00:42

supera as armas de todas as maneiras e não

00:45

usar qualquer pesquisa sofisticada de aprendizado profundo nem

00:48

requer um conjunto de dados enorme e impraticável

00:51

e o melhor é que isso

00:52

técnica é escalável para alta resolução

00:55

vídeos não é apenas para pesquisa

00:57

propósitos com vídeos de 256 por 256 pixels oh

01:01

e é claro que você pode usá-lo com imagens

01:04

vamos ver como funciona o modelo é

01:06

chamado patch generativo baseado em vídeo

01:08

vizinhos mais próximos vgpnn em vez de usar

01:11

algoritmos e modelos complexos como gans

01:14

ou transformadores dos pesquisadores que

01:16

vgpn desenvolvido opte por um muito mais simples

01:19

abordagem, mas revisitou o mais próximo

01:22

algoritmo vizinho primeiro eles reduzem a escala

01:24

a imagem em forma de pirâmide onde cada

01:26

nível é uma resolução de flor do que o

01:28

um acima, então eles adicionam ruído aleatório a

01:31

o nível mais grosseiro para gerar um

01:33

imagem diferente semelhante ao que as armas fazem

01:36

no espaço compactado após a codificação

01:38

a imagem note que aqui vou dizer

01:40

imagem por simplicidade, mas neste caso

01:42

uma vez que é aplicado aos vídeos o processo

01:45

é feito em três quadros simultaneamente

01:48

adicionando uma dimensão de tempo, mas o

01:49

explicação permanece a mesma com um extra

01:52

passo no final da imagem no

01:54

escala mais grosseira com ruído adicionado é

01:56

dividido em vários pequenos quadrados

01:59

corrige todos os patches na imagem com

02:01

ruído adicionado são substituídos pelo mais

02:04

patch semelhante da escala inicial

02:06

para baixo imagem sem ruído este mais

02:09

patch semelhante é medido com o

02:11

algoritmo do vizinho mais próximo, como iremos

02:13

ver a maioria desses patches permanecerá o

02:15

mesmo, mas dependendo do ruído adicionado

02:17

alguns patches mudarão apenas o suficiente para

02:19

torná-los mais parecidos com os outros

02:21

patch na imagem inicial este é o

02:24

saída vpn você vê aqui essas alterações

02:27

são suficientes para gerar um novo

02:29

versão da imagem então esta primeira

02:31

a saída é aumentada e usada para comparar

02:34

com a imagem de entrada da próxima escala

02:36

para atuar como uma versão barulhenta e o

02:38

mesmos passos são repetidos neste próximo

02:41

iteração, dividimos essas imagens em

02:43

pequenos remendos e substitua os anteriormente

02:45

gerados com os mais semelhantes

02:48

aqueles na etapa atual, vamos entrar

02:50

este módulo vpn que acabamos de abordar como você

02:53

pode ver aqui a única diferença de

02:55

o passo inicial com ruído adicionado é

02:58

que comparamos o upscale gerado

03:00

imagem aqui denotada como q com um upscaled

03:03

versão da imagem anterior apenas para que

03:06

tem o mesmo nível de detalhes indicado como

03:09

k basicamente usando o nível abaixo como

03:12

comparações comparamos q e k e então

03:15

selecione os patches correspondentes no

03:17

imagem deste nível atual v para

03:20

gere a nova imagem para esta etapa

03:22

que será usado no próximo

03:24

iteração como você vê aqui com o pequeno

03:26

setas k é apenas uma versão de luxo do

03:28

a imagem que criamos reduzindo o v em

03:31

o passo inicial deste algoritmo onde

03:33

criamos a escala piramidal

03:35

versões da nossa imagem isso é feito para

03:38

comparar o mesmo nível de nitidez em

03:40

tanto as imagens quanto o upscale gerado

03:42

imagem da camada anterior q será

03:45

muito mais desfocado do que a imagem no

03:48

passo atual v e será muito difícil

03:50

para encontrar patches semelhantes, isso é repetido

03:53

até voltarmos ao topo da

03:54

pirâmide com resultados de alta resolução

03:57

então todos esses patches gerados são

03:59

dobrado em um vídeo e pronto, você pode

04:02

repita isso com diferentes ruídos ou

04:04

modificações para gerar quaisquer variações

04:06

você quer em seus vídeos, vamos fazer uma rápida

04:09

recapitulando a imagem é reduzida em

04:11

ruído de várias escalas é adicionado ao

04:13

imagem em escala corsa que é dividida em

04:16

pequenos remendos quadrados cada remendo barulhento é

04:18

em seguida, substituído pelo mais semelhante

04:20

patches da mesma imagem compactada

04:23

sem ruído causando poucas mudanças aleatórias

04:26

na imagem mantendo o realismo tanto

04:28

a imagem e a imagem recém-geradas

04:31

sem ruído desta etapa são upscaled

04:33

e comparados para encontrar os mais semelhantes

04:36

patches com o vizinho mais próximo novamente

04:38

esses patches mais semelhantes são então

04:40

escolhido a partir da imagem no momento

04:42

resolução para gerar uma nova imagem para

04:45

o passo novamente e repetimos isso

04:47

upscaling e comparando etapas até que

04:49

voltar ao topo da pirâmide com

04:52

resultados de alta resolução, é claro, o

04:54

os resultados não são perfeitos você ainda pode

04:56

ver alguns artefatos como pessoas aparecendo

04:58

e desaparecendo em lugares estranhos ou

05:00

simplesmente copiar e colar alguém em algum

05:02

casos tornando muito óbvio se você

05:05

concentre-se nisso ainda é apenas o primeiro

05:07

manipulações de vídeo de ataque de papel com

05:09

o algoritmo do vizinho mais próximo e

05:11

tornando-o escalável para alta resolução

05:13

vídeos é sempre incrível ver

05:15

abordagens diferentes estou super animado

05:18

para ver o próximo artigo melhorando

05:20

este também os resultados ainda são

05:22

bastante impressionante e eles poderiam ser usados

05:24

como uma ferramenta de aumento de dados para modelos

05:26

trabalhando em vídeos devido à sua baixa

05:29

tempo de execução permitindo que outros modelos treinem

05:31

em conjuntos de dados maiores e mais diversos

05:33

sem muito custo se você estiver interessado

05:35

em aprender mais sobre esta técnica eu

05:37

recomendo fortemente a leitura de seus

05:38

papel é o primeiro link no

05:40

descrição obrigado por assistir e

05:42

a todos que apoiam meu trabalho

05:44

patreon ou comentando e curtindo o

05:46

videos aqui no youtube

05:54

Você

Inglês (gerado automaticamente)

Todos os Produtos

Carregado recentemente

Assistidos

Tags

Junte-se ao Hacker Noon

Crie sua conta gratuita para desbloquear sua experiência de leitura personalizada.

PlatoAi. Web3 Reimagined. Inteligência de dados amplificada.
Clique aqui para acessar.

Fonte: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

local_img

Inteligência mais recente

local_img