Esta IA realiza una manipulación de video perfecta sin aprendizaje profundo ni conjuntos de datos

Reeditado por Platón

Fecha:

26 de septiembre de 2021

Vistas: 505

TLDR abierto

¿Alguna vez ha querido editar un video para eliminar o agregar a alguien, cambiar el fondo, hacer que dure un poco más o cambiar la resolución para que se ajuste a una relación de aspecto específica sin comprimirla ni estirarla? Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente querían tener variaciones de sus videos para pruebas AB y ver qué funciona mejor. Bueno, esta nueva investigación de Niv Haim et al. ¡puede ayudarte a hacer todo en un solo video y en HD! De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o en unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier manipulación de video o aplicación de generación de video que tenga en mente. Incluso supera a las GAN en todos los sentidos y no utiliza ninguna investigación sofisticada de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico. Y lo mejor es que esta técnica es escalable a videos de alta resolución.

imagen

Luis Bouchard

Explico términos y noticias de Inteligencia Artificial a no expertos.

¿Alguna vez ha querido editar un video para eliminar o agregar a alguien, cambiar el fondo, hacer que dure un poco más o cambiar la resolución para que se ajuste a una relación de aspecto específica sin comprimirla ni estirarla? Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente querían tener variaciones de sus videos para pruebas AB y ver qué funciona mejor.

Bueno, esta nueva investigación de Niv Haim et al. ¡puede ayudarte a hacer todo en un solo video y en HD!

De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o en unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier manipulación de video o aplicación de generación de video que tenga en mente. Incluso supera a las GAN en todos los sentidos y no utiliza ninguna investigación sofisticada de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico.

Y lo mejor es que esta técnica es escalable a videos de alta resolución…

Ver el vídeo

[Contenido incrustado]

Referencias

► Lee el artículo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Parte cubierto: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T. e Irani, M. (2021). Generación diversa a partir de un solo video hecho posible. ArXiv, abs / 2109.08591.
►La técnica que se adaptó de imágenes a videos: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon y Michal Irani. Drop the gan: En defensa de los parches vecinos más cercanos como modelos generativos de una sola imagen. preimpresión de arXiv arXiv: 2103.15545, 2021.
►Código (disponible próximamente): https://nivha.github.io/vgpnn/
►Mi boletín (¡una nueva aplicación de inteligencia artificial explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del video

00:00

¿Alguna vez has querido editar un video?

00:02

eliminar o agregar a alguien cambiar el

00:04

el fondo hace que dure un poco más o

00:06

cambiar la resolución para adaptarse a un específico

00:08

relación de aspecto sin comprimir ni

00:10

estirándolo para aquellos de ustedes que

00:12

ya realizaste campañas publicitarias

00:14

ciertamente quería tener variaciones de

00:16

sus videos para pruebas ab y ver qué

00:19

funciona mejor esta nueva investigación de niv

00:22

haim ital puede ayudarte a hacer todo esto

00:24

de un solo video y en alto

00:27

definición de hecho usando un simple video

00:29

puedes realizar cualquier tarea yo solo

00:32

mencionado en segundos o en unos minutos

00:34

para videos de alta calidad puedes

00:36

básicamente utilícelo para cualquier video

00:38

manipulación o generación de video

00:40

aplicación la tienes en mente incluso

00:42

supera a las armas de cualquier forma y no

00:45

utilizar cualquier investigación sofisticada de aprendizaje profundo ni

00:48

requiere un conjunto de datos enorme y poco práctico

00:51

y lo mejor es que esto

00:52

La técnica es escalable a alta resolución.

00:55

videos no es solo para investigación

00:57

propósitos con videos de 256 por 256 píxeles oh

01:01

y por supuesto puedes usarlo con imágenes

01:04

veamos como funciona el modelo

01:06

llamado parche generativo basado en video

01:08

vecinos más cercanos vgpnn en lugar de usar

01:11

algoritmos y modelos complejos como gans

01:14

o transformadores a los investigadores que

01:16

desarrollado vgpn opte por un mucho más simple

01:19

enfoque, pero revisé el más cercano

01:22

algoritmo vecino primero ellos reducen la escala

01:24

la imagen en forma piramidal donde cada

01:26

El nivel es una resolución de flores que el

01:28

uno arriba y luego agregan ruido aleatorio a

01:31

el nivel más grueso para generar un

01:33

imagen diferente similar a lo que hacen las armas

01:36

en el espacio comprimido después de la codificación

01:38

la imagen nota que aqui diré

01:40

imagen por simplicidad pero en este caso

01:42

ya que se aplica a los videos el proceso

01:45

se realiza en tres fotogramas simultáneamente

01:48

agregando una dimensión de tiempo pero el

01:49

La explicación sigue siendo la misma con un extra

01:52

paso al final la imagen en el

01:54

La escala más gruesa con ruido añadido es

01:56

dividido en múltiples cuadrados pequeños

01:59

parchea todos los parches de la imagen con

02:01

el ruido agregado se reemplaza con el más

02:04

parche similar de la escala inicial

02:06

imagen hacia abajo sin ruido esto más

02:09

parche similar se mide con el

02:11

algoritmo vecino más cercano como lo haremos

02:13

ver que la mayoría de estos parches permanecerán

02:15

lo mismo pero dependiendo del ruido agregado

02:17

algunos parches cambiarán lo suficiente para

02:19

hacer que se parezcan más a otro

02:21

parche en la imagen inicial este es el

02:24

Salida de vpn, ves aquí estos cambios

02:27

son suficientes para generar una nueva

02:29

versión de la imagen, entonces esta primera

02:31

la salida se escala y se utiliza para comparar

02:34

con la imagen de entrada de la siguiente escala

02:36

para actuar como una versión ruidosa y el

02:38

Los mismos pasos se repiten en este siguiente

02:41

iteración dividimos estas imágenes en

02:43

pequeños parches y reemplace el anterior

02:45

generados con los más similares

02:48

los del paso actual vamos a entrar en

02:50

este módulo vpn que acabamos de cubrir como usted

02:53

puedo ver aquí la única diferencia de

02:55

el paso inicial con ruido agregado es

02:58

que comparamos el alto nivel generado

03:00

imagen aquí denotada como q con una escala mejorada

03:03

versión de la imagen anterior para que

03:06

tiene el mismo nivel de detalles denotado como

03:09

k básicamente usando el nivel de abajo como

03:12

comparaciones comparamos q y k y luego

03:15

seleccione los parches correspondientes en el

03:17

imagen de este nivel actual v a

03:20

generar la nueva imagen para este paso

03:22

que se utilizará para el próximo

03:24

iteración como se ve aquí con el pequeño

03:26

flechas k es solo una versión exclusiva de

03:28

la imagen que creamos reduciendo v en

03:31

el paso inicial de este algoritmo donde

03:33

creamos la escala piramidal

03:35

versiones de nuestra imagen esto se hace para

03:38

comparar el mismo nivel de nitidez en

03:40

tanto las imágenes como las de lujo generadas

03:42

imagen de la capa anterior q será

03:45

mucho más borrosa que la imagen en el

03:48

paso actual v y será muy difícil

03:50

para encontrar parches similares esto se repite

03:53

hasta que volvamos a la cima del

03:54

pirámide con resultados de alta resolución

03:57

entonces todos estos parches generados son

03:59

doblado en un video y listo, puedes

04:02

Repite esto con diferentes ruidos o

04:04

modificaciones para generar variaciones

04:06

que quieres en tus videos, hagamos un rápido

04:09

recapitular la imagen se reduce a

04:11

El ruido de múltiples escalas se agrega al

04:13

imagen a escala corsa que se divide en

04:16

pequeños parches cuadrados, cada parche ruidoso es

04:18

luego reemplazado con el más similar

04:20

parches de la misma imagen comprimida

04:23

sin ruido que provoque pocos cambios aleatorios

04:26

en la imagen manteniendo el realismo tanto

04:28

la imagen e imagen recién generadas

04:31

sin ruido de este paso se mejoran

04:33

y comparado para encontrar el más similar

04:36

parches con el vecino más cercano de nuevo

04:38

estos parches más similares son entonces

04:40

elegido de la imagen en el actual

04:42

resolución para generar una nueva imagen para

04:45

el paso de nuevo y repetimos esto

04:47

escalar y comparar pasos hasta que

04:49

volver a la cima de la pirámide con

04:52

resultados de alta resolución, por supuesto,

04:54

los resultados no son perfectos todavía puedes

04:56

ver algunos artefactos como personas que aparecen

04:58

y desapareciendo en lugares extraños o

05:00

simplemente copiar y pegar a alguien en algún

05:02

casos que lo hacen muy obvio si

05:05

concéntrate en eso todavía es solo el primero

05:07

papel que ataca las manipulaciones de vídeo con

05:09

el algoritmo vecino más cercano y

05:11

haciéndolo escalable a alta resolución

05:13

videos siempre es increíble de ver

05:15

diferentes enfoques estoy super emocionado

05:18

para ver el próximo artículo mejorando

05:20

este también los resultados siguen siendo

05:22

bastante impresionante y podrían usarse

05:24

como herramienta de aumento de datos para modelos

05:26

trabajando en videos debido a su muy bajo

05:29

tiempo de ejecución que permite a otros modelos entrenar

05:31

en conjuntos de datos más grandes y diversos

05:33

sin mucho costo si te interesa

05:35

al aprender más sobre esta técnica,

05:37

recomendaré encarecidamente leer sus

05:38

papel es el primer enlace en el

05:40

descripción gracias por mirar y

05:42

a todos los que apoyan mi trabajo en

05:44

patreon o comentando y gustando el

05:46

videos aquí en youtube

05:54

Usted

Inglés (generado automáticamente)

Todos

Cargado recientemente

Vistas

Etiquetas

Únete a Hacker Noon

Crea tu cuenta gratuita para desbloquear tu experiencia de lectura personalizada.

PlatoAi. Web3 reinventado. Inteligencia de datos ampliada.
Haga clic aquí para acceder.

Fuente: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

punto_img

Información más reciente

punto_img