¿Alguna vez ha querido editar un video para eliminar o agregar a alguien, cambiar el fondo, hacer que dure un poco más o cambiar la resolución para que se ajuste a una relación de aspecto específica sin comprimirla ni estirarla? Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente querían tener variaciones de sus videos para pruebas AB y ver qué funciona mejor. Bueno, esta nueva investigación de Niv Haim et al. ¡puede ayudarte a hacer todo en un solo video y en HD! De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o en unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier manipulación de video o aplicación de generación de video que tenga en mente. Incluso supera a las GAN en todos los sentidos y no utiliza ninguna investigación sofisticada de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico. Y lo mejor es que esta técnica es escalable a videos de alta resolución.
¿Alguna vez ha querido editar un video para eliminar o agregar a alguien, cambiar el fondo, hacer que dure un poco más o cambiar la resolución para que se ajuste a una relación de aspecto específica sin comprimirla ni estirarla? Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente querían tener variaciones de sus videos para pruebas AB y ver qué funciona mejor.
Bueno, esta nueva investigación de Niv Haim et al. ¡puede ayudarte a hacer todo en un solo video y en HD!
De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o en unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier manipulación de video o aplicación de generación de video que tenga en mente. Incluso supera a las GAN en todos los sentidos y no utiliza ninguna investigación sofisticada de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico.
Y lo mejor es que esta técnica es escalable a videos de alta resolución…
Ver el vídeo
Referencias
► Lee el artículo completo: https://www.louisbouchard.ai/vgpnn-ge…
►Parte cubierto: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T. e Irani, M. (2021). Generación diversa a partir de un solo video hecho posible. ArXiv, abs / 2109.08591.
►La técnica que se adaptó de imágenes a videos: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon y Michal Irani. Drop the gan: En defensa de los parches vecinos más cercanos como modelos generativos de una sola imagen. preimpresión de arXiv arXiv: 2103.15545, 2021.
►Código (disponible próximamente): https://nivha.github.io/vgpnn/
►Mi boletín (¡una nueva aplicación de inteligencia artificial explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
Transcripción del video
00:00
¿Alguna vez has querido editar un video?
00:02
eliminar o agregar a alguien cambiar el
00:04
el fondo hace que dure un poco más o
00:06
cambiar la resolución para adaptarse a un específico
00:08
relación de aspecto sin comprimir ni
00:10
estirándolo para aquellos de ustedes que
00:12
ya realizaste campañas publicitarias
00:14
ciertamente quería tener variaciones de
00:16
sus videos para pruebas ab y ver qué
00:19
funciona mejor esta nueva investigación de niv
00:22
haim ital puede ayudarte a hacer todo esto
00:24
de un solo video y en alto
00:27
definición de hecho usando un simple video
00:29
puedes realizar cualquier tarea yo solo
00:32
mencionado en segundos o en unos minutos
00:34
para videos de alta calidad puedes
00:36
básicamente utilícelo para cualquier video
00:38
manipulación o generación de video
00:40
aplicación la tienes en mente incluso
00:42
supera a las armas de cualquier forma y no
00:45
utilizar cualquier investigación sofisticada de aprendizaje profundo ni
00:48
requiere un conjunto de datos enorme y poco práctico
00:51
y lo mejor es que esto
00:52
La técnica es escalable a alta resolución.
00:55
videos no es solo para investigación
00:57
propósitos con videos de 256 por 256 píxeles oh
01:01
y por supuesto puedes usarlo con imágenes
01:04
veamos como funciona el modelo
01:06
llamado parche generativo basado en video
01:08
vecinos más cercanos vgpnn en lugar de usar
01:11
algoritmos y modelos complejos como gans
01:14
o transformadores a los investigadores que
01:16
desarrollado vgpn opte por un mucho más simple
01:19
enfoque, pero revisé el más cercano
01:22
algoritmo vecino primero ellos reducen la escala
01:24
la imagen en forma piramidal donde cada
01:26
El nivel es una resolución de flores que el
01:28
uno arriba y luego agregan ruido aleatorio a
01:31
el nivel más grueso para generar un
01:33
imagen diferente similar a lo que hacen las armas
01:36
en el espacio comprimido después de la codificación
01:38
la imagen nota que aqui diré
01:40
imagen por simplicidad pero en este caso
01:42
ya que se aplica a los videos el proceso
01:45
se realiza en tres fotogramas simultáneamente
01:48
agregando una dimensión de tiempo pero el
01:49
La explicación sigue siendo la misma con un extra
01:52
paso al final la imagen en el
01:54
La escala más gruesa con ruido añadido es
01:56
dividido en múltiples cuadrados pequeños
01:59
parchea todos los parches de la imagen con
02:01
el ruido agregado se reemplaza con el más
02:04
parche similar de la escala inicial
02:06
imagen hacia abajo sin ruido esto más
02:09
parche similar se mide con el
02:11
algoritmo vecino más cercano como lo haremos
02:13
ver que la mayoría de estos parches permanecerán
02:15
lo mismo pero dependiendo del ruido agregado
02:17
algunos parches cambiarán lo suficiente para
02:19
hacer que se parezcan más a otro
02:21
parche en la imagen inicial este es el
02:24
Salida de vpn, ves aquí estos cambios
02:27
son suficientes para generar una nueva
02:29
versión de la imagen, entonces esta primera
02:31
la salida se escala y se utiliza para comparar
02:34
con la imagen de entrada de la siguiente escala
02:36
para actuar como una versión ruidosa y el
02:38
Los mismos pasos se repiten en este siguiente
02:41
iteración dividimos estas imágenes en
02:43
pequeños parches y reemplace el anterior
02:45
generados con los más similares
02:48
los del paso actual vamos a entrar en
02:50
este módulo vpn que acabamos de cubrir como usted
02:53
puedo ver aquí la única diferencia de
02:55
el paso inicial con ruido agregado es
02:58
que comparamos el alto nivel generado
03:00
imagen aquí denotada como q con una escala mejorada
03:03
versión de la imagen anterior para que
03:06
tiene el mismo nivel de detalles denotado como
03:09
k básicamente usando el nivel de abajo como
03:12
comparaciones comparamos q y k y luego
03:15
seleccione los parches correspondientes en el
03:17
imagen de este nivel actual v a
03:20
generar la nueva imagen para este paso
03:22
que se utilizará para el próximo
03:24
iteración como se ve aquí con el pequeño
03:26
flechas k es solo una versión exclusiva de
03:28
la imagen que creamos reduciendo v en
03:31
el paso inicial de este algoritmo donde
03:33
creamos la escala piramidal
03:35
versiones de nuestra imagen esto se hace para
03:38
comparar el mismo nivel de nitidez en
03:40
tanto las imágenes como las de lujo generadas
03:42
imagen de la capa anterior q será
03:45
mucho más borrosa que la imagen en el
03:48
paso actual v y será muy difícil
03:50
para encontrar parches similares esto se repite
03:53
hasta que volvamos a la cima del
03:54
pirámide con resultados de alta resolución
03:57
entonces todos estos parches generados son
03:59
doblado en un video y listo, puedes
04:02
Repite esto con diferentes ruidos o
04:04
modificaciones para generar variaciones
04:06
que quieres en tus videos, hagamos un rápido
04:09
recapitular la imagen se reduce a
04:11
El ruido de múltiples escalas se agrega al
04:13
imagen a escala corsa que se divide en
04:16
pequeños parches cuadrados, cada parche ruidoso es
04:18
luego reemplazado con el más similar
04:20
parches de la misma imagen comprimida
04:23
sin ruido que provoque pocos cambios aleatorios
04:26
en la imagen manteniendo el realismo tanto
04:28
la imagen e imagen recién generadas
04:31
sin ruido de este paso se mejoran
04:33
y comparado para encontrar el más similar
04:36
parches con el vecino más cercano de nuevo
04:38
estos parches más similares son entonces
04:40
elegido de la imagen en el actual
04:42
resolución para generar una nueva imagen para
04:45
el paso de nuevo y repetimos esto
04:47
escalar y comparar pasos hasta que
04:49
volver a la cima de la pirámide con
04:52
resultados de alta resolución, por supuesto,
04:54
los resultados no son perfectos todavía puedes
04:56
ver algunos artefactos como personas que aparecen
04:58
y desapareciendo en lugares extraños o
05:00
simplemente copiar y pegar a alguien en algún
05:02
casos que lo hacen muy obvio si
05:05
concéntrate en eso todavía es solo el primero
05:07
papel que ataca las manipulaciones de vídeo con
05:09
el algoritmo vecino más cercano y
05:11
haciéndolo escalable a alta resolución
05:13
videos siempre es increíble de ver
05:15
diferentes enfoques estoy super emocionado
05:18
para ver el próximo artículo mejorando
05:20
este también los resultados siguen siendo
05:22
bastante impresionante y podrían usarse
05:24
como herramienta de aumento de datos para modelos
05:26
trabajando en videos debido a su muy bajo
05:29
tiempo de ejecución que permite a otros modelos entrenar
05:31
en conjuntos de datos más grandes y diversos
05:33
sin mucho costo si te interesa
05:35
al aprender más sobre esta técnica,
05:37
recomendaré encarecidamente leer sus
05:38
papel es el primer enlace en el
05:40
descripción gracias por mirar y
05:42
a todos los que apoyan mi trabajo en
05:44
patreon o comentando y gustando el
05:46
videos aquí en youtube
05:54
Usted
Inglés (generado automáticamente)
Todos
Cargado recientemente
Vistas
Etiquetas
Crea tu cuenta gratuita para desbloquear tu experiencia de lectura personalizada.
PlatoAi. Web3 reinventado. Inteligencia de datos ampliada.
Haga clic aquí para acceder.