Logotipo de Zephyrnet

VideoPoet: Google busca desafiar a OpenAI Sora y Stable Diffusion por el dominio en la creación de videos con IA – Tech Startups

Fecha:

En febrero, OpenAI causó un gran revuelo con el inauguración de sora, una impresionante herramienta de inteligencia artificial que puede transformar indicaciones de texto en videos atractivos. Con Sora, los usuarios pueden dar vida a sus ideas, observando cómo la IA crea videos dinámicos de 60 segundos a partir de breves indicaciones de texto. Pero otro jugador en la ciudad ha estado causando sensación en Internet: VideoPoet, una herramienta de generación de videos de Google que apareció en escena tres meses antes.

VideoPoet es una creación de un equipo de 31 investigadores de Google Research y supone un punto de inflexión en el mundo de la creación multimedia. Mientras Sora se centra en convertir texto en historias visuales, VideoPoet adopta un enfoque diferente. Destaca en la creación de vídeos realistas utilizando texto, imágenes o incluso secuencias de vídeo existentes, gracias a técnicas avanzadas como el modelado de lenguaje autorregresivo y tokenizadores como MAGVIT V2 y SoundStream. Esta versatilidad abre un mundo de posibilidades para el arte digital, la producción cinematográfica y los medios interactivos.

Fuente: Investigación de Google

Lo que distingue a VideoPoet es su arquitectura única. Si bien muchos modelos de generación de vídeo se basan en métodos basados ​​en la difusión, que se consideran de alto rendimiento en este campo, Google Research tomó un camino diferente. En lugar de utilizar el popular modelo de difusión estable, los investigadores de Google optaron por un modelo de lenguaje grande (LLM) basado en la arquitectura transformadora. Este tipo de modelo de IA, normalmente utilizado para la generación de texto y código, se ha reutilizado para generar vídeos, un movimiento audaz que distingue a VideoPoet del resto.

“La mayoría de los modelos existentes emplean métodos basados ​​en difusión que a menudo se consideran los de mejor desempeño en la generación de video. Estos modelos de video generalmente comienzan con un modelo de imagen previamente entrenado, como Stable Diffusion, que produce imágenes de alta fidelidad para cuadros individuales y luego ajusta el modelo para mejorar la consistencia temporal entre los cuadros de video”, escribió el equipo de investigación de Google en su informe preliminar. revisar trabajo de investigación.

¿Qué es VideoPoet y cómo funciona?

Básicamente, VideoPoet utiliza un modelo de lenguaje autorregresivo para aprender de diversas modalidades, como video, imagen, audio y texto. Esto es posible mediante el empleo de múltiples tokenizadores:MAGVIT V2 para vídeo e imagen, y SoundStream para audio.

Cuando el modelo genera tokens en función de un contexto determinado, estos tokens se vuelven a convertir posteriormente en una representación visible utilizando el decodificador del tokenizador respectivo. Esto permite una traducción fluida entre diferentes formas de medios, asegurando una comprensión coherente y completa en todas las modalidades. A continuación se muestran los componentes de VideoPoet:

  • Tokenizadores MAGVIT V2 y SoundStream previamente entrenados, que traducen imágenes, videos y clips de audio en una secuencia de códigos que el modelo puede comprender.
  • Un modelo de lenguaje autorregresivo, que aprende de varias modalidades (vídeo, imagen, audio y texto) para predecir el siguiente token de la secuencia.
  • Una variedad de objetivos de aprendizaje generativo, que incluyen texto a video, texto a imagen, imagen a video y más, que permiten a VideoPoet crear videos diversos y de alta calidad.

Funciones y capacidades revolucionarias

Al igual que Sora y Stable Diffusion, VideoPoet tiene algunas características revolucionarias que aportan una nueva perspectiva a la creación de vídeos.

Vídeos de gran movimiento y duración variable: A diferencia de los modelos tradicionales, VideoPoet crea sin esfuerzo videos de gran movimiento y duración variable, superando los límites de lo que es posible en la generación de videos.

Aprendizaje multimodal: Uno de los puntos fuertes de VideoPoet radica en su capacidad para aprender a través de diferentes modalidades. Al cerrar la brecha entre texto, imágenes, videos y audio, VideoPoet ofrece una comprensión holística que enriquece el proceso creativo.

Capacidades de edición interactiva: VideoPoet no solo genera videos: brinda a los usuarios funciones de edición interactivas. Desde ampliar vídeos de entrada hasta controlar movimientos y aplicar efectos estilizados basados ​​en mensajes de texto, pone el control creativo en manos del usuario.

VideoPoet de Google es más que una simple herramienta de generación de videos: es un punto de inflexión en el mundo de la IA. Al integrar perfectamente múltiples capacidades en un único modelo de lenguaje grande (LLM), redefine el panorama de la generación de video. Su versatilidad en el procesamiento de texto, imágenes y audio lo hace indispensable tanto para los creadores de contenido como para los entusiastas de la IA, estableciendo un nuevo estándar para la creatividad y la innovación.

A continuación se muestra un desglose de las capacidades de VideoPoet utilizando el siguiente diagrama.

En primer lugar, las imágenes de entrada pueden cobrar vida con animación, creando movimiento dinámico dentro del vídeo. Además, los usuarios tienen la opción de editar videos recortando o enmascarando ciertas áreas, lo que permite efectos de pintura o pintura sin interrupciones.

Cuando se trata de estilización, el modelo hace su magia al analizar un video que captura la profundidad y el flujo óptico; esencialmente, el movimiento dentro de la escena. Utilizando esta información, aplica elementos estilísticos guiados por indicaciones de texto, mejorando el atractivo visual general del vídeo.

Haga clic para ampliar

Pero basta de jerga técnica: hablemos de resultados. Para mostrar las capacidades de VideoPoet, el equipo de investigación de Google produjo un cortometraje basado en indicaciones de Bard, una IA narrativa. ¿El resultado? Una encantadora historia de un mapache viajero, que cobra vida a través de una serie de cautivadores videoclips. Es un testimonio del poder de la IA en la narración y un vistazo al futuro de la creación multimedia.

[Contenido incrustado]

En un mundo donde el contenido es el rey, herramientas como Sora y VideoPoet están cambiando el juego, permitiendo a los creadores dar vida a sus ideas de maneras nunca antes posibles. Con sus capacidades avanzadas e interfaces fáciles de usar, estas herramientas impulsadas por IA están preparadas para revolucionar la forma en que contamos historias y nos expresamos a través del video.

punto_img

Información más reciente

punto_img