제퍼넷 로고

VideoPoet: Google은 AI 비디오 제작 분야에서 우위를 점하기 위해 OpenAI Sora 및 Stable Diffusion에 도전하려고 합니다.

시간

지난 2월 OpenAI는 소라의 공개는 텍스트 프롬프트를 매력적인 비디오로 변환할 수 있는 인상적인 AI 도구입니다. Sora를 사용하면 사용자는 AI가 간단한 텍스트 신호로 역동적인 60초 비디오를 만드는 것을 보면서 자신의 아이디어에 생명을 불어넣을 수 있습니다. 하지만 동네의 또 다른 플레이어가 인터넷에서 큰 반향을 일으키고 있습니다. 바로 XNUMX개월 전에 등장한 Google의 비디오 생성 도구인 VideoPoet입니다.

VideoPoet은 Google Research의 31명의 연구원으로 구성된 팀의 창작물이며 멀티미디어 제작 분야의 판도를 바꾸는 도구입니다. Sora는 텍스트를 시각적 스토리로 바꾸는 데 중점을 두는 반면 VideoPoet은 다른 접근 방식을 취합니다. 자동 회귀 언어 모델링 및 MAGVIT V2 및 SoundStream과 같은 토크나이저와 같은 고급 기술 덕분에 텍스트, 이미지 또는 기존 비디오 영상을 사용하여 사실적인 비디오를 만드는 데 탁월합니다. 이러한 다양성은 디지털 아트, 영화 제작 및 인터랙티브 미디어에 대한 가능성의 세계를 열어줍니다.

출처: 구글 리서치

VideoPoet을 눈에 띄게 만드는 것은 독특한 아키텍처입니다. 많은 비디오 생성 모델이 해당 분야에서 최고의 성능을 발휘하는 것으로 간주되는 확산 기반 방법을 사용하지만 Google Research는 다른 경로를 택했습니다. Google 연구원은 널리 사용되는 Stable Diffusion 모델 대신 변환기 아키텍처를 기반으로 하는 LLM(대형 언어 모델)을 선택했습니다. 일반적으로 텍스트 및 코드 생성에 사용되는 이러한 유형의 AI 모델은 비디오 생성에 용도가 변경되었습니다. 이는 VideoPoet을 군중과 차별화하는 대담한 움직임입니다.

“대부분의 기존 모델은 현재 비디오 생성 분야에서 최고 성능을 발휘하는 것으로 간주되는 확산 기반 방법을 사용합니다. 이러한 비디오 모델은 일반적으로 개별 프레임에 대해 충실도가 높은 이미지를 생성하는 Stable Diffusion과 같은 사전 훈련된 이미지 모델로 시작한 다음 모델을 미세 조정하여 비디오 프레임 전반에 걸쳐 시간적 일관성을 향상시킵니다.”라고 Google Research 팀은 사전에 썼습니다. 검토 연구 논문.

VideoPoet은 무엇이며 어떻게 작동하나요?

VideoPoet의 핵심은 자동 회귀 언어 모델을 사용하여 비디오, 이미지, 오디오 및 텍스트와 같은 다양한 양식으로부터 학습합니다. 이는 여러 토크나이저를 사용함으로써 가능해졌습니다.마그비트 V2 비디오와 이미지의 경우, SoundStream은 오디오의 경우.

모델이 주어진 컨텍스트를 기반으로 토큰을 생성하면 이러한 토큰은 나중에 각 토크나이저의 디코더를 사용하여 가시적 표현으로 다시 변환됩니다. 이를 통해 다양한 형태의 미디어 간 원활한 번역이 가능해지며 모든 양식에 걸쳐 일관되고 포괄적인 이해가 보장됩니다. VideoPoet의 구성요소는 다음과 같습니다.

  • 이미지, 비디오 및 오디오 클립을 모델이 이해할 수 있는 일련의 코드로 변환하는 사전 훈련된 MAGVIT V2 및 SoundStream 토크나이저.
  • 비디오, 이미지, 오디오, 텍스트 등 다양한 양식을 통해 학습하여 시퀀스의 다음 토큰을 예측하는 자동 회귀 언어 모델입니다.
  • VideoPoet이 다양하고 고품질의 비디오를 만들 수 있도록 하는 텍스트-비디오, 텍스트-이미지, 이미지-비디오 등을 포함한 다양한 생성적 학습 목표.

혁신적인 기능 및 기능

Sora 및 Stable Diffusion과 마찬가지로 VideoPoet에는 비디오 제작에 새로운 관점을 제공하는 몇 가지 혁신적인 기능이 있습니다.

움직임이 많은 가변 길이 비디오: 기존 모델과 달리 VideoPoet은 움직임이 많은 가변 길이 비디오를 손쉽게 제작하여 비디오 생성의 한계를 뛰어넘습니다.

교차 양식 학습: VideoPoet의 강점 중 하나는 다양한 양식에 걸쳐 학습할 수 있는 능력에 있습니다. VideoPoet은 텍스트, 이미지, 비디오 및 오디오 사이의 격차를 해소함으로써 창작 과정을 풍요롭게 하는 전체적인 이해를 제공합니다.

대화형 편집 기능: VideoPoet은 단순히 비디오를 생성하는 것이 아니라 사용자에게 대화형 편집 기능을 제공합니다. 입력 비디오 확장부터 모션 제어, 텍스트 프롬프트를 기반으로 한 스타일화된 효과 적용까지 사용자가 창의적으로 제어할 수 있습니다.

Google의 VideoPoet은 단순한 비디오 생성 도구가 아니라 AI 세계의 판도를 바꾸는 도구입니다. 여러 기능을 단일 LLM(대형 언어 모델)에 완벽하게 통합함으로써 비디오 생성 환경을 재정의합니다. 텍스트, 이미지 및 오디오 처리의 다양성은 콘텐츠 제작자와 AI 애호가 모두에게 없어서는 안될 요소이며 창의성과 혁신에 대한 새로운 표준을 설정합니다.

다음은 아래 다이어그램을 사용하여 VideoPoet의 기능을 분석한 것입니다.

먼저, 입력 이미지를 애니메이션으로 생생하게 표현하여 비디오 내에서 역동적인 모션을 만들 수 있습니다. 또한 사용자는 특정 영역을 자르거나 마스크하여 비디오를 편집할 수 있으므로 원활한 인페인팅 또는 아웃페인팅 효과가 가능합니다.

스타일화와 관련하여 모델은 깊이와 광학적 흐름, 즉 본질적으로 장면 내 움직임을 포착하는 비디오를 분석하여 마법을 발휘합니다. 이 정보를 사용하여 텍스트 프롬프트에 따른 스타일 요소를 적용하여 비디오의 전반적인 시각적 매력을 향상시킵니다.

확대하려면 클릭하십시오.

하지만 기술적인 전문 용어는 충분합니다. 결과에 대해 이야기해 보겠습니다. VideoPoet의 기능을 선보이기 위해 Google 연구팀은 스토리텔링 AI인 Bard의 프롬프트를 기반으로 단편 영화를 제작했습니다. 결과? 여행하는 너구리의 매력적인 이야기가 일련의 매혹적인 비디오 클립을 통해 생생하게 전달됩니다. 이는 스토리텔링에서 AI의 힘을 보여주는 증거이자 멀티미디어 창작의 미래를 엿볼 수 있는 기회입니다.

[포함 된 콘텐츠]

콘텐츠가 왕인 세상에서 Sora 및 VideoPoet과 같은 도구는 판도를 바꾸고 있으며 제작자가 이전에는 불가능했던 방식으로 아이디어를 실현할 수 있도록 지원합니다. 고급 기능과 사용자 친화적인 인터페이스를 갖춘 이러한 AI 기반 도구는 우리가 비디오를 통해 이야기를 전달하고 자신을 표현하는 방식에 혁명을 일으킬 준비가 되어 있습니다.

spot_img

최신 인텔리전스

spot_img