Logo Zephyrnet

VideoPoet: Google tìm cách thách thức OpenAI Sora và Stable Diffusion để giành ưu thế trong việc tạo video AI – Khởi nghiệp công nghệ

Ngày:

Vào tháng 2, OpenAI đã gây được tiếng vang lớn với sự ra mắt của Sora, một công cụ AI ấn tượng có thể chuyển lời nhắc bằng văn bản thành video hấp dẫn. Với Sora, người dùng có thể thổi hồn vào ý tưởng của mình bằng cách xem AI tạo ra các video động dài 60 giây từ các tín hiệu văn bản ngắn gọn. Nhưng một công ty khác trong thị trấn đang tạo nên làn sóng trên Internet: VideoPoet, một công cụ tạo video của Google đã xuất hiện ba tháng trước.

VideoPoet là sản phẩm trí tuệ của một nhóm gồm 31 nhà nghiên cứu tại Google Research và là nhân tố thay đổi cuộc chơi trong thế giới sáng tạo đa phương tiện. Trong khi Sora tập trung vào việc biến văn bản thành những câu chuyện trực quan thì VideoPoet lại có cách tiếp cận khác. Nó vượt trội trong việc tạo video thực tế bằng cách sử dụng văn bản, hình ảnh hoặc thậm chí cảnh video hiện có, nhờ các kỹ thuật nâng cao như mô hình hóa ngôn ngữ tự động hồi quy và mã thông báo như MAGVIT V2 và SoundStream. Tính linh hoạt này mở ra một thế giới khả năng cho nghệ thuật kỹ thuật số, sản xuất phim và phương tiện tương tác.

Nguồn: Nghiên cứu của Google

Điều khiến VideoPoet nổi bật là kiến ​​trúc độc đáo của nó. Trong khi nhiều mô hình tạo video dựa vào các phương pháp dựa trên sự khuếch tán, được coi là những phương pháp hoạt động hiệu quả nhất trong lĩnh vực này, thì Google Research đã đi theo một con đường khác. Thay vì sử dụng mô hình Khuếch tán ổn định phổ biến, các nhà nghiên cứu của Google đã chọn mô hình ngôn ngữ lớn (LLM) dựa trên kiến ​​trúc máy biến áp. Loại mô hình AI này, thường được sử dụng để tạo văn bản và mã, đã được tái sử dụng để tạo video—một bước đi táo bạo khiến VideoPoet trở nên khác biệt so với đám đông.

“Hầu hết các mô hình hiện tại đều sử dụng các phương pháp dựa trên sự khuếch tán thường được coi là những phương pháp hiệu quả nhất hiện nay trong việc tạo video. Các mô hình video này thường bắt đầu bằng một mô hình hình ảnh được đào tạo trước, chẳng hạn như Khuếch tán ổn định, tạo ra hình ảnh có độ trung thực cao cho từng khung hình riêng lẻ, sau đó tinh chỉnh mô hình để cải thiện tính nhất quán theo thời gian trên các khung hình video,” nhóm Nghiên cứu của Google viết trong báo cáo trước của họ. ôn tập bài nghiên cứu.

VideoPoet là gì và nó hoạt động như thế nào?

Về cốt lõi, VideoPoet sử dụng mô hình ngôn ngữ tự hồi quy để học từ nhiều phương thức khác nhau như video, hình ảnh, âm thanh và văn bản. Điều này có thể thực hiện được bằng cách sử dụng nhiều công cụ mã thông báo—MAGVIT V2 cho video và hình ảnh và SoundStream cho âm thanh.

Khi mô hình tạo mã thông báo dựa trên ngữ cảnh nhất định, các mã thông báo này sau đó sẽ được chuyển đổi trở lại thành biểu diễn hiển thị bằng cách sử dụng bộ giải mã của trình mã thông báo tương ứng. Điều này cho phép dịch liền mạch giữa các hình thức truyền thông khác nhau, đảm bảo sự hiểu biết gắn kết và toàn diện trên tất cả các phương thức. Dưới đây là các thành phần của VideoPoet:

  • Các mã thông báo MAGVIT V2 và SoundStream được đào tạo trước, giúp dịch hình ảnh, video và clip âm thanh thành một chuỗi mã mà mô hình có thể hiểu được.
  • Một mô hình ngôn ngữ tự hồi quy, học từ nhiều phương thức khác nhau—video, hình ảnh, âm thanh và văn bản—để dự đoán mã thông báo tiếp theo trong chuỗi.
  • Một loạt các mục tiêu học tập mang tính tổng quát, bao gồm chuyển văn bản thành video, chuyển văn bản thành hình ảnh, hình ảnh thành video, v.v., cho phép VideoPoet tạo ra các video đa dạng và chất lượng cao.

Tính năng và khả năng mang tính cách mạng

Giống như Sora và Stable Diffusion, VideoPoet có một số tính năng mang tính cách mạng mang lại góc nhìn mới mẻ cho việc tạo video.

Video có độ dài thay đổi chuyển động cao: Không giống như các mô hình truyền thống, VideoPoet dễ dàng tạo ra các video có độ dài thay đổi có chuyển động cao, vượt qua ranh giới của những gì có thể trong việc tạo video.

Học tập đa phương thức: Một trong những điểm mạnh của VideoPoet nằm ở khả năng học hỏi qua các phương thức khác nhau. Bằng cách thu hẹp khoảng cách giữa văn bản, hình ảnh, video và âm thanh, VideoPoet mang đến sự hiểu biết toàn diện giúp làm phong phú thêm quá trình sáng tạo.

Khả năng chỉnh sửa tương tác: VideoPoet không chỉ tạo video—nó còn cung cấp cho người dùng các tính năng chỉnh sửa tương tác. Từ việc mở rộng video đầu vào đến điều khiển chuyển động và áp dụng các hiệu ứng cách điệu dựa trên lời nhắc bằng văn bản, nó đặt quyền kiểm soát sáng tạo vào tay người dùng.

VideoPoet của Google không chỉ là một công cụ tạo video—nó còn là công cụ thay đổi cuộc chơi trong thế giới AI. Bằng cách tích hợp liền mạch nhiều khả năng vào một mô hình ngôn ngữ lớn (LLM) duy nhất, nó xác định lại bối cảnh tạo video. Tính linh hoạt của nó trong việc xử lý văn bản, hình ảnh và âm thanh khiến nó không thể thiếu đối với những người sáng tạo nội dung cũng như những người đam mê AI, thiết lập một tiêu chuẩn mới cho sự sáng tạo và đổi mới.

Dưới đây là bảng phân tích các khả năng của VideoPoet bằng sơ đồ bên dưới.

Trước hết, hình ảnh đầu vào có thể trở nên sống động bằng hình ảnh động, tạo ra chuyển động động trong video. Ngoài ra, người dùng có tùy chọn chỉnh sửa video bằng cách cắt xén hoặc che một số khu vực nhất định, cho phép tạo hiệu ứng sơn trong hoặc sơn ngoài liền mạch.

Khi nói đến cách điệu, mô hình phát huy tác dụng kỳ diệu của nó bằng cách phân tích một video ghi lại độ sâu và luồng quang học—về cơ bản là chuyển động trong cảnh. Bằng cách sử dụng thông tin này, nó sẽ áp dụng các yếu tố phong cách được hướng dẫn bởi lời nhắc bằng văn bản, nâng cao sức hấp dẫn trực quan tổng thể của video.

Bấm để mở rộng

Nhưng đủ thuật ngữ kỹ thuật rồi - hãy nói về kết quả. Để giới thiệu các khả năng của VideoPoet, nhóm Nghiên cứu của Google đã sản xuất một đoạn phim ngắn dựa trên lời nhắc của Bard, một AI kể chuyện. Kết quả? Một câu chuyện hấp dẫn về một chú gấu trúc du hành, được tái hiện sống động qua hàng loạt video clip hấp dẫn. Đó là minh chứng cho sức mạnh của AI trong cách kể chuyện và cái nhìn thoáng qua về tương lai của sáng tạo đa phương tiện.

[Nhúng nội dung]

Trong một thế giới mà nội dung là vua, các công cụ như Sora và VideoPoet đang thay đổi trò chơi, trao quyền cho người sáng tạo biến ý tưởng của họ thành hiện thực theo những cách chưa từng có trước đây. Với các khả năng nâng cao và giao diện thân thiện với người dùng, những công cụ do AI điều khiển này sẵn sàng cách mạng hóa cách chúng ta kể chuyện và thể hiện bản thân thông qua video.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img