Zephyrnet Logosu

VideoPoet: Google, AI video oluşturmada üstünlük sağlamak için OpenAI Sora ve Stable Diffusion'a meydan okumaya çalışıyor – Tech Startups

Tarih:

Şubat ayında OpenAI büyük bir sıçrama yaptı. Sora'nın açılışı, metin istemlerini ilgi çekici videolara dönüştürebilen etkileyici bir yapay zeka aracı. Sora ile kullanıcılar, yapay zekanın kısa metin ipuçlarından dinamik 60 saniyelik videolar oluşturmasını izleyerek fikirlerine hayat verebilir. Ancak şehirdeki başka bir oyuncu internette ses getiriyor: Google'ın üç ay önce sahneye çıkan bir video oluşturma aracı olan VideoPoet.

VideoPoet, Google Araştırma'daki 31 araştırmacıdan oluşan bir ekibin buluşudur ve multimedya oluşturma dünyasında ezber bozan bir üründür. Sora metni görsel hikayelere dönüştürmeye odaklanırken VideoPoet farklı bir yaklaşım benimsiyor. Otoregresif dil modelleme ve MAGVIT V2 ve SoundStream gibi belirteçler gibi gelişmiş teknikler sayesinde metinleri, görüntüleri ve hatta mevcut video görüntülerini kullanarak gerçekçi videolar oluşturma konusunda mükemmeldir. Bu çok yönlülük, dijital sanat, film prodüksiyonu ve etkileşimli medya için bir olasılıklar dünyasının kapılarını açıyor.

Kaynak: Google Araştırması

VideoPoet'i öne çıkaran şey benzersiz mimarisidir. Birçok video oluşturma modeli, alanda en iyi performans gösterenler olarak kabul edilen yayılma tabanlı yöntemlere dayanırken, Google Araştırma farklı bir yol izledi. Google Araştırmacıları, popüler Kararlı Difüzyon modelini kullanmak yerine, transformatör mimarisini temel alan büyük bir dil modelini (LLM) tercih etti. Genellikle metin ve kod oluşturmak için kullanılan bu tür yapay zeka modeli, video oluşturmak üzere yeniden tasarlandı; VideoPoet'i kalabalıktan ayıran cesur bir hareket.

"Mevcut modellerin çoğu, genellikle video oluşturmada mevcut en iyi performans gösterenler olarak kabul edilen yayılmaya dayalı yöntemler kullanıyor. Bu video modelleri genellikle tek tek kareler için yüksek kaliteli görüntüler üreten Stable Diffusion gibi önceden eğitilmiş bir görüntü modeliyle başlar ve ardından video kareleri arasında zamansal tutarlılığı artırmak için modele ince ayar yapar," diye yazdı Google Araştırma ekibi ön incelemelerinde. gözden geçirmek Araştırma kağıdı.

VideoPoet nedir ve nasıl çalışır?

VideoPoet özünde video, görüntü, ses ve metin gibi çeşitli yöntemlerden öğrenmek için otoregresif bir dil modeli kullanır. Bu, birden fazla tokenizer kullanılarak mümkün kılınır.MAGVİT V2 video ve görüntü için ve ses için SoundStream.

Model, belirli bir bağlama dayalı olarak tokenlar ürettiğinde, bu tokenlar daha sonra ilgili tokenizerin kod çözücüsü kullanılarak tekrar görünür bir temsile dönüştürülür. Bu, farklı medya biçimleri arasında kesintisiz çeviriye olanak tanıyarak tüm yöntemlerde tutarlı ve kapsamlı bir anlayış sağlar. Aşağıda VideoPoet'in bileşenleri bulunmaktadır:

  • Görüntüleri, videoları ve ses kliplerini modelin anlayabileceği bir kod dizisine çeviren, önceden eğitilmiş MAGVIT V2 ve SoundStream belirteçleri.
  • Sıradaki bir sonraki belirteci tahmin etmek için çeşitli yöntemlerden (video, görüntü, ses ve metin) öğrenen otoregresif bir dil modeli.
  • VideoPoet'in çeşitli ve yüksek kaliteli videolar oluşturmasına olanak tanıyan metinden videoya, metinden resme, resimden videoya ve daha fazlasını içeren bir dizi üretken öğrenme hedefi.

Devrim Yaratan Özellikler ve Yetenekler

Sora ve Stable Diffusion gibi VideoPoet de video oluşturmaya yeni bir bakış açısı getiren bazı devrim niteliğinde özelliklere sahiptir.

Yüksek Hareketli Değişken Uzunlukta Videolar: Geleneksel modellerden farklı olarak VideoPoet, yüksek hareketli, değişken uzunluktaki videoları zahmetsizce işleyerek video oluşturmada mümkün olanın sınırlarını zorlar.

Çapraz Modalite Öğrenme: VideoPoet'in güçlü yönlerinden biri farklı yöntemlerle öğrenme yeteneğinde yatmaktadır. VideoPoet, metin, görseller, videolar ve ses arasındaki boşluğu doldurarak yaratıcı süreci zenginleştiren bütünsel bir anlayış sunar.

Etkileşimli Düzenleme Yetenekleri: VideoPoet yalnızca video oluşturmakla kalmaz; kullanıcılara etkileşimli düzenleme özellikleri sağlar. Giriş videolarını genişletmekten hareketleri kontrol etmeye ve metin istemlerine göre stilize edilmiş efektler uygulamaya kadar, yaratıcı kontrolü kullanıcıya verir.

Google'ın VideoPoet'i, bir video oluşturma aracından çok daha fazlasıdır; yapay zeka dünyasında ezber bozan bir araçtır. Birden fazla yeteneği tek bir büyük dil modeline (LLM) sorunsuz bir şekilde entegre ederek, video oluşturma ortamını yeniden tanımlıyor. Metin, görüntü ve ses işlemedeki çok yönlülüğü, onu hem içerik oluşturucular hem de yapay zeka meraklıları için vazgeçilmez kılıyor ve yaratıcılık ve yenilik için yeni bir standart belirliyor.

Aşağıdaki şemayı kullanarak VideoPoet'in yeteneklerinin bir dökümünü burada bulabilirsiniz.

Öncelikle, giriş görüntüleri animasyonla hayata geçirilebilir ve video içinde dinamik hareket yaratılabilir. Ek olarak, kullanıcılar belirli alanları kırparak veya maskeleyerek videoları düzenleme seçeneğine de sahip olup, kesintisiz iç boyama veya dış boyama efektlerine olanak tanır.

Stilizasyon söz konusu olduğunda model, derinliği ve optik akışı, yani sahne içindeki hareketi yakalayan bir videoyu analiz ederek sihrini ortaya koyuyor. Bu bilgiyi kullanarak, metin istemlerinin yönlendirdiği biçimsel öğeleri uygulayarak videonun genel görsel çekiciliğini artırır.

Genişletmek için tıklayın

Ancak bu kadar teknik jargon yeterli; hadi sonuçları konuşalım. VideoPoet'in yeteneklerini sergilemek için Google Araştırma ekibi, hikaye anlatma yapay zekası Bard'ın yönlendirmelerine dayanarak bir kısa film hazırladı. Sonuç? Bir dizi büyüleyici video kliple hayata geçirilen, gezici bir rakunun büyüleyici hikayesi. Bu, yapay zekanın hikaye anlatımındaki gücünün bir kanıtı ve multimedya yaratmanın geleceğine bir bakış.

[Gömülü içerik]

İçeriğin kral olduğu bir dünyada Sora ve VideoPoet gibi araçlar oyunu değiştiriyor ve yaratıcılara fikirlerini daha önce mümkün olmayan şekillerde hayata geçirme gücü veriyor. Gelişmiş yetenekleri ve kullanıcı dostu arayüzleriyle bu yapay zeka destekli araçlar, hikaye anlatma ve kendimizi video aracılığıyla ifade etme biçimimizde devrim yaratmaya hazırlanıyor.

spot_img

En Son İstihbarat

spot_img