VideoPoet: Google Looks To Challenge OpenAI Sora And Stable Diffusion For Dominance In AI Video Creation - Tech Startups

Şubat ayında OpenAI büyük bir sıçrama yaptı. Sora'nın açılışı, metin istemlerini ilgi çekici videolara dönüştürebilen etkileyici bir yapay zeka aracı. Sora ile kullanıcılar, yapay zekanın kısa metin ipuçlarından dinamik 60 saniyelik videolar oluşturmasını izleyerek fikirlerine hayat verebilir. Ancak şehirdeki başka bir oyuncu internette ses getiriyor: Google'ın üç ay önce sahneye çıkan bir video oluşturma aracı olan VideoPoet.

VideoPoet, Google Araştırma'daki 31 araştırmacıdan oluşan bir ekibin buluşudur ve multimedya oluşturma dünyasında ezber bozan bir üründür. Sora metni görsel hikayelere dönüştürmeye odaklanırken VideoPoet farklı bir yaklaşım benimsiyor. Otoregresif dil modelleme ve MAGVIT V2 ve SoundStream gibi belirteçler gibi gelişmiş teknikler sayesinde metinleri, görüntüleri ve hatta mevcut video görüntülerini kullanarak gerçekçi videolar oluşturma konusunda mükemmeldir. Bu çok yönlülük, dijital sanat, film prodüksiyonu ve etkileşimli medya için bir olasılıklar dünyasının kapılarını açıyor.

Kaynak: Google Araştırması

VideoPoet'i öne çıkaran şey benzersiz mimarisidir. Birçok video oluşturma modeli, alanda en iyi performans gösterenler olarak kabul edilen yayılma tabanlı yöntemlere dayanırken, Google Araştırma farklı bir yol izledi. Google Araştırmacıları, popüler Kararlı Difüzyon modelini kullanmak yerine, transformatör mimarisini temel alan büyük bir dil modelini (LLM) tercih etti. Genellikle metin ve kod oluşturmak için kullanılan bu tür yapay zeka modeli, video oluşturmak üzere yeniden tasarlandı; VideoPoet'i kalabalıktan ayıran cesur bir hareket.

"Mevcut modellerin çoğu, genellikle video oluşturmada mevcut en iyi performans gösterenler olarak kabul edilen yayılmaya dayalı yöntemler kullanıyor. Bu video modelleri genellikle tek tek kareler için yüksek kaliteli görüntüler üreten Stable Diffusion gibi önceden eğitilmiş bir görüntü modeliyle başlar ve ardından video kareleri arasında zamansal tutarlılığı artırmak için modele ince ayar yapar," diye yazdı Google Araştırma ekibi ön incelemelerinde. gözden geçirmek Araştırma kağıdı.

VideoPoet nedir ve nasıl çalışır?

VideoPoet özünde video, görüntü, ses ve metin gibi çeşitli yöntemlerden öğrenmek için otoregresif bir dil modeli kullanır. Bu, birden fazla tokenizer kullanılarak mümkün kılınır.MAGVİT V2 video ve görüntü için ve ses için SoundStream.

Model, belirli bir bağlama dayalı olarak tokenlar ürettiğinde, bu tokenlar daha sonra ilgili tokenizerin kod çözücüsü kullanılarak tekrar görünür bir temsile dönüştürülür. Bu, farklı medya biçimleri arasında kesintisiz çeviriye olanak tanıyarak tüm yöntemlerde tutarlı ve kapsamlı bir anlayış sağlar. Aşağıda VideoPoet'in bileşenleri bulunmaktadır:

Görüntüleri, videoları ve ses kliplerini modelin anlayabileceği bir kod dizisine çeviren, önceden eğitilmiş MAGVIT V2 ve SoundStream belirteçleri.
Sıradaki bir sonraki belirteci tahmin etmek için çeşitli yöntemlerden (video, görüntü, ses ve metin) öğrenen otoregresif bir dil modeli.
VideoPoet'in çeşitli ve yüksek kaliteli videolar oluşturmasına olanak tanıyan metinden videoya, metinden resme, resimden videoya ve daha fazlasını içeren bir dizi üretken öğrenme hedefi.

Devrim Yaratan Özellikler ve Yetenekler

Sora ve Stable Diffusion gibi VideoPoet de video oluşturmaya yeni bir bakış açısı getiren bazı devrim niteliğinde özelliklere sahiptir.

Yüksek Hareketli Değişken Uzunlukta Videolar: Geleneksel modellerden farklı olarak VideoPoet, yüksek hareketli, değişken uzunluktaki videoları zahmetsizce işleyerek video oluşturmada mümkün olanın sınırlarını zorlar.

Çapraz Modalite Öğrenme: VideoPoet'in güçlü yönlerinden biri farklı yöntemlerle öğrenme yeteneğinde yatmaktadır. VideoPoet, metin, görseller, videolar ve ses arasındaki boşluğu doldurarak yaratıcı süreci zenginleştiren bütünsel bir anlayış sunar.

Etkileşimli Düzenleme Yetenekleri: VideoPoet yalnızca video oluşturmakla kalmaz; kullanıcılara etkileşimli düzenleme özellikleri sağlar. Giriş videolarını genişletmekten hareketleri kontrol etmeye ve metin istemlerine göre stilize edilmiş efektler uygulamaya kadar, yaratıcı kontrolü kullanıcıya verir.

Google'ın VideoPoet'i, bir video oluşturma aracından çok daha fazlasıdır; yapay zeka dünyasında ezber bozan bir araçtır. Birden fazla yeteneği tek bir büyük dil modeline (LLM) sorunsuz bir şekilde entegre ederek, video oluşturma ortamını yeniden tanımlıyor. Metin, görüntü ve ses işlemedeki çok yönlülüğü, onu hem içerik oluşturucular hem de yapay zeka meraklıları için vazgeçilmez kılıyor ve yaratıcılık ve yenilik için yeni bir standart belirliyor.

Aşağıdaki şemayı kullanarak VideoPoet'in yeteneklerinin bir dökümünü burada bulabilirsiniz.

Öncelikle, giriş görüntüleri animasyonla hayata geçirilebilir ve video içinde dinamik hareket yaratılabilir. Ek olarak, kullanıcılar belirli alanları kırparak veya maskeleyerek videoları düzenleme seçeneğine de sahip olup, kesintisiz iç boyama veya dış boyama efektlerine olanak tanır.

Stilizasyon söz konusu olduğunda model, derinliği ve optik akışı, yani sahne içindeki hareketi yakalayan bir videoyu analiz ederek sihrini ortaya koyuyor. Bu bilgiyi kullanarak, metin istemlerinin yönlendirdiği biçimsel öğeleri uygulayarak videonun genel görsel çekiciliğini artırır.

Genişletmek için tıklayın

Ancak bu kadar teknik jargon yeterli; hadi sonuçları konuşalım. VideoPoet'in yeteneklerini sergilemek için Google Araştırma ekibi, hikaye anlatma yapay zekası Bard'ın yönlendirmelerine dayanarak bir kısa film hazırladı. Sonuç? Bir dizi büyüleyici video kliple hayata geçirilen, gezici bir rakunun büyüleyici hikayesi. Bu, yapay zekanın hikaye anlatımındaki gücünün bir kanıtı ve multimedya yaratmanın geleceğine bir bakış.

[Gömülü içerik]

İçeriğin kral olduğu bir dünyada Sora ve VideoPoet gibi araçlar oyunu değiştiriyor ve yaratıcılara fikirlerini daha önce mümkün olmayan şekillerde hayata geçirme gücü veriyor. Gelişmiş yetenekleri ve kullanıcı dostu arayüzleriyle bu yapay zeka destekli araçlar, hikaye anlatma ve kendimizi video aracılığıyla ifade etme biçimimizde devrim yaratmaya hazırlanıyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://techstartups.com/2024/04/12/videopoet-google-looks-to-challenge-openai-sora-and-stable-diffusion-for-dominance-in-ai-video-creation/

Üretken Veri Zekası

VideoPoet: Google, AI video oluşturmada üstünlük sağlamak için OpenAI Sora ve Stable Diffusion'a meydan okumaya çalışıyor – Tech Startups

VideoPoet nedir ve nasıl çalışır?

Devrim Yaratan Özellikler ve Yetenekler

Bu Ağır Hizmet E-Kargo Bisikleti 2 Metreküp Taşıma Alanına Sahiptir ve 800 Pound'dan Fazla Yük Taşıyabilir – CleanTechnica

Karga temalı meme coin bir haftada neredeyse %600 arttı

En Son İstihbarat

Ethereum Balinaları, 140 Milyon Dolarlık ETH Satışıyla Piyasa Kaosunu Tetikledi

Bitcoin 63 Bin Dolar civarında Dalgalanıyor, Hong Kong Spot Kripto ETF'nin Çıkışını Bekliyor

Yeni Çin Yapay Zeka Robotu Giysileri Katlayabiliyor ve Sandviç Yapabiliyor

DronePort Network, Vigilant Aerospace – Vigilant Aerospace Systems, Inc. ile stratejik ortaklığını duyurdu.

Yeni Başvuru, SEC'in Ethereum'u Gizlice Bir Yıl Boyunca Kayıtsız Bir Menkul Değer Olarak Değerlendirdiğini Ortaya Çıkardı

MicroStrategy 1 Milyon Dolarlık Bitcoin Varlık Değer Kaybı Ücretinin Ardından 53.1 Milyon Dolarlık Faaliyet Kaybı