Zephyrnet Logosu

OpenAI güçlü, tüyler ürpertici yeni metinden videoya modelini tanıtıyor

Tarih:

ChatGPT ve DALL-E'nin arkasındaki üretken yapay zeka şirketinin yeni bir oyuncağı var: Sora, "şık bir kadın Tokyo sokağında yürüyor..." gibi istemlerden (bazen) oldukça ikna edici 60 saniyelik klipler oluşturabilen bir metinden videoya modeli. ve “kırmızı yünlü örme motosiklet kaskı takan 30 yaşındaki uzay adamının maceralarını anlatan bir film fragmanı…”

Şimdiye kadar gördüğümüz yapay zeka video nesillerinin çoğu, yüzleri, kıyafetleri ve nesneleri bir kareden diğerine yeniden tasarlayarak tutarlı bir gerçekliği sürdürmekte başarısız oluyor. Ancak Sora, "kullanıcının yalnızca istemde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor" diyor OpenAI. duyuru yazısı (“anlıyor” kelimesini gevşek bir şekilde kullanarak).

imgur.com'daki gönderiyi görüntüle”

Sora klipleri etkileyici. Yakından bakmasaydım (mesela sosyal medyada onların yanından geçiyordum) muhtemelen çoğunun gerçek olduğunu düşünürdüm. “Çin Ejderhası ile Çin Ay Yeni Yılı kutlama videosu” istemi ilk bakışta bir geçit töreninin tipik belgesel görüntülerine benziyor. Ama sonra insanların tuhaf oranlarda olduğunu ve tökezliyor gibi göründüklerini fark ediyorsunuz; bu, rüyanızda aniden her şeyin biraz yanlış olduğunu fark ettiğiniz an gibidir. Ürpertici.

OpenAI, "Mevcut modelin zayıf yönleri var" diye yazıyor. "Karmaşık bir sahnenin fiziğini doğru bir şekilde simüle etmekte zorlanabilir ve belirli neden-sonuç örneklerini anlayamayabilir. Örneğin, bir kişi bir kurabiyeden bir ısırık alabilir ancak sonrasında kurabiyede herhangi bir ısırık izi kalmayabilir. Model aynı zamanda bir istemin uzamsal ayrıntılarını da karıştırabilir (örneğin, sol ve sağın karıştırılması gibi) ve belirli bir kamera yörüngesini takip etmek gibi zaman içinde meydana gelen olayların kesin açıklamalarında zorluk yaşayabilir."

Sora'nın zayıf yönlerine dair en sevdiğim gösteri, plastik bir sandalyenin Cronenberg yaşam biçimine dönüşmeye başladığı videodur. işte:

imgur.com'daki gönderiyi görüntüle”

Sora şu anda halka açık değil ve OpenAI, modelin sosyal risklerini değerlendirdiğini ve örneğin "bir videonun Sora tarafından ne zaman oluşturulduğunu anlayabilen bir algılama sınıflandırıcısı" ile bunları hafifletmek için çalıştığını söylüyor.

Bir araştırma projesi olarak büyüleyici ancak OpenAI sadece harika bilgisayar bilimi yapmakla ilgilenmiyor. Telif hakkı eleştirmenlerini ve yasa koyucuları geride bırakabilirse, para kazanmak için burada. Şirket şu anda "modelin yaratıcı profesyonellere en yararlı olacak şekilde nasıl geliştirilebileceği konusunda geri bildirim almaları için bir dizi görsel sanatçıya, tasarımcıya ve film yapımcısına [Sora] erişimi sağladığını" söylüyor. 

Bir X'e yorum yapan kişi İyimser bir şekilde, Sora gibi modellerin bir gün halkın film yapımının kontrolünü Hollywood'dan tamamen anlık yönlendirmelerle film yaparak almasına izin verip vermeyeceğini merak ettim - ama eğer değilse, bilirsiniz, oluşturulan tüm bu videonun kaynak malzemesinin nereden geleceğini düşündüklerini merak ediyorum. film yapımcıları mı? Hollywood filmleri zaten oldukça homojen görünebilir, ancak bana sorarsanız, otomatik olarak yeniden üretilen Marvel Sinematik Evreni tarzı CGI ve araba reklamı drone çekimleri, kitlelere tam olarak yaratıcı ifadeyi getirmiyor. (Blog yazısında özellikle Sora'nın eğitim materyalinden bahsedilmiyor.)

imgur.com'daki gönderiyi görüntüle”

Üretken yapay zekanın çoğu zaman beceriksiz sonuçlarına ve sunduğu yasal, etik bataklığa rağmen, onun profesyonel yaratıcı medyada kullanıldığını zaten görüyoruz. Bu, hem sanat, ses ve anında diyalog oluşturmak gibi doğrudan bize görülebilen şekillerde hem de kod parçacıkları veya erken konsept çizimleri oluşturmak gibi daha az belirgin olan şekillerde video oyunlarını içerir. A son anket şunu ortaya çıkardı Oyun geliştirme profesyonellerinin %31'i belirli bir kapasitede üretken yapay zeka kullanıyor. Diğer yazılımlarla birleştirildiğinde, bu tür makine öğrenimi odaklı video simülasyonunun, hafif CG benzeri klipler oluşturmanın yanı sıra ne yapabileceğini merak ediyorum.

Üretken yapay zekanın beş veya on yıl içinde nasıl kullanılacağını veya sürekli gelişimin sonuçlarının ne olacağını kimsenin gerçekten bildiğini sanmıyorum, ancak yavaşlamıyor, bu yüzden öğreneceğiz gibi görünüyor. OpenAI ve diğer şirketler açıkça yalnızca daha iyi görüntü, video ve metin oluşturuculara yönelik değil, aynı zamanda yapay zekanın ne olduğuna dair bilim kurgu fikrinde olduğu gibi "yapay genel zekaya" veya AGI'ye yönelik çalışıyorlar.

OpenAI, "Sora, gerçek dünyayı anlayabilen ve simüle edebilen modeller için bir temel görevi görüyor; bu yeteneğin AGI'ye ulaşmada önemli bir kilometre taşı olacağına inanıyoruz" diyor.

spot_img

En Son İstihbarat

spot_img