和風網標誌

OpenAI 推出強大、令人毛骨悚然的新文字到視訊模型

日期:

ChatGPT 和DALL-E 背後的生成式人工智慧公司推出了一款新玩具:Sora,這是一種文字轉視頻模型,可以(有時)根據「一位時尚女性走在東京街頭…」等提示生成相當令人信服的60 秒剪輯。以及“一部講述戴著紅色羊毛針織摩托車頭盔的 30 歲太空人的冒險故事的電影預告片……”

到目前為止,我們看到的許多人工智慧影片都無法維持一致的現實,從一幀到下一幀重新設計臉孔、衣服和物體。然而,Sora“不僅能理解用戶在提示中提出的要求,還能理解這些東西在物理世界中的存在方式”,OpenAI 在 它的公告帖子 (寬鬆地使用“理解”一詞)。

查看 imgur.com 上的帖子”

Sora 的剪輯令人印象深刻。如果我不仔細觀察——比如說,我只是在社交媒體上瀏覽它們——我可能會認為其中許多都是真實的。提示「中國農曆新年慶祝影片與中國龍」乍看之下就像典型的遊行紀實鏡頭。但隨後你發現,人的比例很奇怪,而且似乎在跌跌撞撞——就像是在夢中突然發現一切都有點不對勁。爬行。

「當前模型存在弱點,」OpenAI 寫道。 「它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係的具體實例。例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。該模型還可能會混淆提示的空間細節,例如,混淆左右,並且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。”

我最喜歡的展示索拉弱點的影片是一個塑膠椅子開始變成柯南伯格生命體的影片。 看哪:

查看 imgur.com 上的帖子”

Sora 目前尚未向公眾開放,OpenAI 表示正在評估該模型的社會風險並致力於減輕風險,例如使用「一個可以判斷 Sora 何時生成影片的偵測分類器」。

作為一個研究項目,它很有趣,但 OpenAI 不僅僅對做很酷的電腦科學感興趣。如果它能夠戰勝版權批評者和立法者,它就能賺錢。該公司表示,目前“允許 [Sora] 接觸一些視覺藝術家、設計師和電影製作人,以獲取有關如何改進該模型的反饋,從而對創意專業人士最有幫助。” 

X 的評論者 樂觀地想知道,像索拉這樣的模型是否有一天會讓公眾通過純粹根據提示製作電影,從而從好萊塢手中奪取電影製作的控制權,但我想知道他們認為所有這些生成的視頻的源材料將來自哪裡,如果不是,你知道,電影製作人?好萊塢電影可能看起來已經相當同質化,但如果你問我的話,自動複製漫威電影宇宙風格的 CGI 和汽車商業無人機鏡頭並不能真正為大眾帶來創意表達。 (值得注意的是,這篇文章沒有提及 Sora 的訓練資料。)

查看 imgur.com 上的帖子”

儘管生成式人工智慧的結果往往很笨拙,而且還帶來了法律、道德的困境,但我們已經看到它在專業創意媒體中被使用。這包括視頻遊戲,既有我們直接可見的方式,例如生成藝術和聲音以及即時對話,也有不太明顯的方式,例如生成程式碼片段或早期概念藝術。 A 最近的調查發現 31% 的遊戲開發專業人員以某種方式使用生成式人工智慧。結合其他軟體,我想知道這種機器學習驅動的視訊模擬除了產生稍微有點偏離CG的剪輯之外還能做什麼?

我認為沒有人真正知道生成式人工智慧在五年或十年內將如何使用,或者持續發展會產生什麼後果,但它並沒有放緩,所以看來我們會找到答案。 OpenAI 和其他公司明確致力於不僅致力於更好的圖像、視訊和文字生成器,而且致力於「通用人工智慧」或 AGI——就像人工智慧的科幻概念一樣。

OpenAI 表示:“Sora 是能夠理解和模擬現實世界的模型的基礎,我們相信這一功能將成為實現 AGI 的重要里程碑。”

現貨圖片

最新情報

現貨圖片