Zephyrnet-logo

OpenAI onthult krachtig, griezelig nieuw tekst-naar-video-model

Datum:

Het generatieve AI-bedrijf achter ChatGPT en DALL-E heeft een nieuw speeltje: Sora, een tekst-naar-video-model dat (soms) behoorlijk overtuigende fragmenten van 60 seconden kan genereren op basis van aanwijzingen als "een stijlvolle vrouw loopt door een straat in Tokio..." en “een filmtrailer met de avonturen van de 30-jarige ruimteman met een gebreide motorhelm van rode wol...”

Een groot deel van de AI-videogeneratie die we tot nu toe hebben gezien, slaagt er niet in een consistente realiteit in stand te houden, waarbij gezichten, kleding en objecten van het ene frame naar het andere opnieuw worden ontworpen. Sora begrijpt echter “niet alleen waar de gebruiker om heeft gevraagd in de prompt, maar ook hoe die dingen in de fysieke wereld bestaan”, zegt OpenAI in zijn aankondigingspost (waarbij je het woord “begrijpt” losjes gebruikt).

Bekijk bericht op imgur.com”

De Sora-clips zijn indrukwekkend. Als ik niet goed keek – bijvoorbeeld als ik er gewoon langs scrollde op sociale media – zou ik waarschijnlijk denken dat veel ervan echt waren. De prompt “een Chinese nieuwjaarsvieringsvideo met Chinese Draak” lijkt in eerste instantie op typische documentaire beelden van een parade. Maar dan besef je dat de mensen vreemd geproportioneerd zijn en lijken te struikelen; het is net het moment in een droom waarop je plotseling merkt dat alles een beetje verkeerd is. Eng.

“Het huidige model heeft zwakke punten”, schrijft OpenAI. “Het kan moeite hebben met het nauwkeurig simuleren van de fysica van een complexe scène, en het kan zijn dat specifieke gevallen van oorzaak en gevolg niet worden begrepen. Iemand kan bijvoorbeeld een hap uit een koekje nemen, maar daarna is het mogelijk dat het koekje geen bijtafdruk meer heeft. Het model kan ook de ruimtelijke details van een prompt verwarren, bijvoorbeeld door links en rechts door elkaar te halen, en kan moeite hebben met nauwkeurige beschrijvingen van gebeurtenissen die in de loop van de tijd plaatsvinden, zoals het volgen van een specifiek cameratraject.”

Mijn favoriete demonstratie van Sora's zwakheden is een video waarin een plastic stoel begint te veranderen in een Cronenberg-levensvorm. aanschouwen:

Bekijk bericht op imgur.com”

Sora is momenteel niet beschikbaar voor het publiek, en OpenAI zegt dat het de sociale risico's van het model beoordeelt en eraan werkt om deze te beperken, bijvoorbeeld met "een detectieclassificator die kan zien wanneer een video door Sora is gegenereerd."

Het is fascinerend als onderzoeksproject, maar OpenAI is niet alleen geïnteresseerd in coole computerwetenschap. Als het auteursrechtcritici en wetgevers te slim af kan zijn, is het hier om geld te verdienen. Het bedrijf zegt dat het [Sora] momenteel toegang verleent aan een aantal beeldend kunstenaars, ontwerpers en filmmakers om feedback te krijgen over hoe het model verder kan worden ontwikkeld, zodat het zo nuttig mogelijk is voor creatieve professionals. 

One commentator op X Ik vroeg me optimistisch af of modellen als Sora op een dag het publiek de controle over het filmmaken aan Hollywood zullen ontnemen door films puur met aanwijzingen te maken – maar ik vraag me af waar ze denken dat het bronmateriaal voor al deze gegenereerde video vandaan zal komen, zo niet, weet je, filmmakers? Hollywood-films zien er misschien al behoorlijk homogeen uit, maar het automatisch reproduceren van CGI in Marvel Cinematic Universe-stijl en commerciële drone-opnames van auto's brengen niet bepaald creatieve expressie naar de massa, als je het mij vraagt. (De blogpost vermeldt met name het trainingsmateriaal van Sora niet.)

Bekijk bericht op imgur.com”

Ondanks de vaak onhandige resultaten van generatieve AI en het juridische, ethische moeras dat het met zich meebrengt, zien we het al gebruikt worden in professionele creatieve media. Dat geldt ook voor videogames, zowel op manieren die direct zichtbaar zijn voor ons, zoals het genereren van kunst en stemmen en directe dialogen, als op manieren die minder voor de hand liggend zijn, zoals het genereren van codefragmenten of vroege concept art. A Uit een recent onderzoek is gebleken dat 31% van de game-ontwikkelaars maakt in een bepaalde hoedanigheid gebruik van generatieve AI. Gecombineerd met andere software vraag ik me af wat dit soort machine learning-gestuurde videosimulatie zou kunnen doen, behalve het genereren van enigszins afwijkende CG-achtige clips?

Ik denk niet dat iemand echt weet hoe generatieve AI over vijf of tien jaar zal worden gebruikt of wat de gevolgen van voortdurende ontwikkeling zullen zijn, maar het vertraagt ​​niet, dus het lijkt erop dat we daar wel achter zullen komen. OpenAI en andere bedrijven werken expliciet niet alleen aan betere beeld-, video- en tekstgeneratoren, maar ook aan ‘kunstmatige algemene intelligentie’ of AGI – zoals in het sciencefiction-idee van wat AI is.

“Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een mogelijkheid die volgens ons een belangrijke mijlpaal zal zijn voor het bereiken van AGI”, zegt OpenAI.

spot_img

Laatste intelligentie

spot_img