Zephyrnet-Logo

OpenAI stellt ein leistungsstarkes, gruseliges neues Text-zu-Video-Modell vor

Datum:

Das generative KI-Unternehmen hinter ChatGPT und DALL-E hat ein neues Spielzeug: Sora, ein Text-zu-Video-Modell, das (manchmal) ziemlich überzeugende 60-Sekunden-Clips aus Aufforderungen wie „Eine stilvolle Frau geht eine Straße in Tokio entlang …“ generieren kann. und „ein Filmtrailer mit den Abenteuern des 30-jährigen Weltraummanns, der einen roten Wollstrick-Motorradhelm trägt …“

Ein Großteil der KI-Videogeneration, die wir bisher gesehen haben, schafft es nicht, eine konsistente Realität aufrechtzuerhalten und Gesichter, Kleidung und Objekte von einem Bild zum nächsten neu zu gestalten. Sora „versteht jedoch nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren“, sagt OpenAI in seinen Ankündigungsbeitrag (Verwendung des Wortes „versteht“ locker).

Beitrag auf imgur.com ansehen“

Die Sora-Clips sind beeindruckend. Wenn ich nicht genau hinsehen würde – sagen wir, ich würde einfach in den sozialen Medien an ihnen vorbeiscrollen –, würde ich wahrscheinlich denken, dass viele von ihnen echt sind. Die Aufforderung „ein Video zur Feier des chinesischen Mondneujahrs mit chinesischem Drachen“ sieht auf den ersten Blick wie typisches Dokumentarfilmmaterial einer Parade aus. Aber dann merkt man, dass die Menschen seltsame Proportionen haben und zu stolpern scheinen – es ist wie der Moment in einem Traum, in dem man plötzlich merkt, dass alles ein bisschen schief läuft. Unheimlich.

„Das aktuelle Modell hat Schwächen“, schreibt OpenAI. „Es kann schwierig sein, die Physik einer komplexen Szene genau zu simulieren, und es kann sein, dass bestimmte Fälle von Ursache und Wirkung nicht verstanden werden. Beispielsweise könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweisen. Das Modell verwechselt möglicherweise auch räumliche Details einer Eingabeaufforderung, indem es beispielsweise links und rechts verwechselt, und hat möglicherweise Schwierigkeiten mit der präzisen Beschreibung von Ereignissen, die im Laufe der Zeit stattfinden, wie etwa dem Verfolgen einer bestimmten Kamerabahn.“

Meine Lieblingsdemonstration von Soras Schwächen ist ein Video, in dem sich ein Plastikstuhl in eine Cronenberg-Lebensform zu verwandeln beginnt. Schauen:

Beitrag auf imgur.com ansehen“

Sora ist derzeit nicht für die Öffentlichkeit verfügbar, und OpenAI sagt, dass es die sozialen Risiken des Modells bewertet und daran arbeitet, diese zu mindern, beispielsweise mit „einem Erkennungsklassifikator, der erkennen kann, wann ein Video von Sora erstellt wurde“.

Als Forschungsprojekt ist es faszinierend, aber OpenAI ist nicht nur daran interessiert, coole Informatik zu betreiben. Wenn es Urheberrechtskritiker und Gesetzgeber ausmanövrieren kann, ist es hier, um Geld zu verdienen. Das Unternehmen gibt an, dass es [Sora] derzeit „Zugang zu einer Reihe von bildenden Künstlern, Designern und Filmemachern gewährt, um Feedback zu erhalten, wie das Modell so weiterentwickelt werden kann, dass es für Kreativprofis am hilfreichsten ist“. 

Eins Kommentator zu X Ich frage mich optimistisch, ob Models wie Sora es der Öffentlichkeit eines Tages ermöglichen werden, Hollywood die Kontrolle über das Filmemachen zu entreißen, indem sie Filme nur auf Anraten machen – aber ich frage mich, woher ihrer Meinung nach das Quellmaterial für all diese generierten Videos kommen wird, wenn nicht, wissen Sie? Filmemacher? Hollywood-Filme sehen vielleicht schon ziemlich homogen aus, aber die automatische Reproduktion von CGI- und kommerziellen Drohnenaufnahmen im Marvel Cinematic Universe-Stil bringt meiner Meinung nach nicht gerade kreativen Ausdruck in die Massen. (Der Blog-Beitrag erwähnt Soras Schulungsmaterial insbesondere nicht.)

Beitrag auf imgur.com ansehen“

Trotz der oft unbeholfenen Ergebnisse generativer KI und des rechtlichen und ethischen Sumpfes, den sie mit sich bringt, erleben wir bereits, dass sie in professionellen kreativen Medien eingesetzt wird. Dazu gehören Videospiele, sowohl auf eine Art und Weise, die für uns direkt sichtbar ist, indem sie beispielsweise Kunst, Stimmen und spontane Dialoge erzeugen, als auch auf eine Art und Weise, die weniger offensichtlich ist, wie die Generierung von Codeschnipseln oder frühen Konzeptzeichnungen. A Das ergab eine aktuelle Umfrage 31 % der Spieleentwickler nutzen in irgendeiner Weise generative KI. In Kombination mit anderer Software frage ich mich, was diese Art von auf maschinellem Lernen basierender Videosimulation bewirken könnte, außer leicht abweichende CG-ähnliche Clips zu erzeugen.

Ich glaube nicht, dass irgendjemand wirklich weiß, wie generative KI in fünf oder zehn Jahren eingesetzt wird oder welche Konsequenzen eine weitere Entwicklung haben wird, aber sie verlangsamt sich nicht, also werden wir es wohl noch herausfinden. OpenAI und andere Unternehmen arbeiten explizit nicht nur an besseren Bild-, Video- und Textgeneratoren, sondern auch an „künstlicher allgemeiner Intelligenz“ oder AGI – im Sinne der Science-Fiction-Idee dessen, was KI ist.

„Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können, eine Fähigkeit, die unserer Meinung nach ein wichtiger Meilenstein für die Erreichung von AGI sein wird“, sagt OpenAI.

spot_img

Neueste Intelligenz

spot_img