Zephyrnet-Logo

Sora AI produziert sofort atemberaubende Videos

Datum:

Sora, ein beeindruckendes neues generatives Videomodell von OpenAI, kann eine kurze Textbeschreibung in einen minutenlangen, komplexen, hochauflösenden Filmclip umwandeln.

OpenAI, die Muttergesellschaft des ChatGPT-Chatbots und des Standbildgenerators DALL-E, gehört zu den vielen Unternehmen, die an der Verbesserung dieses Instant-Videogenerators wetteifern. Zu den weiteren Unternehmen zählen Start-ups wie Runway und Technologiegiganten wie Google und Meta Platforms Inc., die Eigentümer von Facebook und Instagram.

Die Technologie hat das Potenzial, weniger erfahrene Digitalkünstler vollständig zu ersetzen und gleichzeitig die Arbeit erfahrener Filmemacher zu beschleunigen.

Lesen Sie auch: Der Mitbegründer von OpenAI, Andrej Karpathy, tritt zurück und blickt auf Personal Ventures

Sora freilassen

OpenAI nannte sein neues System Sora, das japanische Wort für Himmel. Das Entwicklungsteam der Technologie, darunter die Forscher Tim Brooks und Bill Peebles, wählte den Namen, weil er „die Idee eines grenzenlosen kreativen Potenzials hervorruft“.

Sie sagten auch, dass das Unternehmen Sora noch nicht der Öffentlichkeit zugänglich gemacht habe, da es noch die mit dem System verbundenen Risiken prüfe. Vielmehr teilt OpenAI die Technologie mit einer ausgewählten Gruppe von Akademikern und anderen externen Forschern, die sie in einem „Red Team“ zusammenfassen, ein Begriff, der die Suche nach potenziellem Missbrauch beschreibt.

Laut Dr. Brooks besteht die Absicht hier darin, eine Vorschau auf das zu geben, was sich am Horizont abzeichnet, damit die Menschen die Fähigkeiten dieser Technologie erkennen und Feedback erhalten können.

OpenAI markiert die Videos

OpenAI markiert vom System erstellte Videos bereits mit Wasserzeichen, um anzuzeigen, dass sie durch künstliche Intelligenz (KI) generiert wurden. Das Unternehmen erkennt jedoch an, dass diese entfernt werden können. Sie fügten hinzu, dass es auch schwierig sein kann, sie zu identifizieren.

Laut OpenAISie lehren künstliche Intelligenz (KI), die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die Menschen bei der Lösung von Problemen helfen, die eine Interaktion in der realen Welt erfordern.

Darüber hinaus gewähren sie Zugang zu mehreren bildenden Künstlern, Designern und Filmemachern, um Feedback dazu zu erhalten, wie das Modell so weiterentwickelt werden kann, dass es für Kreativprofis am hilfreichsten ist.

Sie teilen ihre Forschungsfortschritte frühzeitig mit, um mit Menschen außerhalb von OpenAI zusammenzuarbeiten und Feedback von ihnen zu erhalten und der Öffentlichkeit einen Eindruck davon zu vermitteln, welche KI-Fähigkeiten sich am Horizont abzeichnen.

Sora entwickeln

Aber, OpenAI weigerte sich, die Anzahl der Videos offenzulegen, aus denen das System gelernt hatte, oder woher sie kamen. Sie gaben lediglich an, dass die Schulung sowohl öffentlich verfügbare Videos als auch von Urheberrechtsinhabern lizenzierte Videos umfasste.

Das Unternehmen wurde mehrfach wegen der Verwendung urheberrechtlich geschützter Inhalte verklagt. Es versucht wahrscheinlich, einen Vorsprung gegenüber der Konkurrenz zu behalten, und gibt daher nichts über die Daten preis, die zum Trainieren seiner Technologien verwendet werden.

Darüber hinaus verfügt das Modell über ein umfassendes Sprachverständnis, das es ihm ermöglicht, Aufforderungen genau zu interpretieren und überzeugende Charaktere zu generieren, die Emotionen anschaulich vermitteln. Sora kann auch mehrere Aufnahmen erstellen, die die visuelle Aufnahme und den Charakter innerhalb eines einzelnen generierten Videos beibehalten.

OpenAI teilte die Aufforderung mit, ein Video auf seinem X-Handle zu erstellen, was mehrere Reaktionen von X-Benutzern hervorrief.

Die Schwächen des Modells

Laut OpenAI weist das aktuelle Modell Schwächen auf. Es benötigt möglicherweise Hilfe bei der genauen Simulation der Physik einer komplexen Szene und benötigt möglicherweise Hilfe beim Verständnis spezifischer Fälle von Ursache und Wirkung. Beispielsweise könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweist.

Das Modell muss möglicherweise auch die räumlichen Details einer Eingabeaufforderung klären, z. B. die Verwechslung von links und rechts, und benötigt möglicherweise Hilfe bei der genauen Beschreibung von Ereignissen, die im Laufe der Zeit stattfinden, z. B. beim Verfolgen einer bestimmten Kamerabahn.

spot_img

VC-Café

VC-Café

Neueste Intelligenz

spot_img