Zephyrnet-Logo

Eine Google-KI hat 30,000 Stunden Videospiele angeschaut – jetzt macht sie es sich zu eigen

Datum:

KI erzeugt weiterhin viel Licht und Wärme. Die besten Models in Text und Bild – die mittlerweile Abonnements haben und in Konsumgüter eingearbeitet werden – konkurrieren um Zentimeter. OpenAI, Google und Anthropic liegen mehr oder weniger Kopf an Kopf.

Es ist daher keine Überraschung, dass KI-Forscher versuchen, generative Modelle auf neues Terrain zu bringen. Da KI enorme Datenmengen erfordert, besteht eine Möglichkeit, die weitere Entwicklung vorherzusagen, darin, zu prüfen, welche Daten online weithin verfügbar, aber noch weitgehend unerschlossen sind.

Videos, von denen es jede Menge gibt, sind ein naheliegender nächster Schritt. Letzten Monat gab es tatsächlich eine Vorschau von OpenAI eine neue Text-zu-Video-KI namens Sora das verblüffte die Zuschauer.

Aber was ist mit Videospielen?

Fragen und Empfangen

Es stellt sich heraus, dass es online eine ganze Reihe von Gamer-Videos gibt. Google DeepMind gibt an, eine neue KI namens Genie anhand von 30,000 Stunden kuratiertem Videomaterial trainiert zu haben, das Spieler zeigt, die einfache Plattformspiele spielen – man denke an frühe Nintendo-Spiele – und Jetzt kann es eigene Beispiele erstellen.

Genie verwandelt ein einfaches Bild, Foto oder eine Skizze in ein interaktives Videospiel.

Nach einer Eingabeaufforderung, beispielsweise einer Zeichnung eines Charakters und seiner Umgebung, kann die KI dann die Eingaben eines Spielers übernehmen, um einen Charakter durch seine Welt zu bewegen. In einem Blogbeitrag zeigte DeepMind, wie Genies Kreationen durch 2D-Landschaften navigieren, herumlaufen oder zwischen Plattformen springen. Einige dieser Welten stammen, ähnlich wie eine Schlange, die ihren Schwanz frisst, sogar aus KI-generierten Bildern.

Im Gegensatz zu herkömmlichen Videospielen generiert Genie diese interaktiven Welten Bild für Bild. Bei einer Eingabeaufforderung und einem Bewegungsbefehl werden die wahrscheinlichsten nächsten Frames vorhergesagt und im Handumdrehen erstellt. Es hat sogar gelernt, einen Sinn für Parallaxe zu integrieren, ein häufiges Merkmal bei Plattformspielen, bei denen sich der Vordergrund schneller bewegt als der Hintergrund.

Bemerkenswerterweise enthielt das Training der KI keine Etiketten. Vielmehr lernte Genie, Eingabebefehle – etwa nach links, rechts gehen oder springen – mit Bewegungen im Spiel in Beziehung zu setzen, indem er einfach Beispiele in seinem Training beobachtete. Das heißt, wenn sich eine Figur in einem Video nach links bewegte, gab es keine Beschriftung, die den Befehl mit der Bewegung verknüpfte. Genie hat das selbst herausgefunden. Das bedeutet, dass künftige Versionen möglicherweise auf so vielen anwendbaren Videos trainiert werden könnten, wie es online gibt.

Die KI ist ein beeindruckender Proof of Concept, befindet sich jedoch noch in einem sehr frühen Entwicklungsstadium und DeepMind plant noch nicht, das Modell zu veröffentlichen.

Die Spiele selbst sind pixelige Welten, die mit einem Bild pro Sekunde vorbeiströmen. Im Vergleich dazu können moderne Videospiele 60 oder 120 Bilder pro Sekunde erreichen. Außerdem erzeugt Genie, wie alle generativen Algorithmen, seltsame oder inkonsistente visuelle Artefakte. Es neigt auch dazu, „unrealistische Zukunftsaussichten“ zu halluzinieren. Das Team schrieb in seiner Arbeit eine Beschreibung der KI.

Dennoch gibt es einige Gründe zu der Annahme, dass sich Genie von hier aus verbessern wird.

Welten aufpeitschen

Da die KI aus unbeschrifteten Online-Videos lernen kann und immer noch eine bescheidene Größe hat – nur 11 Milliarden Parameter – gibt es reichlich Möglichkeiten zur Skalierung. Größere Modelle, die auf mehr Informationen trainiert werden, verbessern sich tendenziell erheblich. Und mit einem wachsende Industrie, die sich auf Inferenz konzentriert– der Prozess, bei dem eine trainierte KI Aufgaben ausführt, wie zum Beispiel das Generieren von Bildern oder Text – wird wahrscheinlich schneller werden.

Laut DeepMind könnte Genie Menschen wie professionellen Entwicklern dabei helfen, Videospiele zu entwickeln. Aber wie OpenAI – das davon überzeugt ist, dass es bei Sora um mehr als nur Videos geht – denkt das Team größer. Der Ansatz könnte weit über Videospiele hinausgehen.

Ein Beispiel: KI, die Roboter steuern kann. Das Team trainierte ein separates Modell anhand eines Videos, in dem Roboterarme verschiedene Aufgaben erledigen. Das Modell lernte, die Roboter zu manipulieren und mit einer Vielzahl von Objekten umzugehen.

DeepMind sagte auch, dass von Genies generierte Videospielumgebungen zur Ausbildung von KI-Agenten genutzt werden könnten. Es ist keine neue Strategie. In einer Arbeit aus dem Jahr 2021 eine weitere Das DeepMind-Team hat ein Videospiel namens XLand entworfen das von KI-Agenten und einem KI-Overlord bevölkert war, der Aufgaben und Spiele erstellte, um sie herauszufordern. Die Idee, dass der nächste große Schritt in der KI Algorithmen erfordert, die sich gegenseitig trainieren oder synthetische Trainingsdaten generieren können, ist Traktion gewinnen.

All dies ist die jüngste Salve in einem intensiven Wettbewerb zwischen OpenAI und Google um Fortschritte in der KI. Während andere auf dem Gebiet, wie Anthropic, entwickeln multimodale Modelle ähnlich GPT-4, Google und OpenAI scheinen sich ebenfalls auf Algorithmen zu konzentrieren, die die Welt simulieren. Solche Algorithmen können besser planen und interagieren. Beides werden entscheidende Fähigkeiten für die KI-Agenten sein, die beide Organisationen offenbar hervorbringen wollen.

„Genie kann mit Bildern angeregt werden, die er noch nie zuvor gesehen hat, wie zum Beispiel Fotos oder Skizzen aus der realen Welt, wodurch Menschen mit ihren imaginären virtuellen Welten interagieren können – und im Wesentlichen als grundlegendes Weltmodell fungieren“, schrieben die Forscher in der Studie Genie-Blogbeitrag. „Wir konzentrieren uns auf Videos von 2D-Plattformspielen und Robotik aber unsere Methode ist allgemein und sollte für jede Art von Domain funktionieren und ist auf immer größere Internet-Datensätze skalierbar.“

Als OpenAI letzten Monat eine Vorschau auf Sora vorstellte, deuteten die Forscher ebenfalls an, dass es etwas Grundlegenderes ankündigen könnte: einen Weltsimulator. Das heißt, beide Teams scheinen den enormen Cache an Online-Videos als eine Möglichkeit zu betrachten, die KI zu trainieren, ihr eigenes Video zu erstellen, ja, aber auch, um sie in der Welt, online oder offline, effektiver zu verstehen und zu agieren.

Ob sich dies auszahlt oder langfristig nachhaltig ist, ist eine offene Frage. Das menschliche Gehirn nutzt die Leistung einer Glühbirne; Generative KI beansprucht ganze Rechenzentren. Aber es ist am besten, die Kräfte, die derzeit im Spiel sind – in Bezug auf Talent, Technologie, Köpfchen und Geld – nicht zu unterschätzen, die darauf abzielen, die KI nicht nur zu verbessern, sondern sie auch effizienter zu machen.

Wir haben beeindruckende Fortschritte bei Text, Bildern, Audio und allen dreien zusammen gesehen. Videos sind die nächste Zutat, die in den Topf geworfen wird, und sie könnten zu einem noch stärkeren Gebräu führen.

Bild-Kredit: Google DeepMind

spot_img

Neueste Intelligenz

spot_img