Lernen, Minecraft mit Video PreTraining (VPT) zu spielen

Wir haben ein neuronales Netzwerk darauf trainiert, Minecraft per Video PreTraining (VPT) auf einem riesigen unbeschrifteten Videodatensatz des menschlichen Minecraft-Spiels zu spielen, während nur eine kleine Menge an beschrifteten Auftragnehmerdaten verwendet wurde. Mit der Feinabstimmung kann unser Modell lernen, Diamantwerkzeuge herzustellen, eine Aufgabe, die erfahrene Menschen normalerweise über 20 Minuten (24,000 Aktionen) benötigen. Unser Modell verwendet die native menschliche Schnittstelle von Tastendrücken und Mausbewegungen, was es ziemlich allgemein macht und einen Schritt in Richtung allgemeiner Computer verwendender Agenten darstellt.

Papier lesen

Anzeigen von Code- und Modellgewichten

MineRL-Wettbewerb

Das Internet enthält eine enorme Menge an öffentlich zugänglichen Videos, aus denen wir lernen können. Sie können zusehen, wie eine Person eine wunderschöne Präsentation macht, ein Digitalkünstler einen wunderschönen Sonnenuntergang zeichnet und ein Minecraft-Spieler ein kompliziertes Haus baut. Diese Videos bieten jedoch nur eine Aufzeichnung davon was geschah, aber nicht genau wie es wurde erreicht, dh Sie kennen die genaue Abfolge von Mausbewegungen und gedrückten Tasten nicht. Wenn wir großflächig bauen möchten Gründungsmodelle in diesen Domänen, wie wir es in der Sprache mit getan haben GPTstellt dieser Mangel an Aktionsbezeichnungen eine neue Herausforderung dar, die im Sprachbereich nicht vorhanden ist, wo „Aktionsbezeichnungen“ einfach die nächsten Wörter in einem Satz sind.

Um die Fülle der im Internet verfügbaren unbeschrifteten Videodaten zu nutzen, stellen wir eine neuartige, aber einfache, halbüberwachte Imitationslernmethode vor: Video PreTraining (VPT). Wir beginnen damit, einen kleinen Datensatz von Auftragnehmern zu sammeln, in dem wir nicht nur ihre Videos aufzeichnen, sondern auch die von ihnen durchgeführten Aktionen, die in unserem Fall Tastendrücke und Mausbewegungen sind. Mit diesen Daten trainieren wir ein inverses Dynamikmodell (IDM), das die Aktion vorhersagt, die bei jedem Schritt im Video durchgeführt wird. Wichtig ist, dass die IDM Vergangenheit verwenden kann und Zukunft Informationen, um die Aktion bei jedem Schritt zu erraten. Diese Aufgabe ist viel einfacher und erfordert daher weitaus weniger Daten als die Klonierungsaufgabe des Verhaltens, gegebene Aktionen vorherzusagen Nur vergangene Videoframes, was erfordert, abzuleiten, was die Person tun möchte und wie sie es erreichen kann. Wir können dann das trainierte IDM verwenden, um einen viel größeren Datensatz von Online-Videos zu kennzeichnen und zu lernen, durch verhaltensbasiertes Klonen zu handeln.

VPT Zero-Shot-Ergebnisse

Wir haben uns entschieden, unsere Methode in Minecraft zu validieren, weil es (1) eines der am aktivsten gespielten Videospiele der Welt ist und daher über eine Fülle von frei verfügbaren Videodaten verfügt und (2) offen für eine Vielzahl von Dingen ist tun, ähnlich wie bei realen Anwendungen wie der Computernutzung. nicht wie vor Werk in Minecraft, die vereinfachte Aktionsräume verwenden, um das Erkunden zu erleichtern, verwendet unsere KI die viel allgemeiner anwendbare, aber auch viel schwierigere, native menschliche Schnittstelle: 20 Hz Framerate mit Maus und Tastatur.

Unser verhaltensbasiertes Klonmodell (das „VPT-Grundlagenmodell“), das mit 70,000 Stunden IDM-gekennzeichnetem Online-Video trainiert wurde, erfüllt Aufgaben in Minecraft, die mit Verstärkungslernen von Grund auf kaum zu bewältigen sind. Es lernt, Bäume zu fällen, um Baumstämme zu sammeln, diese Baumstämme zu Brettern zu verarbeiten und diese Bretter dann zu einem Handwerkstisch zu verarbeiten. Für diese Sequenz benötigt ein Mensch, der sich mit Minecraft auskennt, ungefähr 50 Sekunden oder 1,000 aufeinanderfolgende Spielaktionen.

Abfolge von Gegenständen, die zum Herstellen eines Werktisches erforderlich sind, gekennzeichnet mit der durchschnittlichen Zeit, die kompetente Menschen benötigen, um jeden Schritt zu erreichen

[Eingebetteten Inhalt]

Basteln einer Basteltabelle „Nullschuss“ (d.h. erst nach Vorschulung ohne zusätzliches Feintuning)

Darüber hinaus führt das Modell andere komplexe Fähigkeiten aus, die Menschen im Spiel häufig ausführen, wie z. B. Schwimmen, Jagen von Tieren nach Nahrung und Essen dieser Nahrung. Es lernte auch die Fähigkeit des „Säulenspringens“, ein in Minecraft übliches Verhalten, bei dem man sich durch wiederholtes Springen und Platzieren eines Blocks unter sich selbst erhöht.

Feinabstimmung mit Behavioral Cloning

Foundation-Modelle sind so konzipiert, dass sie ein breites Verhaltensprofil haben und im Allgemeinen für eine Vielzahl von Aufgaben geeignet sind. Um neues Wissen einfließen zu lassen oder sich auf eine engere Aufgabenverteilung zu spezialisieren, ist es gängige Praxis, diese Modelle auf kleinere, spezifischere Datensätze abzustimmen. Als Fallstudie darüber, wie gut das VPT-Grundlagenmodell auf nachgelagerte Datensätze abgestimmt werden kann, haben wir unsere Auftragnehmer gebeten, 10 Minuten lang in brandneuen Minecraft-Welten zu spielen und ein Haus aus grundlegenden Minecraft-Materialien zu bauen. Wir hofften, dass dies die Fähigkeit des Basismodells verstärken würde, „frühe Spiel“-Fähigkeiten wie das Bauen von Handwerkstischen zuverlässig auszuführen. Bei der Feinabstimmung dieses Datensatzes sehen wir nicht nur eine massive Verbesserung bei der zuverlässigen Ausführung der bereits im Basismodell vorhandenen frühen Spielfähigkeiten, sondern das feinabgestimmte Modell lernt auch, noch tiefer in den Technologiebaum einzudringen, indem es beides aus Holz herstellt und Steinwerkzeuge. Manchmal sehen wir sogar einen rudimentären Bau von Unterkünften und den Agenten, der Dörfer durchsucht, einschließlich des Überfallens von Truhen.

Abfolge von Gegenständen, die zur Herstellung einer Steinspitzhacke erforderlich sind, gekennzeichnet mit der mittleren Zeit, die ein geübter Mensch benötigt, um jeden Schritt zu erreichen

Verbessertes frühes Spielverhalten durch BC-Feinabstimmung

[Eingebetteten Inhalt]

Herstellen einer Steinspitzhacke

[Eingebetteten Inhalt]

Bau einer rudimentären Holzunterkunft

[Eingebetteten Inhalt]

Suche durch ein Dorf

Datenskalierung

Die vielleicht wichtigste Hypothese unserer Arbeit ist, dass es weitaus effektiver ist, gekennzeichnete Auftragnehmerdaten zum Trainieren eines IDM (als Teil der VPT-Pipeline) zu verwenden, als direkt ein BC-Grundlagenmodell aus demselben kleinen Auftragnehmerdatensatz zu trainieren. Um diese Hypothese zu validieren, trainieren wir Grundlagenmodelle mit steigenden Datenmengen von 1 bis 70,000 Stunden. Diejenigen, die mit weniger als 2,000 Stunden an Daten geschult wurden, werden mit den Auftragnehmerdaten mit Ground-Truth-Labels geschult, die ursprünglich gesammelt wurden, um das IDM zu schulen, und diejenigen, die mit über 2,000 Stunden geschult wurden, werden mit Internetdaten geschult, die mit unserem IDM gekennzeichnet sind. Anschließend nehmen wir jedes Gründungsmodell und passen es an den im vorherigen Abschnitt beschriebenen Hausbaudatensatz an.

Auswirkung der Trainingsdaten des Grundmodells auf die Feinabstimmung

Mit zunehmender Datenbasis von Fundamentmodellen sehen wir im Allgemeinen eine Zunahme der Handwerksfähigkeiten, und nur auf der größten Datenskala sehen wir das Aufkommen der Steinwerkzeugherstellung.

Feinabstimmung mit Reinforcement Learning

Wenn es möglich ist, eine Belohnungsfunktion zu spezifizieren, kann Reinforcement Learning (RL) eine leistungsstarke Methode sein, um hohe, möglicherweise sogar übermenschliche Leistungen hervorzurufen. Viele Aufgaben erfordern jedoch die Überwindung harter Explorationsherausforderungen, und die meisten RL-Methoden gehen diese an zufällig Explorationsprioritäten, z. B. Modelle, werden oft über Entropieboni dazu angeregt, zufällig zu handeln. Das VPT-Modell sollte ein viel besserer Vorläufer für RL sein, da die Nachahmung menschlichen Verhaltens wahrscheinlich viel hilfreicher ist als zufällige Aktionen. Wir haben unserem Modell die herausfordernde Aufgabe gestellt, eine Diamantspitzhacke zu sammeln, eine beispiellose Fähigkeit in Minecraft, die durch die Verwendung der nativen menschlichen Schnittstelle noch schwieriger wird.

Die Herstellung einer Diamantspitzhacke erfordert eine lange und komplizierte Abfolge von Teilaufgaben. Um diese Aufgabe handhabbar zu machen, belohnen wir Agenten für jedes Element in der Sequenz.

[Eingebetteten Inhalt]

RL Feinabgestimmtes VPT-Modell, das eine Diamantspitzhacke herstellt

Wir haben festgestellt, dass eine RL-Richtlinie, die durch eine zufällige Initialisierung (die Standard-RL-Methode) trainiert wurde, kaum eine Belohnung erzielt, nie lernt, Protokolle zu sammeln, und nur selten Sticks sammelt. Im krassen Gegensatz dazu lernt die Feinabstimmung eines VPT-Modells nicht nur, wie man Diamantspitzhacken herstellt (was in 2.5 % der 10-minütigen Minecraft-Episoden der Fall ist), sondern hat sogar eine Erfolgsquote auf menschlicher Ebene beim Sammeln aller Gegenstände, die dazu führen die Diamantspitzhacke. Dies ist das erste Mal, dass jemand einen Computeragenten gezeigt hat, der Diamantwerkzeuge in Minecraft herstellen kann, was Menschen im Durchschnitt über 20 Minuten (24,000 Aktionen) dauert.

Belohnung über Episoden

Zusammenfassung

VPT ebnet den Weg, Agenten dies zu ermöglichen Handeln lernen indem Sie sich die unzähligen Videos im Internet ansehen. Im Vergleich zu generativer Videomodellierung oder kontrastiven Verfahren würde das nur nachgeben gegenständlich Priors bietet VPT die spannende Möglichkeit, direkt in großem Maßstab zu lernen Verhaltensprioritäten in mehr Bereichen als nur der Sprache. Während wir nur in Minecraft experimentieren, ist das Spiel sehr offen und die native menschliche Schnittstelle (Maus und Tastatur) ist sehr generisch, daher glauben wir, dass unsere Ergebnisse ein gutes Zeichen für andere ähnliche Bereiche, zB Computernutzung, sind.

Weitere Informationen finden Sie unter unser Papier. Wir bieten auch Open-Sourcing für unsere Auftragnehmerdaten, die Minecraft-Umgebung, den Modellcode und die Modellgewichte an, von denen wir hoffen, dass sie die zukünftige Erforschung von VPT unterstützen werden. Darüber hinaus sind wir dieses Jahr Partner des MineRL NeurIPS-Wettbewerbs. Die Teilnehmer können unsere Modelle verwenden und optimieren, um zu versuchen, viele schwierige Aufgaben in Minecraft zu lösen. Interessierte können sich das anschauen Wettbewerbsseite und konkurrieren Sie um einen blauen Himmelspreis von $100,000 zusätzlich zu einem regulären Preispool von $20,000. Zuschüsse stehen selbst identifizierten unterrepräsentierten Gruppen und Einzelpersonen zur Verfügung.

Generative Datenintelligenz

Minecraft spielen lernen mit Video PreTraining (VPT)

VPT Zero-Shot-Ergebnisse

Feinabstimmung mit Behavioral Cloning

Verbessertes frühes Spielverhalten durch BC-Feinabstimmung

Datenskalierung

Auswirkung der Trainingsdaten des Grundmodells auf die Feinabstimmung

Feinabstimmung mit Reinforcement Learning

Belohnung über Episoden

Zusammenfassung

Die faszinierende Welt der Online-Casinos: Ein digitales Abenteuer

Die Zuflüsse von Bitcoin-US-ETFs übersteigen am 23. April die neue tägliche Bergbauproduktion

Neueste Intelligenz

Die erwartete Rendite von Bitcoin aus der Mt.-Gox-Ära im Wert von 9 Milliarden US-Dollar könnte Marktangst schüren

DeGods-Gründer „Frank“ neckt Rückkehr nach Solana mit Bridge-Testbild

Quantum News Briefs: 24. April 2024: Neuigkeiten von Xanadu und Chicago Quantum Exchange • Wolfram und Classiq • Colorado Gouverneur Jared Polis • ICFO...

Das US-Justizministerium empfiehlt eine dreijährige Haftstrafe für Binance-Gründer CZ

Nigeria bestreitet das Einfrieren von über 300 P2P-Konten auf weiteren Krypto-Börsen aufgrund von Währungsbedenken

Regen bringt Entlastung für Wasserseen

Chat mit uns