AI Weekly: Treffen Sie die Leute, die versuchen, OpenAIs GPT-3 – Plato Data Intelligence – zu replizieren und als Open-Source-Lösung bereitzustellen

Im Juni veröffentlichte OpenAI ein Papier Detaillierung GPT-3, ein Modell für maschinelles Lernen, das bei einer Reihe von Benchmarks für natürliche Sprachen starke Ergebnisse erzielt. Mit 175 Milliarden Parametern - der Teil des Modells, der aus historischen Trainingsdaten gelernt hat - ist es eines der größten seiner Art. Es gehört auch zu den raffiniertesten, mit der Fähigkeit, primitive Analogien zu machen, schreibe im Stil von Chaucerund sogar vollständigen Basiscode.

Im Gegensatz zu den Vorgängern von GPT-3, GPT-2 und GPT-1, entschied sich OpenAI dafür, das Modell oder den Trainingsdatensatz nicht als Open Source zu veröffentlichen, sondern erstere über eine kommerzielle API verfügbar zu machen. Das Unternehmen hat den Zugang weiter eingeschränkt, indem es GPT-3 exklusiv an Microsoft lizenziert hat, mit dem OpenAI eine Geschäftsbeziehung unterhält. Microsoft hat 1 Milliarde US-Dollar in OpenAI investiert und baute einen von Azure gehosteten Supercomputer, der die Forschung von OpenAI vorantreiben soll.

Es wurden mehrere Versuche unternommen, GPT-3 in Open Source neu zu erstellen. Am weitesten fortgeschritten ist jedoch GPT-Neo, ein Projekt, das von angeführt wird Eleuther AI. EleutherAI und seine Gründungsmitglieder - Connor Leahy, Leo Gao und Sid Black - sind eine Basis-Sammlung von Forschern, die sich mit Open-Source-Forschung zum maschinellen Lernen befassen. Ziel ist es, den Code und die Gewichte bereitzustellen, die für die Ausführung eines Modells erforderlich sind, das GPT ähnelt, jedoch nicht identisch ist -3 schon im August. (Gewichte sind Parameter innerhalb eines neuronalen Netzwerks, die Eingabedaten transformieren.)

Eleuther AI

Laut Leahy begann EleutherAI als „Scherz“ TPU-Podcast, ein maschinell lernender Discord-Server, auf dem er spielerisch vorschlug, dass jemand versuchen sollte, GPT-3 zu replizieren. Leahy, Gao und Black haben dies auf die Spitze getrieben und den EleutherAI Discord-Server gegründet, der zur Basis der Geschäftstätigkeit der Organisation wurde.

"Ich halte GPT-3 und andere ähnliche Ergebnisse für einen starken Beweis dafür, dass es tatsächlich möglich ist, [leistungsstarke Modelle] nur mit unseren aktuellen Techniken zu erstellen", sagte Leahy in einem Interview mit VentureBeat. "Es stellt sich tatsächlich als sehr, sehr schwierig heraus, aber nicht unmöglich mit einer Gruppe kluger Leute, wie EleutherAI gezeigt hat, und natürlich mit Zugang zu unangemessenen Mengen an Computerhardware."

Im Rahmen eines persönlichen Projekts hat Leahy zuvor versucht, GPT-2 zu replizieren und dabei den Zugriff auf Computer über das TFRC-Programm (Tensorflow Research Cloud) von Google zu nutzen. Die ursprüngliche Codebasis, die zu GPT-Neo wurde, wurde für die Ausführung auf Tensor Processing Units (TPUs) entwickelt, den benutzerdefinierten AI-Beschleunigerchips von Google. Das EleutherAI-Team kam jedoch zu dem Schluss, dass selbst die großzügige Menge an TPUs, die über TFRC bereitgestellt werden, nicht ausreichen würde, um die GPT-3-ähnliche Version von GPT-Neo in weniger als zwei Jahren zu trainieren.

Das Schicksal von EleutherAI änderte sich, als CoreWeave, ein in den USA ansässiger Cryptocurrency Miner, der Cloud-Services für CGI-Rendering und Workloads für maschinelles Lernen bereitstellt, auf das Unternehmen zuging. Im vergangenen Monat bot CoreWeave dem EleutherAI-Team Zugriff auf seine Hardware im Austausch für ein Open-Source-GPT-3-ähnliches Modell, das seine Kunden verwenden und bedienen konnten.

Leahy besteht darauf, dass die Arbeit, die um Weihnachten begann, weder Geld noch andere Entschädigungen beinhaltet, die in beide Richtungen gehen. "CoreWeave ermöglicht uns den Zugriff auf ihre Hardware. Wir erstellen ein Open-Source-GPT-3, das jeder nutzen kann (und bedanken uns sehr laut), und das ist alles", sagte er.

Trainingsdatensätze

EleutherAI räumt ein, dass GPT-Neo aufgrund der Entscheidung von OpenAI, einige wichtige Details der GPT-3-Architektur nicht zu veröffentlichen, zumindest in dieser Hinsicht davon abweichen wird. Weitere Unterschiede können sich aus dem Trainingsdatensatz ergeben, den EleutherAI verwenden möchte und der von einem Team von 10 Personen bei EleutherAI kuratiert wurde, darunter Leahy, Gao und Black.

Sprachmodelle wie GPT-3 verstärken häufig in Daten codierte Verzerrungen. Ein Teil der Trainingsdaten stammt nicht selten aus Communities mit allgegenwärtig Geschlecht, Rasse und religiöse Vorurteile. OpenAI merkt an, dass dies dazu führen kann, dass Wörter wie "ungezogen" oder "gelutscht" in der Nähe von weiblichen Pronomen und "Islam" in der Nähe von Wörtern wie "Terrorismus" platziert werden. Andere Studien, wie eine im April von Intel, MIT, und den Forschern des Canadian Institute for Advanced Research (CIFAR) veröffentlichte, haben bei einigen der beliebtesten Modelle ein hohes Maß an stereotyper Voreingenommenheit festgestellt, darunter Googles BERT und XLNet, GPA-2 von OpenAI und RoBERTa von Facebook. Böswillige Akteure könnten diese Tendenz nutzen, um Zwietracht zu schüren, indem sie Fehlinformationen, Desinformation und direkte Lügen verbreiten, die "Individuen zu gewalttätigen rechtsextremistischen Ideologien und Verhaltensweisen radikalisieren", so das Middlebury Institute of International Studies.

Das EleutherAI-Team gibt an, eine „umfassende Bias-Analyse“ des GPT-Neo-Trainingsdatensatzes durchgeführt und „schwierige redaktionelle Entscheidungen“ getroffen zu haben, um einige Datensätze auszuschließen, die ihrer Meinung nach gegenüber bestimmten Gruppen oder Ansichten „inakzeptabel negativ voreingenommen“ waren. Der so genannte Stapel ist ein 835-GB-Korpus, der aus 22 kleineren Datensätzen besteht, die kombiniert werden, um umfassende Verallgemeinerungsfähigkeiten sicherzustellen.

"Wir untersuchen weiterhin sorgfältig, wie sich unsere Modelle unter verschiedenen Umständen verhalten und wie wir sie sicherer machen können", sagte Leahy.

Leahy ist persönlich nicht der Meinung, dass die Veröffentlichung eines Modells wie GPT-3 einen direkten negativen Einfluss auf die Polarisation haben würde. Ein Gegner, der extremistische Ansichten generieren will, würde es viel billiger und einfacher finden, eine Trollfarm zu mieten, wie es autokratische Regierungen bereits getan haben. Darüber hinaus behauptet Leahy, dass Diskussionen über Diskriminierung und Voreingenommenheit auf ein echtes Problem hinweisen, aber keine vollständige Lösung bieten. Anstatt die Eingabedaten eines Modells zu zensieren, muss die KI-Forschungsgemeinschaft auf Systeme hinarbeiten, die „alles lernen können, was über das Böse gelernt werden kann, und dieses Wissen dann nutzen, um das Böse zu bekämpfen und gut zu werden“.

"Ich denke, die Kommerzialisierung von GPT-3-Modellen ist Teil eines unvermeidlichen Trends im sinkenden Preis für die Produktion überzeugender digitaler Inhalte, der nicht sinnvoll entgleist, ob wir ein Modell veröffentlichen oder nicht", fuhr Leahy fort. „Der größte Einfluss, den wir hier haben können, besteht darin, mehr ressourcenarmen Benutzern, insbesondere Akademikern, den Zugang zu diesen Technologien zu ermöglichen, um sie hoffentlich besser zu studieren, und auch unsere eigene Marke sicherheitsorientierter Forschung darüber durchzuführen, anstatt alles zu haben in Industrielabors eingeschlossen. Immerhin ist dies immer noch eine aktuelle Forschung. Probleme wie die Bias-Reproduktion werden natürlich auftreten, wenn solche Modelle unverändert in der Produktion verwendet werden, ohne dass eine umfassendere Untersuchung erforderlich ist, die wir aufgrund der besseren Modellverfügbarkeit von der Wissenschaft erwarten. “

Google vor kurzem gefeuert Der KI-Ethiker Timnit Gebru berichtete Berichten zufolge teilweise über ein Forschungspapier zu großen Sprachmodellen, in dem Risiken wie die Auswirkungen ihres COXNUMX-Fußabdrucks auf marginalisierte Gemeinschaften erörtert wurden. Auf die Umweltauswirkungen des Trainings von GPT-Neo angesprochen, charakterisierte Leahy das Argument als „roten Hering“ und sagte, es sei eine Frage, ob die Ziele die Mittel rechtfertigen - das heißt, ob die Leistung des Trainings die eingesetzte Energie wert ist hinein.

„Die Energiemenge, die für das Training eines solchen Modells aufgewendet wird, ist viel geringer als beispielsweise die Energie, die für die Bereitstellung einer mittelgroßen Website oder eines einzelnen transatlantischen Flugs zur Präsentation eines Papiers über die Kohlenstoffemissionen von KI-Modellen bei verwendet wird eine Konferenz oder, Gott bewahre, Bitcoin-Bergbau “, sagte Leahy. "Niemand beschwert sich über die Energierechnung des CERN (Europäische Organisation für Kernforschung), und ich denke auch nicht, dass dies der Fall sein sollte."

Zukünftige Arbeit

EleutherAI plant, architektonische Verbesserungen zu verwenden, die das Team für das Training von GPT-Neo als nützlich erachtet hat. Sie gehen davon aus, dass das Modell eine Leistung erzielen kann, die GPT-3 bei ungefähr derselben Größe (etwa 350 GB bis 700 GB Gewicht) ähnelt. In Zukunft planen sie, das endgültige Modell „um eine Größenordnung oder so kleiner“ zu destillieren, um die Schlussfolgerung zu erleichtern. Und obwohl sie nicht vorhaben, irgendeine kommerzielle API bereitzustellen, erwarten sie, dass CoreWeave und andere Dienste einrichten, um GPT-Neo für Benutzer zugänglich zu machen.

Was die nächste Iteration von GPT und ähnlich großen, komplexen Modellen wie Googles Billionen-Parameter betrifft Schalter-CLeahy glaubt, dass es wahrscheinlich schwieriger sein wird, sie zu replizieren. Es gibt jedoch Hinweise darauf, dass Effizienzverbesserungen die Anforderungen an die Montageberechnung ausgleichen könnten. Eine OpenAI Umfrage stellten fest, dass seit 2012 der Rechenaufwand, der erforderlich ist, um ein KI-Modell auf die gleichen Leistungsklassifizierungsbilder in einem beliebten Benchmark (ImageNet) zu trainieren, alle 16 Monate um den Faktor zwei abnimmt. Inwieweit das Rechnen im Vergleich zu neuartigen algorithmischen Ansätzen zur Leistung beiträgt, bleibt jedoch offen.

"Es scheint unvermeidlich, dass Modelle weiter an Größe zunehmen, solange Leistungssteigerungen folgen", sagte Leahy. „Ausreichend große Modelle sind für kleinere Schauspieler natürlich unerreichbar, aber dies scheint mir nur eine Tatsache des Lebens zu sein. Es scheint mir keine Alternative zu geben. Wenn größere Modelle gleichbedeutend mit besserer Leistung sind, wird jeder, der den größten Computer hat, das größte Modell herstellen und daher die beste Leistung erzielen, so einfach ist das. Ich wünschte, das wäre nicht so, aber es gibt wirklich nichts, was man dagegen tun könnte. “

Senden Sie für AI-Berichterstattung News-Tipps an Khari Johnson und Kyle Wiggers und AI-Editor Seth Colaner - und abonnieren Sie unbedingt die AI Wöchentlicher Newsletter und bookmarken Sie unseren KI-Kanal, The Machine.

Danke fürs Lesen,

Kyle Wiggers

Autor von KI-Mitarbeitern

VentureBeat

Die Mission von VentureBeat ist es, ein digitaler Stadtplatz für technische Entscheidungsträger zu sein, um Wissen über transformative Technologie und Transaktionen zu erlangen. Unsere Website bietet wichtige Informationen zu Datentechnologien und -strategien, die Sie bei der Führung Ihres Unternehmens unterstützen. Wir laden Sie ein, Mitglied unserer Community zu werden und auf Folgendes zuzugreifen:

aktuelle Informationen zu den für Sie interessanten Themen
unsere Newsletter
gated Vordenker-Inhalte und ermäßigter Zugang zu unseren wertvollen Veranstaltungen wie Transform
Netzwerkfunktionen und mehr

Mitglied werden

Generative Datenintelligenz

AI Weekly: Treffen Sie die Leute, die versuchen, OpenAIs GPT-3 zu replizieren und Open Source zu machen

Eleuther AI

Trainingsdatensätze

Zukünftige Arbeit

VentureBeat

Hedera steigt inmitten der BlackRock-Verwirrung um 113 % – entschlüsseln

BloFin sponsert TOKEN2049 Dubai und feiert das SideEvent: WhalesNight AfterParty 2024 | Live-Bitcoin-Nachrichten

Neueste Intelligenz

Solana Memecoin Bull Run beginnt: Bonk, Pepe und Dogwifhat verzeichnen einen Zuwachs von fast 40 %

Der Aufstieg der Datenintelligenz in Casinos

Großbritannien untersucht die KI-Unternehmen großer Technologieunternehmen wegen Wettbewerbsbedenken

Die faszinierende Welt der Online-Casinos: Ein digitales Abenteuer

Magische Runen – Entschlüsseln

Die Ausweitung des Streiks nach Europa beschleunigt die Einführung von Bitcoin

Chat mit uns