Zephyrnet-Logo

Wie „groken“ Maschinen Daten? | Quanta-Magazin

Datum:

Einleitung

Bei aller Brillanz sind künstliche neuronale Netze nach wie vor undurchschaubar. Wenn diese Netzwerke größer werden, explodieren ihre Fähigkeiten, aber es war schon immer nahezu unmöglich, ihr Innenleben zu entschlüsseln. Forscher sind ständig auf der Suche nach Erkenntnissen über diese Modelle.

Vor ein paar Jahren entdeckten sie ein neues.

Im Januar 2022 haben Forscher von OpenAI, dem Unternehmen hinter ChatGPT, berichtet dass diese Systeme einzigartige Methoden zur Problemlösung entwickelten, wenn man sie versehentlich viel länger als üblich an Daten fressen ließ. Wenn Ingenieure Modelle für maschinelles Lernen aus neuronalen Netzen erstellen – bestehend aus Recheneinheiten, die als künstliche Neuronen bezeichnet werden – neigen sie normalerweise dazu, das Training an einem bestimmten Punkt, dem so genannten Überanpassungsregime, abzubrechen. Dies ist der Zeitpunkt, an dem das Netzwerk grundsätzlich damit beginnt, sich seine Trainingsdaten zu merken, und diese häufig nicht auf neue, unsichtbare Informationen verallgemeinern kann. Doch als das OpenAI-Team versehentlich ein kleines Netzwerk weit über diesen Punkt hinaus trainierte, schien es ein Verständnis für das Problem zu entwickeln, das über das bloße Auswendiglernen hinausging – es konnte plötzlich alle Testdaten übertreffen.

Die Forscher nannten das Phänomen „Grokking“, ein vom Science-Fiction-Autor Robert A. Heinlein geprägter Begriff, der bedeutet, etwas „so gründlich zu verstehen, dass der Beobachter Teil des beobachteten Prozesses wird“. Das übertrainierte neuronale Netzwerk, das bestimmte mathematische Operationen ausführen sollte, hatte die allgemeine Struktur der Zahlen gelernt und das Ergebnis verinnerlicht. Es hatte geklappt und war zur Lösung geworden.

„Das war sehr aufregend und regte zum Nachdenken an“, sagte er Michail Belkin von der University of California, San Diego, der die theoretischen und empirischen Eigenschaften neuronaler Netze untersucht. „Es hat viele Folgearbeiten angeregt.“

Tatsächlich haben andere die Ergebnisse repliziert und sie sogar rückentwickelt. Die jüngsten Veröffentlichungen haben nicht nur klargestellt, was diese neuronalen Netze tun, wenn sie grocken, sondern auch eine neue Linse bereitgestellt, um ihr Inneres zu untersuchen. „Der Grokking-Aufbau ist wie ein guter Modellorganismus zum Verständnis vieler verschiedener Aspekte des Deep Learning“, sagte er Eric Michaud des Massachusetts Institute of Technology.

Der Blick in das Innere dieses Organismus ist manchmal recht aufschlussreich. „Man kann nicht nur eine schöne Struktur finden, sondern diese schöne Struktur ist auch wichtig, um zu verstehen, was im Inneren vor sich geht“, sagte er Neel Nanda, jetzt bei Google DeepMind in London.

Grenzen überschreiten

Grundsätzlich scheint die Aufgabe eines maschinellen Lernmodells einfach zu sein: Eine gegebene Eingabe in eine gewünschte Ausgabe umwandeln. Es ist die Aufgabe des Lernalgorithmus, nach der bestmöglichen Funktion zu suchen, die dies leisten kann. Jedes gegebene Modell kann nur auf eine begrenzte Menge an Funktionen zugreifen, und diese Menge wird oft durch die Anzahl der Parameter im Modell bestimmt, die im Fall neuronaler Netze in etwa der Anzahl der Verbindungen zwischen künstlichen Neuronen entspricht.

Einleitung

Während ein Netzwerk trainiert, neigt es dazu, komplexere Funktionen zu lernen, und die Diskrepanz zwischen der erwarteten und der tatsächlichen Ausgabe beginnt bei Trainingsdaten zu sinken. Noch besser ist, dass diese als Verlust bezeichnete Diskrepanz auch bei Testdaten abnimmt, bei denen es sich um neue Daten handelt, die nicht im Training verwendet werden. Aber irgendwann fängt das Modell an, überzupassen, und während der Verlust der Trainingsdaten weiter sinkt, beginnt der Verlust der Testdaten zu steigen. Normalerweise hören die Forscher dann auf, das Netzwerk zu trainieren.

Das war die vorherrschende Meinung, als das Team von OpenAI begann zu erforschen, wie ein neuronales Netzwerk Mathematik leisten könnte. Sie benutzten eine kleine Transformator – eine Netzwerkarchitektur, die kürzlich große Sprachmodelle revolutioniert hat – um verschiedene Arten modularer Arithmetik durchzuführen, bei der Sie mit einer begrenzten Menge von Zahlen arbeiten, die auf sich selbst zurückschleifen. Modulo 12 kann beispielsweise auf einem Zifferblatt durchgeführt werden: 11 + 2 = 1. Das Team zeigte Netzwerkbeispiele für die Addition zweier Zahlen. a und b, um eine Ausgabe zu erzeugen, c, im Modulo 97 (entspricht einem Zifferblatt mit 97 Ziffern). Anschließend testeten sie den Transformator an unbekannten Kombinationen von a und b um zu sehen, ob es richtig vorhersagen konnte c.

Als das Netzwerk in den Überanpassungsmodus überging, näherte sich der Verlust der Trainingsdaten erwartungsgemäß nahezu Null (es begann sich zu merken, was es gesehen hatte), und der Verlust der Testdaten begann zu steigen. Es war keine Verallgemeinerung. „Und dann hatten wir eines Tages Glück“, sagte Teamleiterin Alethea Power. Rede im September 2022 auf einer Konferenz in San Francisco. „Und mit Glück meine ich vergesslich.“

Das Teammitglied, das das Netzwerk trainierte, ging in den Urlaub und vergaß, das Training abzubrechen. Als diese Version des Netzwerks weiter trainierte, wurde sie plötzlich auf unsichtbare Daten genau. Automatische Tests offenbarten dem Rest des Teams diese unerwartete Genauigkeit und sie erkannten bald, dass das Netzwerk clevere Wege gefunden hatte, die Zahlen zu ordnen a und b. Intern stellt das Netzwerk die Zahlen in einem hochdimensionalen Raum dar, aber als die Forscher diese Zahlen in den zweidimensionalen Raum projizierten und kartierten, bildeten die Zahlen einen Kreis.

Das war erstaunlich. Das Team hat dem Modell nie gesagt, dass es Modulo-97-Mathematik ausführt, oder auch nur, was Modulo bedeutet – es hat ihm lediglich Rechenbeispiele gezeigt. Das Modell schien auf eine tiefere, analytische Lösung gestoßen zu sein – eine Gleichung, die sich auf alle Kombinationen von verallgemeinern ließ a und b, sogar über die Trainingsdaten hinaus. Das Netzwerk war kaputt und die Genauigkeit der Testdaten schoss auf 100 %. „Das ist seltsam“, sagte Power ihrem Publikum.

Das Team verifizierte die Ergebnisse mithilfe verschiedener Aufgaben und verschiedener Netzwerke. Die Entdeckung hielt an.

Von Uhren und Pizzas

Aber welche Gleichung hatte das Netzwerk gefunden? Das sagte das OpenAI-Papier nicht, aber das Ergebnis erregte Nandas Aufmerksamkeit. „Eines der Kerngeheimnisse und Ärgernisse neuronaler Netze ist, dass sie sehr gut darin sind, was sie tun, wir aber standardmäßig keine Ahnung haben, wie sie funktionieren“, sagte Nanda, deren Arbeit sich auf das Reverse Engineering eines trainierten Netzwerks konzentriert Netzwerk, um herauszufinden, welche Algorithmen es gelernt hat.

Nanda war von der OpenAI-Entdeckung fasziniert und beschloss, ein kaputtes neuronales Netzwerk auseinanderzunehmen. Er entwarf eine noch einfachere Version des neuronalen Netzwerks OpenAI, damit er die Parameter des Modells genau untersuchen konnte, während es lernte, modulare Arithmetik durchzuführen. Er beobachtete das gleiche Verhalten: eine Überanpassung, die einer Generalisierung Platz machte, und eine abrupte Verbesserung der Testgenauigkeit. Sein Netzwerk ordnete auch Zahlen in einem Kreis an. Es kostete einige Mühe, aber Nanda fand schließlich heraus, warum.

Während es die Zahlen auf einem Kreis darstellte, zählte das Netzwerk nicht einfach nur Ziffern ab wie ein Kindergartenkind, das auf eine Uhr schaut: Es führte einige anspruchsvolle mathematische Manipulationen durch. Durch die Untersuchung der Werte der Netzwerkparameter, Nanda und Kollegen enthüllten dass es die Uhrenzahlen addierte, indem es „diskrete Fourier-Transformationen“ an ihnen durchführte – die Zahlen mithilfe trigonometrischer Funktionen wie Sinus und Cosinus transformierte und diese Werte dann mithilfe trigonometrischer Identitäten manipulierte, um zur Lösung zu gelangen. Zumindest war dies das, was sein spezielles Netzwerk tat.

Als ein Team am MIT folgte Anhand von Nandas Arbeit zeigten sie, dass die großen neuronalen Netze diesen „Uhr“-Algorithmus nicht immer entdecken. Manchmal finden die Netzwerke stattdessen das, was die Forscher den „Pizza“-Algorithmus nennen. Bei diesem Ansatz wird eine Pizza in Scheiben geteilt und der Reihe nach nummeriert. Um zwei Zahlen zu addieren, stellen Sie sich vor, Sie zeichnen Pfeile von der Mitte der Pizza zu den betreffenden Zahlen und berechnen dann die Linie, die den Winkel halbiert, den die ersten beiden Pfeile bilden. Diese Linie verläuft durch die Mitte eines Stücks Pizza: Die Nummer des Stücks ist die Summe der beiden Zahlen. Diese Operationen können auch als trigonometrische und algebraische Manipulationen der Sinus- und Kosinuswerte von niedergeschrieben werden a und b, und sie sind theoretisch genauso genau wie der Uhransatz.

Einleitung

„Sowohl [der] Clock- als auch der Pizza-Algorithmus haben diese kreisförmige Darstellung“, sagte er Ziming Liu, ein Mitglied des MIT-Teams. „Aber … wie sie diese Sinus- und Kosinuswerte nutzen, ist unterschiedlich. Deshalb nennen wir sie unterschiedliche Algorithmen.“

Und das war noch nicht alles. Nachdem sie zahlreiche Netzwerke für Modulo-Mathematik trainiert hatten, stellten Liu und Kollegen fest, dass etwa 40 % der von diesen Netzwerken entdeckten Algorithmen Varianten der Pizza- oder Clock-Algorithmen waren. Das Team war in der restlichen Zeit nicht in der Lage zu entschlüsseln, was die Netzwerke tun. Bei den Pizza- und Clock-Algorithmen „kommt es einfach vor, dass sie etwas finden, das wir Menschen interpretieren können“, sagte Liu.

Und welchen Algorithmus auch immer ein Netzwerk lernt, wenn es ein Problem löst, er ist bei der Verallgemeinerung sogar noch leistungsfähiger, als die Forscher vermutet haben. Als ein Team an der University of Maryland fütterte ein einfaches neuronales Netzwerk Bei Trainingsdaten mit zufälligen Fehlern verhielt sich das Netzwerk zunächst wie erwartet: Überpasste die Trainingsdaten, Fehler und alles, und schnitt bei unbeschädigten Testdaten schlecht ab. Sobald das Netzwerk jedoch einmal gegrokt hatte und begann, die Testfragen richtig zu beantworten, konnte es selbst für die falschen Eingaben korrekte Antworten liefern, wobei es die gespeicherten falschen Antworten vergaß und sogar auf seine Trainingsdaten verallgemeinerte. „Die Grokking-Aufgabe ist tatsächlich ziemlich robust gegenüber dieser Art von Verfälschungen“, sagte er Darshil Doshi, einer der Autoren des Papiers.

Kampf um die Kontrolle

Infolgedessen beginnen Forscher nun, den Prozess zu verstehen, der dazu führt, dass ein Netzwerk seine Daten erfasst. Nanda betrachtet die scheinbare äußere Plötzlichkeit des Grokkens als Ergebnis eines allmählichen internen Übergangs vom Auswendiglernen zur Verallgemeinerung, bei dem zwei verschiedene Algorithmen innerhalb des neuronalen Netzwerks verwendet werden. Wenn ein Netzwerk mit dem Lernen beginnt, findet er zunächst heraus, welchen Algorithmus sich einfacher merken lässt; Obwohl der Algorithmus einfacher ist, erfordert er jedoch erhebliche Ressourcen, da das Netzwerk jede Instanz der Trainingsdaten speichern muss. Doch schon während des Auswendiglernens beginnen Teile des neuronalen Netzwerks, Schaltkreise zu bilden, die die allgemeine Lösung umsetzen. Die beiden Algorithmen konkurrieren während des Trainings um Ressourcen, aber die Generalisierung setzt sich schließlich durch, wenn das Netzwerk mit einer zusätzlichen Zutat namens Regularisierung trainiert wird.

„Die Regulierung verschiebt die Lösung langsam in Richtung der Generalisierungslösung“, sagte Liu. Dies ist ein Prozess, der die Funktionsfähigkeit des Modells verringert – die Komplexität der Funktion, die das Modell lernen kann. Da die Regularisierung die Komplexität des Modells verringert, siegt schließlich der generalisierende Algorithmus, der weniger komplex ist. „Eine Generalisierung ist bei gleicher Leistung einfacher“, sagte Nanda. Schließlich verwirft das neuronale Netzwerk den Speicheralgorithmus.

Während also die verzögerte Fähigkeit zur Generalisierung scheinbar plötzlich auftritt, lernen die Parameter des Netzwerks intern kontinuierlich den Generalisierungsalgorithmus. Erst wenn das Netzwerk sowohl den Generalisierungsalgorithmus gelernt als auch den Merkalgorithmus vollständig entfernt hat, kommt es zum Grokken. „Es ist möglich, dass Dinge, die plötzlich erscheinen, unter der Oberfläche tatsächlich allmählich geschehen“, sagte Nanda – ein Thema, das ebenfalls zur Sprache kam andere Forschung zum maschinellen Lernen.

Trotz dieser Durchbrüche ist es wichtig, sich daran zu erinnern, dass die Grokking-Forschung noch in den Kinderschuhen steckt. Bisher haben Forscher nur extrem kleine Netzwerke untersucht, und es ist nicht klar, ob diese Ergebnisse auch für größere, leistungsfähigere Netzwerke gelten. Belkin warnt außerdem davor, dass die modulare Arithmetik im Vergleich zu all den unterschiedlichen Aufgaben, die von heutigen neuronalen Netzen erledigt werden, „ein Tropfen auf den heißen Stein“ sei. Das Reverse Engineering der Lösung eines neuronalen Netzwerks für solche Mathematik reicht möglicherweise nicht aus, um die allgemeinen Prinzipien zu verstehen, die diese Netzwerke zur Verallgemeinerung treiben. „Es ist großartig, die Bäume zu studieren“, sagte Belkin. „Aber wir müssen auch den Wald studieren.“

Dennoch hat die Fähigkeit, einen Blick in diese Netzwerke zu werfen und sie analytisch zu verstehen, enorme Auswirkungen. Für die meisten von uns sind Fourier-Transformationen und die Halbierung von Kreisbögen eine sehr seltsame Art der Modulo-Addition – menschliche Neuronen denken einfach nicht so. „Aber wenn man auf linearer Algebra basiert, macht es tatsächlich sehr viel Sinn, es so zu machen“, sagte Nanda.

„Diese seltsamen [künstlichen] Gehirne funktionieren anders als unser eigenes“, sagte er. „[Sie] haben ihre eigenen Regeln und Strukturen. Wir müssen lernen, so zu denken, wie ein neuronales Netzwerk denkt.“

spot_img

Neueste Intelligenz

spot_img