Logo Zephyrnet

W jaki sposób maszyny „grokują” dane? | Magazyn Quanta

Data:

Wprowadzenie

Mimo całej swojej świetności, sztuczne sieci neuronowe pozostają tak samo nieprzeniknione jak zawsze. W miarę jak sieci te stają się coraz większe, ich możliwości eksplodują, ale rozszyfrowanie ich wewnętrznego działania zawsze było prawie niemożliwe. Naukowcy nieustannie szukają wszelkich spostrzeżeń, jakie mogą znaleźć na temat tych modeli.

Kilka lat temu odkryli nowy.

W styczniu 2022 r. badacze z OpenAI, firmy stojącej za ChatGPT, zgłaszane że systemy te, gdy przypadkowo pozwolono im przeżuwać dane znacznie dłużej niż zwykle, wypracowały unikalne sposoby rozwiązywania problemów. Zwykle, gdy inżynierowie budują modele uczenia maszynowego z sieci neuronowych — składających się z jednostek obliczeniowych zwanych sztucznymi neuronami — mają tendencję do zatrzymywania uczenia w pewnym momencie, co nazywa się reżimem nadmiernego dopasowania. Dzieje się tak wtedy, gdy sieć w zasadzie zaczyna zapamiętywać dane szkoleniowe i często nie dokonuje generalizacji na nowe, niewidoczne informacje. Kiedy jednak zespół OpenAI przypadkowo przeszkolił małą sieć znacznie dalej niż ten punkt, wydawało się, że osiągnął zrozumienie problemu wykraczające poza zwykłe zapamiętywanie — nagle mógł uzyskać doskonałe wyniki w przypadku dowolnych danych testowych.

Naukowcy nazwali to zjawisko „grokkingiem” – termin ukuty przez autora science-fiction Roberta A. Heinleina i oznaczający zrozumienie czegoś „tak dokładnie, że obserwator staje się częścią obserwowanego procesu”. Przetrenowana sieć neuronowa, zaprojektowana do wykonywania pewnych operacji matematycznych, nauczyła się ogólnej struktury liczb i zinternalizowała wynik. Zakrztusiło się i stało się rozwiązaniem.

„To [było] bardzo ekscytujące i skłaniające do myślenia” – powiedział Michaił Belkin Uniwersytetu Kalifornijskiego w San Diego, który bada teoretyczne i empiryczne właściwości sieci neuronowych. „To pobudziło wiele dalszych prac”.

Rzeczywiście, inni powtórzyli wyniki, a nawet dokonali inżynierii wstecznej. Najnowsze artykuły nie tylko wyjaśniły, co robią te sieci neuronowe, gdy grok, ale także zapewniły nową perspektywę, przez którą można badać ich wnętrzności. „Konfiguracja grokkingu jest jak dobry organizm modelowy do zrozumienia wielu różnych aspektów głębokiego uczenia się” – powiedział Erica Michauda z Massachusetts Institute of Technology.

Zaglądanie do wnętrza tego organizmu jest czasami dość odkrywcze. „Nie tylko można znaleźć piękną strukturę, ale ta piękna struktura jest ważna dla zrozumienia tego, co dzieje się wewnętrznie” – powiedział Neela Nandy, obecnie w Google DeepMind w Londynie.

Ponad limitami

Zasadniczo zadanie modelu uczenia maszynowego wydaje się proste: przekształcenie danych wejściowych w pożądane dane wyjściowe. Zadaniem algorytmu uczącego się jest znalezienie najlepszej możliwej funkcji, która może to zrobić. Każdy model może uzyskać dostęp jedynie do ograniczonego zestawu funkcji, a zbiór ten jest często podyktowany liczbą parametrów w modelu, która w przypadku sieci neuronowych jest w przybliżeniu równa liczbie połączeń pomiędzy sztucznymi neuronami.

Wprowadzenie

W miarę uczenia się sieci ma ona tendencję do uczenia się bardziej złożonych funkcji, a rozbieżność między oczekiwanymi wynikami a rzeczywistymi wynikami zaczyna spadać w przypadku danych uczących. Co więcej, ta rozbieżność, zwana stratą, zaczyna spadać także w przypadku danych testowych, czyli nowych danych, które nie są wykorzystywane w szkoleniu. Jednak w pewnym momencie model zaczyna się nadmiernie dopasowywać i chociaż straty danych szkoleniowych stale maleją, straty danych testowych zaczynają rosnąć. Zwykle wtedy badacze przestają trenować sieć.

Taka była dominująca opinia, gdy zespół OpenAI zaczął badać, w jaki sposób sieć neuronowa może wykonywać obliczenia matematyczne. Używali małego transformator — architekturę sieciową, która niedawno zrewolucjonizowała duże modele językowe — do wykonywania różnego rodzaju arytmetyki modułowej, w której pracuje się z ograniczonymi zbiorami liczb, które zapętlają się w sobie. Modulo 12 można na przykład wykonać na tarczy zegara: 11 + 2 = 1. Zespół pokazał sieciowe przykłady dodawania dwóch liczb, a i b, aby wygenerować wynik, c, w modulo 97 (odpowiednik tarczy zegara z 97 cyframi). Następnie przetestowali transformator na niewidzianych kombinacjach a i b aby sprawdzić, czy potrafi poprawnie przewidzieć c.

Zgodnie z oczekiwaniami, kiedy sieć weszła w tryb nadmiernego dopasowania, straty danych treningowych były bliskie zeru (zaczęła zapamiętywać to, co widziała), a straty danych testowych zaczęły rosnąć. To nie było generalizowanie. „I pewnego dnia nam się poszczęściło” – powiedziała liderka zespołu Alethea Power, przemówił we wrześniu 2022 r na konferencji w San Francisco. – A mówiąc „szczęściarz”, mam na myśli zapominalski.

Członek zespołu, który szkolił sieć, wyjechał na wakacje i zapomniał przerwać szkolenie. W miarę dalszego uczenia się tej wersji sieci, nagle stała się ona dokładna w przypadku niewidocznych danych. Automatyczne testy ujawniły tę nieoczekiwaną dokładność reszcie zespołu i wkrótce zdali sobie sprawę, że sieć znalazła sprytne sposoby porządkowania liczb a i b. Wewnętrznie sieć reprezentuje liczby w jakiejś przestrzeni wielowymiarowej, ale kiedy badacze przenieśli te liczby do przestrzeni 2D i zmapowali je, liczby utworzyły okrąg.

To było zdumiewające. Zespół nigdy nie powiedział modelowi, że wykonuje obliczenia matematyczne modulo 97 ani nawet co oznacza modulo — po prostu pokazał mu przykłady arytmetyki. Wydawało się, że model natknął się na jakieś głębsze, analityczne rozwiązanie — równanie, które można uogólnić na wszystkie kombinacje a i b, nawet poza danymi treningowymi. Sieć się zacięła, a dokładność danych testowych wzrosła do 100%. „To dziwne” – powiedziała Power swoim słuchaczom.

Zespół zweryfikował wyniki, korzystając z różnych zadań i różnych sieci. Odkrycie utrzymało się.

Zegary I Pizze

Ale jakie równanie znalazła sieć? W artykule OpenAI nie napisano tego, ale wynik przykuł uwagę Nandy. „Jedną z głównych tajemnic i irytujących rzeczy związanych z sieciami neuronowymi jest to, że są one bardzo dobre w tym, co robią, ale domyślnie nie mamy pojęcia, jak działają” – powiedziała Nanda, której praca koncentruje się na inżynierii wstecznej przeszkolonego sieć, aby dowiedzieć się, jakich algorytmów się nauczyła.

Nandę zafascynowało odkrycie OpenAI i postanowił rozebrać sieć neuronową, która się zawiesiła. Zaprojektował jeszcze prostszą wersję sieci neuronowej OpenAI, aby móc dokładnie zbadać parametry modelu w miarę uczenia się arytmetyki modułowej. Zauważył to samo zachowanie: nadmierne dopasowanie, które ustąpiło miejsca uogólnieniu i nagłej poprawie dokładności testu. Jego sieć zajmowała się także układaniem liczb w okręgu. Wymagało to trochę wysiłku, ale Nanda w końcu zrozumiała, dlaczego.

Podczas gdy sieć przedstawiała liczby na okręgu, sieć nie tylko liczyła cyfry jak przedszkolak obserwujący zegar: wykonywała pewne wyrafinowane matematyczne manipulacje. Badając wartości parametrów sieci, Nanda i współpracownicy ujawnili że dodawał liczby zegarów, wykonując na nich „dyskretne transformaty Fouriera” — przekształcając liczby za pomocą funkcji trygonometrycznych, takich jak sinusy i cosinusy, a następnie manipulując tymi wartościami za pomocą tożsamości trygonometrycznych, aby znaleźć rozwiązanie. Przynajmniej tak robiła jego konkretna sieć.

Kiedy zespół z MIT kontynuowane w pracy Nandy wykazali, że grokujące sieci neuronowe nie zawsze wykrywają ten algorytm „zegara”. Czasami zamiast tego sieci znajdują coś, co badacze nazywają algorytmem „pizzy”. W tym podejściu pizza jest podzielona na kawałki i ponumerowana w odpowiedniej kolejności. Aby dodać dwie liczby, wyobraź sobie, że rysujesz strzałki ze środka pizzy do odpowiednich liczb, a następnie obliczasz linię przecinającą kąt utworzony przez dwie pierwsze strzałki. Ta linia przechodzi przez środek kawałka pizzy: Numer kawałka jest sumą tych dwóch liczb. Operacje te można również zapisać w kategoriach manipulacji trygonometrycznych i algebraicznych sinusami i cosinusami a i bi teoretycznie są tak samo dokładne, jak podejście zegarowe.

Wprowadzenie

„Zarówno algorytmy zegara, jak i pizzy mają tę reprezentację kołową” – powiedział Ziming Liu, członek zespołu MIT. „Ale… sposoby wykorzystania tych sinusów i cosinusów są różne. Dlatego nazywamy je różnymi algorytmami.”

A to wciąż nie wszystko. Po przeszkoleniu wielu sieci w zakresie matematyki modulo Liu i współpracownicy odkryli, że około 40% algorytmów odkrytych przez te sieci to odmiany algorytmów pizzy lub algorytmów zegara. Zespół nie był w stanie rozszyfrować, co sieci robią przez resztę czasu. W przypadku algorytmów pizzy i zegara „po prostu zdarza się, że znajduje coś, co my, ludzie, możemy zinterpretować” – powiedział Liu.

Niezależnie od tego, jakiego algorytmu uczy się sieć, gdy dostrzega problem, jest on jeszcze skuteczniejszy w uogólnianiu, niż podejrzewali badacze. Kiedy zespół z Uniwersytetu Maryland zasilane prostą siecią neuronową danych szkoleniowych z przypadkowymi błędami, sieć początkowo zachowywała się zgodnie z oczekiwaniami: nadmiernie dopasowała dane szkoleniowe, błędy i wszystko, i słabo działała na nieuszkodzonych danych testowych. Jednakże, gdy sieć zaczęła się zastanawiać i zaczęła poprawnie odpowiadać na pytania testowe, mogła dawać poprawne odpowiedzi nawet w przypadku błędnych wpisów, zapominając zapamiętane nieprawidłowe odpowiedzi i uogólniając nawet na dane treningowe. „Zadanie grokkingu jest w rzeczywistości dość odporne na tego rodzaju korupcję” – stwierdził Darszil Doshi, jeden z autorów artykułu.

Bitwa o kontrolę

W rezultacie badacze zaczynają teraz rozumieć proces prowadzący do grokowania danych przez sieć. Nanda postrzega pozorną, zewnętrzną nagłość groknięcia jako wynik stopniowego wewnętrznego przejścia od zapamiętywania do uogólniania, które wykorzystuje dwa różne algorytmy w sieci neuronowej. Kiedy sieć zaczyna się uczyć, powiedział, najpierw opracowuje łatwiejszy algorytm zapamiętywania; jednak mimo że algorytm jest prostszy, wymaga znacznych zasobów, ponieważ sieć musi zapamiętać każdą instancję danych uczących. Ale nawet w trakcie zapamiętywania części sieci neuronowej zaczynają tworzyć obwody wdrażające ogólne rozwiązanie. Obydwa algorytmy konkurują o zasoby podczas uczenia, ale generalizacja ostatecznie zwycięża, jeśli sieć jest szkolona z dodatkowym składnikiem zwanym regularyzacją.

„Regularyzacja powoli prowadzi rozwiązanie w kierunku rozwiązania uogólniającego” – powiedział Liu. Jest to proces zmniejszający pojemność funkcjonalną modelu — złożoność funkcji, której model może się nauczyć. W miarę jak regularyzacja zmniejsza złożoność modelu, algorytm uogólniający, który jest mniej złożony, ostatecznie zwycięża. „Uogólnianie jest prostsze przy tym samym [poziomie] wydajności” – stwierdziła Nanda. Wreszcie sieć neuronowa odrzuca algorytm zapamiętywania.

Tak więc, chociaż opóźniona zdolność do generalizowania wydaje się pojawiać nagle, wewnętrznie parametry sieci stale uczą się algorytmu generalizowania. Dopiero gdy sieć nauczy się algorytmu uogólniającego i całkowicie usunie algorytm zapamiętujący, zaczynasz się zastanawiać. „Możliwe, że rzeczy, które wydają się nagłe, pod powierzchnią zachodzą stopniowo” – stwierdziła Nanda. Kwestia ta również pojawiła się w inne badania nad uczeniem maszynowym.

Pomimo tych przełomów należy pamiętać, że badania nad grokkingiem są wciąż w powijakach. Jak dotąd badacze badali jedynie bardzo małe sieci i nie jest jasne, czy te ustalenia sprawdzą się w przypadku większych i potężniejszych sieci. Belkin ostrzega również, że arytmetyka modułowa to „kropla w morzu” w porównaniu ze wszystkimi różnymi zadaniami wykonywanymi przez dzisiejsze sieci neuronowe. Inżynieria wsteczna rozwiązania sieci neuronowej dla takiej matematyki może nie wystarczyć do zrozumienia ogólnych zasad, które kierują te sieci w stronę uogólnienia. „Przyglądanie się drzewom jest wspaniałe” – powiedział Belkin. „Ale musimy także badać las”.

Niemniej jednak umiejętność zaglądania do tych sieci i analitycznego ich zrozumienia ma ogromne implikacje. Dla większości z nas transformaty Fouriera i przecięcie łuków okręgów na pół to bardzo dziwny sposób dodawania modulo — ludzkie neurony po prostu tak nie myślą. „Ale jeśli opierasz się na algebrze liniowej, naprawdę sensowne jest zrobienie tego w ten sposób” – stwierdziła Nanda.

„Te dziwne [sztuczne] mózgi działają inaczej niż nasze” – powiedział. „[Oni] mają swoje własne zasady i strukturę. Musimy nauczyć się myśleć tak, jak myśli sieć neuronowa.

spot_img

Najnowsza inteligencja

spot_img