Logo Zephyrnet

In che modo le macchine "grok" i dati? | Rivista Quanti

Data:

Introduzione

Nonostante tutta la loro genialità, le reti neurali artificiali rimangono più imperscrutabili che mai. Man mano che queste reti diventano più grandi, le loro capacità esplodono, ma decifrare il loro funzionamento interno è sempre stato quasi impossibile. I ricercatori sono costantemente alla ricerca di eventuali approfondimenti che riescono a trovare su questi modelli.

Qualche anno fa ne hanno scoperto uno nuovo.

Nel gennaio 2022, i ricercatori di OpenAI, la società dietro ChatGPT, segnalati che questi sistemi, quando accidentalmente venivano autorizzati a sgranocchiare dati per molto più tempo del solito, sviluppavano modi unici di risolvere i problemi. In genere, quando gli ingegneri costruiscono modelli di apprendimento automatico a partire da reti neurali – composte da unità di calcolo chiamate neuroni artificiali – tendono a interrompere l’addestramento a un certo punto, chiamato regime di overfitting. Questo è il momento in cui la rete inizia sostanzialmente a memorizzare i propri dati di addestramento e spesso non generalizza a informazioni nuove e invisibili. Ma quando il team di OpenAI ha accidentalmente addestrato una piccola rete ben oltre questo punto, è sembrato che avesse sviluppato una comprensione del problema che andava oltre la semplice memorizzazione: poteva improvvisamente superare qualsiasi dato di test.

I ricercatori hanno chiamato il fenomeno “grokking”, un termine coniato dall’autore di fantascienza Robert A. Heinlein per significare comprendere qualcosa “così a fondo che l’osservatore diventa parte del processo osservato”. La rete neurale superallenata, progettata per eseguire determinate operazioni matematiche, aveva appreso la struttura generale dei numeri e interiorizzato il risultato. Aveva groccato ed era diventata la soluzione.

"Questo [è stato] molto emozionante e stimolante", ha detto Michail Belkin dell'Università della California, San Diego, che studia le proprietà teoriche ed empiriche delle reti neurali. “Ciò ha stimolato molto lavoro di follow-up”.

In effetti, altri hanno replicato i risultati e li hanno addirittura decodificati. Gli articoli più recenti non solo hanno chiarito cosa fanno queste reti neurali quando groccano, ma hanno anche fornito una nuova lente attraverso la quale esaminarne le viscere. "La configurazione del grokking è come un buon organismo modello per comprendere molti aspetti diversi dell'apprendimento profondo", ha affermato Eric Michaud del Massachusetts Institute of Technology.

Sbirciare all'interno di questo organismo a volte è piuttosto rivelatore. "Non solo puoi trovare una bella struttura, ma quella bella struttura è importante per capire cosa sta succedendo internamente", ha detto Neel Nanda, ora presso Google DeepMind a Londra.

Oltre i limiti

Fondamentalmente, il lavoro di un modello di machine learning sembra semplice: trasformare un dato input nell’output desiderato. È compito dell'algoritmo di apprendimento cercare la migliore funzione possibile in grado di farlo. Ogni dato modello può accedere solo a un insieme limitato di funzioni, e tale insieme è spesso dettato dal numero di parametri nel modello, che nel caso delle reti neurali è più o meno equivalente al numero di connessioni tra neuroni artificiali.

Introduzione

Man mano che una rete si addestra, tende ad apprendere funzioni più complesse e la discrepanza tra l'output previsto e quello effettivo inizia a cadere nei dati di addestramento. Ancora meglio, questa discrepanza, nota come perdita, inizia a diminuire anche per i dati di test, ovvero nuovi dati non utilizzati nell'addestramento. Ma a un certo punto, il modello inizia ad adattarsi eccessivamente e, mentre la perdita sui dati di addestramento continua a diminuire, la perdita sui dati di test inizia ad aumentare. Quindi, in genere, è allora che i ricercatori smettono di addestrare la rete.

Questa era l’opinione prevalente quando il team di OpenAI ha iniziato a esplorare come una rete neurale potesse fare matematica. Stavano usando un piccolo trasformatore - un'architettura di rete che ha recentemente rivoluzionato i modelli linguistici di grandi dimensioni - per eseguire diversi tipi di aritmetica modulare, in cui si lavora con un insieme limitato di numeri che si ripiegano su se stessi. Il Modulo 12, ad esempio, può essere realizzato sul quadrante di un orologio: 11 + 2 = 1. Il team ha mostrato gli esempi di rete di addizione di due numeri, a ed b, per produrre un output, c, in modulo 97 (equivalente a un quadrante di orologio con 97 numeri). Hanno quindi testato il trasformatore su combinazioni invisibili di a ed b per vedere se poteva prevedere correttamente c.

Come previsto, quando la rete è entrata nel regime di overfitting, la perdita sui dati di addestramento è arrivata quasi allo zero (aveva iniziato a memorizzare ciò che aveva visto) e la perdita sui dati di test ha iniziato a salire. Non era generalizzare. "E poi un giorno siamo stati fortunati", ha detto il caposquadra Alethea Power, parlando nel settembre 2022 ad una conferenza a San Francisco. «E per fortunato intendo smemorato.»

Il membro del team che stava formando la rete è andato in vacanza e si è dimenticato di interrompere la formazione. Mentre questa versione della rete continuava ad allenarsi, improvvisamente divenne precisa su dati invisibili. I test automatici rivelarono questa precisione inaspettata al resto del team, e presto si resero conto che la rete aveva trovato modi intelligenti per organizzare i numeri a ed b. Internamente, la rete rappresenta i numeri in uno spazio ad alta dimensione, ma quando i ricercatori hanno proiettato questi numeri nello spazio 2D e li hanno mappati, i numeri hanno formato un cerchio.

Questo è stato sorprendente. Il team non ha mai detto al modello che stava eseguendo la matematica modulo 97, o anche cosa significasse modulo: gli hanno solo mostrato esempi di aritmetica. Sembrava che il modello si fosse imbattuto in una soluzione analitica più profonda, un'equazione generalizzabile a tutte le combinazioni di a ed b, anche oltre i dati di addestramento. La rete ha avuto problemi e la precisione dei dati dei test è arrivata al 100%. "Questo è strano", ha detto Power al suo pubblico.

Il team ha verificato i risultati utilizzando diversi compiti e diverse reti. La scoperta resse.

Di orologi e pizze

Ma qual era l’equazione trovata dalla rete? Il documento OpenAI non lo ha detto, ma il risultato ha attirato l'attenzione di Nanda. "Uno dei misteri principali e delle cose fastidiose sulle reti neurali è che sono molto brave in quello che fanno, ma che per impostazione predefinita non abbiamo idea di come funzionino", ha detto Nanda, il cui lavoro si concentra sul reverse engineering di un sistema addestrato. rete per capire quali algoritmi ha imparato.

Nanda rimase affascinato dalla scoperta di OpenAI e decise di smontare una rete neurale che aveva groccato. Ha progettato una versione ancora più semplice della rete neurale OpenAI in modo da poter esaminare da vicino i parametri del modello mentre imparava a fare l'aritmetica modulare. Notò lo stesso comportamento: un adattamento eccessivo che lasciò il posto alla generalizzazione e a un brusco miglioramento nell'accuratezza del test. Anche la sua rete disponeva i numeri in cerchio. C'è voluto un po' di impegno, ma alla fine Nanda ha capito il perché.

Mentre rappresentava i numeri su un cerchio, la rete non stava semplicemente contando le cifre come un bambino dell'asilo guarda un orologio: stava eseguendo alcune sofisticate manipolazioni matematiche. Studiando i valori dei parametri della rete, Nanda e colleghi hanno rivelato che stava aggiungendo i numeri dell'orologio eseguendo su di essi "trasformate discrete di Fourier", trasformando i numeri utilizzando funzioni trigonometriche come seno e coseno e quindi manipolando questi valori utilizzando identità trigonometriche per arrivare alla soluzione. Almeno, questo era ciò che stava facendo la sua particolare rete.

Quando una squadra al MIT seguiti sul lavoro di Nanda, hanno dimostrato che le reti neurali grokkanti non sempre scoprono questo algoritmo "orologio". A volte, invece, le reti trovano quello che i ricercatori chiamano l’algoritmo della “pizza”. Questo approccio immagina una pizza divisa in tranci e numerata in ordine. Per sommare due numeri, immagina di tracciare delle frecce dal centro della pizza ai numeri in questione, quindi di calcolare la linea che divide in due l'angolo formato dalle prime due frecce. Questa linea passa attraverso il centro di una fetta di pizza: il numero della fetta è la somma dei due numeri. Queste operazioni possono anche essere scritte in termini di manipolazioni trigonometriche e algebriche dei seni e dei coseni di a ed be teoricamente sono altrettanto accurati quanto l'approccio dell'orologio.

Introduzione

"Sia l'algoritmo dell'orologio che quello della pizza hanno questa rappresentazione circolare", ha affermato Ziming Liu, membro del team del MIT. “Ma… il modo in cui sfruttano questi seni e coseni è diverso. Ecco perché li chiamiamo algoritmi diversi”.

E non era ancora tutto. Dopo aver addestrato numerose reti a fare matematica modulo, Liu e colleghi hanno scoperto che circa il 40% degli algoritmi scoperti da queste reti erano varietà degli algoritmi della pizza o dell'orologio. Il team non è stato in grado di decifrare cosa fanno le reti nel resto del tempo. Per gli algoritmi della pizza e dell’orologio, “succede semplicemente che trovi qualcosa che noi esseri umani possiamo interpretare”, ha detto Liu.

E qualunque sia l'algoritmo che una rete apprende quando rileva un problema, è ancora più potente nella generalizzazione di quanto sospettassero i ricercatori. Quando una squadra dell'Università del Maryland alimentato una semplice rete neurale dati di addestramento con errori casuali, la rete inizialmente si è comportata come previsto: adattava eccessivamente i dati di addestramento, errori e tutto il resto, e aveva prestazioni scadenti su dati di test non danneggiati. Tuttavia, una volta che la rete ha iniziato a rispondere correttamente alle domande del test, è riuscita a produrre risposte corrette anche per le voci sbagliate, dimenticando le risposte errate memorizzate e generalizzando anche ai dati di addestramento. "Il compito di grokking è in realtà abbastanza resistente a questo tipo di corruzioni", ha detto Darshil Doshi, uno degli autori dell'articolo.

Battaglia per il controllo

Di conseguenza, i ricercatori stanno ora iniziando a comprendere il processo che porta una rete a raccogliere i propri dati. Nanda vede l'apparente repentinità del grokking come il risultato di una graduale transizione interna dalla memorizzazione alla generalizzazione, che utilizza due diversi algoritmi all'interno della rete neurale. Quando una rete inizia ad apprendere, ha detto, per prima cosa individua l'algoritmo di memorizzazione più semplice; tuttavia, anche se l'algoritmo è più semplice, richiede risorse considerevoli, poiché la rete deve memorizzare ogni istanza dei dati di addestramento. Ma proprio durante la memorizzazione, parti della rete neurale iniziano a formare circuiti che implementano la soluzione generale. I due algoritmi competono per le risorse durante l’addestramento, ma la generalizzazione alla fine prevale se la rete viene addestrata con un ingrediente aggiuntivo chiamato regolarizzazione.

“La regolarizzazione sposta lentamente la soluzione verso la soluzione della generalizzazione”, ha affermato Liu. Questo è un processo che riduce la capacità funzionale del modello, ovvero la complessità della funzione che il modello può apprendere. Poiché la regolarizzazione riduce la complessità del modello, l’algoritmo generalizzante, che è meno complesso, alla fine trionfa. “La generalizzazione è più semplice per lo stesso [livello di] prestazioni”, ha affermato Nanda. Infine, la rete neurale scarta l'algoritmo di memorizzazione.

Quindi, mentre la ritardata capacità di generalizzare sembra emergere all'improvviso, internamente i parametri della rete stanno costantemente imparando l'algoritmo di generalizzazione. È solo quando la rete ha appreso l'algoritmo di generalizzazione e rimosso completamente l'algoritmo di memorizzazione che inizi a groccare. "È possibile che cose che sembrano improvvise siano in realtà graduali sotto la superficie", ha detto Nanda, un problema emerso anche in altre ricerche sull'apprendimento automatico.

Nonostante queste scoperte, è importante ricordare che la ricerca sul grokking è ancora agli inizi. Finora i ricercatori hanno studiato solo reti estremamente piccole e non è chiaro se questi risultati saranno validi anche per reti più grandi e potenti. Belkin avverte inoltre che l'aritmetica modulare è “una goccia nell'oceano” rispetto a tutti i diversi compiti svolti dalle odierne reti neurali. Il reverse engineering della soluzione di una rete neurale per tali calcoli potrebbe non essere sufficiente per comprendere i principi generali che guidano queste reti verso la generalizzazione. "È fantastico studiare gli alberi", ha detto Belkin. “Ma dobbiamo studiare anche la foresta”.

Tuttavia, la capacità di scrutare all’interno di queste reti e comprenderle analiticamente ha enormi implicazioni. Per la maggior parte di noi, le trasformate di Fourier e la bisezione di archi di cerchio sono un modo molto strano di fare addizioni di moduli: i neuroni umani semplicemente non pensano in questo modo. "Ma se sei costruito sull'algebra lineare, in realtà ha molto senso farlo in questo modo", ha detto Nanda.

"Questi strani cervelli [artificiali] funzionano in modo diverso dal nostro", ha detto. “[Loro] hanno le proprie regole e struttura. Dobbiamo imparare a pensare come pensa una rete neurale”.

spot_img

L'ultima intelligenza

spot_img