Logo Zephyrnet

Cum raționamentul în lanț de gândire ajută rețelele neuronale să calculeze | Revista Quanta

Data:

Introducere

Profesorul tău probabil nu ți-a arătat cum să adaugi numere din 20 de cifre. Dar dacă știi să adaugi numere mai mici, tot ce ai nevoie este hârtie și creion și puțină răbdare. Începeți cu cele care au loc și lucrați spre stânga pas cu pas și, în curând, veți stivui cu ușurință chintilioane.

Probleme ca aceasta sunt ușoare pentru oameni, dar numai dacă le abordăm în mod corect. „Cum rezolvăm noi oamenii aceste probleme nu este să ne uităm la el și apoi să scrieți răspunsul”, a spus Eran Malach, un cercetător în învățarea automată la Universitatea Harvard. „De fapt, trecem prin trepte.”

Această perspectivă i-a inspirat pe cercetători care studiază modelele mari de limbaj care alimentează chatbot-uri precum ChatGPT. În timp ce aceste sisteme ar putea răspunde la întrebări care implică câțiva pași de aritmetică, ele vor rezolva adesea probleme care implică mulți pași, cum ar fi calcularea sumei a două numere mari. Dar în 2022, o echipă de cercetători Google a arătat faptul că solicitarea modelelor lingvistice să genereze soluții pas cu pas le-a permis modelelor să rezolve probleme care anterior păreau dincolo de atingerea lor. Tehnica lor, numită stimularea lanțului de gândire, s-a răspândit în curând, chiar dacă cercetătorii s-au străduit să înțeleagă ce o face să funcționeze.

Acum, mai multe echipe au explorat puterea raționamentului în lanț de gândire utilizând tehnici dintr-o ramură arcană a informaticii teoretice numită teoria complexității computaționale. Este cel mai recent capitol dintr-o linie de cercetare care folosește teoria complexității pentru a studia capacitățile și limitările intrinseci ale modelelor de limbaj. Aceste eforturi clarifică unde ar trebui să ne așteptăm să eșueze modelele și ar putea indica noi abordări pentru construirea lor.

„Înlătură o parte din magie”, a spus Dimitris Papailiopoulos, un cercetător în învățarea automată la Universitatea din Wisconsin, Madison. „Este un lucru bun.”

Training Transformers

Modelele mari de limbaj sunt construite în jurul unor structuri matematice numite rețele neuronale artificiale. Mulți „neuroni” din interiorul acestor rețele efectuează operații matematice simple pe șiruri lungi de numere reprezentând cuvinte individuale, transmutând fiecare cuvânt care trece prin rețea în altul. Detaliile acestei alchimii matematice depind de un alt set de numere numit parametrii rețelei, care cuantifică puterea conexiunilor dintre neuroni.

Pentru a antrena un model de limbaj pentru a produce rezultate coerente, cercetătorii încep de obicei cu o rețea neuronală ai cărei parametri au toți valori aleatorii și apoi îi alimentează o mulțime de date de pe internet. De fiecare dată când modelul vede un nou bloc de text, încearcă să prezică fiecare cuvânt pe rând: ghicește al doilea cuvânt pe baza primului, al treilea pe baza primelor două și așa mai departe. Compară fiecare predicție cu textul real, apoi își modifică parametrii pentru a reduce diferența. Fiecare modificare modifică doar puțin predicțiile modelului, dar, într-un fel, efectul lor colectiv îi permite unui model să răspundă coerent la intrările pe care nu le-a văzut niciodată.

Cercetătorii antrenează rețelele neuronale pentru a procesa limbajul de 20 de ani. Dar munca a demarat cu adevărat în 2017, când cercetătorii de la Google au introdus un nou tip de rețea numit transformator.

„Acest lucru a fost propus acum șapte ani, ceea ce pare a preistorie”, a spus Pablo Barceló, un cercetător în învățarea automată la Universitatea Pontificală Catolică din Chile.

Ceea ce a făcut transformatoarele atât de transformatoare este că este ușor să le extindeți - pentru a crește numărul de parametri și cantitatea de date de antrenament - fără a face antrenamentul prohibitiv de costisitor. Înainte de transformatoare, rețelele neuronale aveau cel mult câteva sute de milioane de parametri; astăzi, cele mai mari modele bazate pe transformatoare au mai mult de un trilion. O mare parte din îmbunătățirea performanței modelului lingvistic din ultimii cinci ani vine din simpla extindere.

Transformers au făcut acest lucru posibil utilizând structuri matematice speciale numite capete de atenție, care le oferă un fel de vedere de pasăre a textului pe care îl citesc. Când un transformator citește un nou bloc de text, capetele sale de atenție scanează rapid întregul și identifică conexiunile relevante între cuvinte - poate remarcându-se că al patrulea și al optulea cuvinte sunt probabil cel mai folositor pentru a prezice al 10-lea. Apoi, capetele de atenție transmit cuvintele către o rețea enormă de neuroni numită o rețea feedforward, care efectuează scăderea grea a numărului necesară pentru a genera predicțiile care îl ajută să învețe.

Transformatoarele reale au mai multe straturi de capete de atenție separate prin rețele feedforward și scuipă predicții numai după ultimul strat. Dar la fiecare strat, capetele de atenție au identificat deja contextul cel mai relevant pentru fiecare cuvânt, astfel încât pasul de feedforward intensiv din punct de vedere computațional poate avea loc simultan pentru fiecare cuvânt din text. Acest lucru accelerează procesul de instruire, făcând posibilă antrenarea transformatoarelor pe seturi din ce în ce mai mari de date. Și mai important, le permite cercetătorilor să răspândească încărcătura computațională enormă a antrenării unei rețele neuronale masive pe mai multe procesoare care lucrează în tandem.

Pentru a profita la maximum de seturile masive de date, „trebuie să faceți modelele cu adevărat mari”, a spus David Chiang, un cercetător în învățarea automată la Universitatea Notre Dame. „Nu va fi practic să-i antrenezi decât dacă este paralelizat.”

Cu toate acestea, structura paralelă care face atât de ușor antrenarea transformatoarelor nu ajută după antrenament - în acel moment, nu este nevoie să preziceți cuvinte care există deja. În timpul funcționării obișnuite, transformatoarele scot un cuvânt la un moment dat, punând fiecare ieșire înapoi pe intrare înainte de a genera următorul cuvânt, dar sunt încă blocați cu o arhitectură optimizată pentru procesare paralelă.

Pe măsură ce modelele bazate pe transformatoare creșteau și anumite sarcini continuau să le dea probleme, unii cercetători au început să se întrebe dacă impulsul către modele mai paralelizabile a avut un cost. A existat o modalitate de a înțelege comportamentul transformatoarelor teoretic?

Complexitatea transformatoarelor

Studiile teoretice ale rețelelor neuronale se confruntă cu multe dificultăți, mai ales atunci când încearcă să țină seama de antrenament. Rețelele neuronale folosesc o procedură binecunoscută pentru a-și modifica parametrii la fiecare pas al procesului de antrenament. Dar poate fi dificil de înțeles de ce această procedură simplă converge către un set bun de parametri.

În loc să ia în considerare ceea ce se întâmplă în timpul antrenamentului, unii cercetători studiază capacitățile intrinseci ale transformatoarelor imaginându-și că este posibil să-și ajusteze parametrii la orice valoare arbitrară. Aceasta înseamnă a trata un transformator ca pe un tip special de computer programabil.

„Ai un dispozitiv de calcul și vrei să știi: „Ei bine, ce poate face? Ce fel de funcții poate calcula?'”, a spus Chiang.

Acestea sunt întrebările centrale în studiul formal al calculului. Câmpul datează din 1936, când Alan Turing și-a imaginat pentru prima dată o dispozitiv fantezist, numită acum o mașină Turing, care ar putea efectua orice calcul citind și scriind simboluri pe o bandă infinită. Teoreticienii complexității computaționale s-au bazat mai târziu pe munca lui Turing, demonstrând că problemele de calcul se încadrează în mod natural în diferite clase de complexitate definite de resursele necesare pentru rezolvarea acestora.

În 2019, Barceló și alți doi cercetători s-au dovedit că o versiune idealizată a unui transformator cu un număr fix de parametri ar putea fi la fel de puternică ca o mașină Turing. Dacă configurați un transformator pentru a-și alimenta în mod repetat ieșirea ca intrare și setați parametrii la valorile adecvate pentru problema specifică pe care doriți să o rezolvați, acesta va scuipa în cele din urmă răspunsul corect.

Acest rezultat a fost un punct de plecare, dar s-a bazat pe niște presupuneri nerealiste care probabil ar supraestima puterea transformatoarelor. În anii de după, cercetătorii au lucrat pentru a dezvolta cadre teoretice mai realiste.

Un astfel de efort a început în 2021, când William Merrill, acum student absolvent la Universitatea din New York, părăsea o bursă de doi ani la Institutul Allen pentru Inteligență Artificială din Seattle. Pe când era acolo, el analizase alte tipuri de rețele neuronale folosind tehnici care păreau a fi potrivite pentru arhitectura paralelă a transformatoarelor. Cu puțin timp înainte de a pleca, a inițiat o conversație cu cercetătorul de la Institutul Allen pentru IA Ashish Sabharwal, care a studiat teoria complexității înainte de a trece în cercetarea AI. Au început să bănuiască că teoria complexității i-ar putea ajuta să înțeleagă limitele transformatoarelor.

„Părea doar că este un model simplu; trebuie să existe niște limitări pe care cineva le poate rezolva”, a spus Sabharwal.

Perechea a analizat transformatoarele folosind o ramură a teoriei complexității computaționale, numită complexitate a circuitului, care este adesea folosită pentru a studia calculul paralel și a avut a fost aplicat recent la versiuni simplificate de transformatoare. În anul următor, ei au rafinat câteva dintre ipotezele nerealiste din lucrările anterioare. Pentru a studia modul în care structura paralelă a transformatoarelor le-ar putea limita capacitățile, perechea a considerat cazul în care transformatoarele nu și-au alimentat ieșirea înapoi în intrarea lor - în schimb, prima lor ieșire ar trebui să fie răspunsul final. ei s-au dovedit că transformatoarele din acest cadru teoretic nu au putut rezolva probleme de calcul care se află în afara unei clase de complexitate specifice. Și multe probleme de matematică, inclusiv cele relativ simple, cum ar fi rezolvarea ecuațiilor liniare, se consideră că se află în afara acestei clase.

Practic, ei au arătat că paralelismul a avut un cost - cel puțin atunci când transformatoarele au trebuit să răspundă imediat. „Transformatoarele sunt destul de slabe dacă modul în care le folosești este să dai o contribuție și doar te aștepți la un răspuns imediat”, a spus Merrill.

Experimente de gândire

Rezultatele lui Merrill și Sabharwal au ridicat o întrebare firească - cât de mult mai puternice devin transformatoarele atunci când li se permite să-și recicleze ieșirile? Barceló și coautorii săi au studiat acest caz în analiza lor din 2019 a transformatoarelor idealizate, dar cu presupuneri mai realiste întrebarea a rămas deschisă. Și în anii care au urmat, cercetătorii au descoperit îndemnuri ale lanțului de gândire, dând întrebării o nouă relevanță.

Merrill și Sabharwal știau că abordarea lor pur matematică nu poate surprinde toate aspectele raționamentului în lanț de gândire în modele de limbaj reale, în care formularea din promptul poate fi foarte important. Dar indiferent de modul în care este formulat un prompt, atâta timp cât determină un model de limbaj să scoată soluții pas cu pas, modelul poate, în principiu, reutiliza rezultatele pașilor intermediari la trecerile ulterioare prin transformator. Aceasta ar putea oferi o modalitate de a evita limitele calculului paralel.

Între timp, o echipă de la Universitatea din Peking a gândit pe direcții similare, iar rezultatele lor preliminare au fost pozitive. Într-o lucrare din mai 2023, ei au identificat câteva probleme de matematică care ar trebui să fie imposibile pentru transformatoarele obișnuite în cadrul lui Merrill și Sabharwal și a arătat că pașii intermediari au permis transformatoarelor să rezolve aceste probleme.

În octombrie, Merrill și Sabharwal și-au continuat munca anterioară cu a studiu teoretic detaliat a puterii de calcul a lanțului de gândire. Ei au cuantificat modul în care acea putere de calcul suplimentară depinde de numărul de pași intermediari pe care îi este permis să folosească un transformator înainte de a trebui să scoată un răspuns final. În general, cercetătorii se așteaptă ca numărul corespunzător de pași intermediari pentru rezolvarea oricărei probleme să depindă de dimensiunea intrării în problemă. De exemplu, cea mai simplă strategie pentru adăugarea a două numere de 20 de cifre necesită de două ori mai mulți pași intermediari de adunare decât aceeași abordare pentru adăugarea a două numere de 10 cifre.

Exemple ca acesta sugerează că transformatoarele nu ar câștiga prea mult din utilizarea doar a câțiva pași intermediari. Într-adevăr, Merrill și Sabharwal au demonstrat că lanțul de gândire începe cu adevărat să ajute doar atunci când numărul de pași intermediari crește proporțional cu dimensiunea intrării și multe probleme necesită ca numărul de pași intermediari să crească și mai mult.

Amănunțimea rezultatului a impresionat cercetătorii. „Ei chiar au fixat asta”, a spus Daniel Hsu, un cercetător de învățare automată la Universitatea Columbia.

Lucrările recente ale lui Merrill și Sabharwal indică faptul că lanțul de gândire nu este un panaceu - în principiu, poate ajuta transformatoarele să rezolve probleme mai dificile, dar numai cu prețul multor efort de calcul.

„Suntem interesați de diferite moduri de a ocoli limitările transformatoarelor cu un singur pas”, a spus Merrill. „Lanțul de gândire este o cale, dar această lucrare arată că s-ar putea să nu fie cea mai economică cale.”

Înapoi la realitate

Totuși, cercetătorii avertizează că acest tip de analiză teoretică poate dezvălui doar atât de multe despre modelele de limbaj reale. Rezultatele pozitive - dovezi că transformatoarele pot rezolva în principiu anumite probleme - nu implică faptul că un model lingvistic va învăța de fapt acele soluții în timpul antrenamentului.

Și chiar și rezultatele care abordează limitările transformatoarelor vin cu avertismente: acestea indică faptul că niciun transformator nu poate rezolva perfect anumite probleme în toate cazurile. Desigur, este o ștachetă destul de ridicată. „Ar putea exista cazuri speciale de problemă pe care le-ar putea rezolva foarte bine”, a spus Hsu.

În ciuda acestor avertismente, noua lucrare oferă un șablon pentru analiza diferitelor tipuri de arhitecturi de rețele neuronale care ar putea înlocui transformatoarele în cele din urmă. Dacă o analiză a teoriei complexității sugerează că anumite tipuri de rețele sunt mai puternice decât altele, aceasta ar fi o dovadă că acele rețele s-ar putea descurca mai bine și în lumea reală.

Chiang a subliniat, de asemenea, că cercetarea privind limitările transformatoarelor este cu atât mai valoroasă cu cât modelele de limbaj sunt din ce în ce mai utilizate într-o gamă largă de aplicații din lumea reală, ceea ce face ușoară supraestimarea abilităților acestora.

„De fapt, există o mulțime de lucruri pe care ei nu le fac atât de bine și trebuie să fim foarte, foarte conștienți de limitările”, a spus Chiang. „De aceea, acest tip de muncă este cu adevărat important.”

spot_img

Ultimele informații

spot_img