Zephyrnet-logo

Hoe gedachteketenredenering neurale netwerken helpt berekenen | Quanta-tijdschrift

Datum:

Introductie

Je leraar op de basisschool heeft je waarschijnlijk niet laten zien hoe je getallen van 20 cijfers optelt. Maar als je weet hoe je kleinere getallen moet optellen, heb je alleen papier en potlood en een beetje geduld nodig. Begin met de eenheden en werk stap voor stap naar links, en al snel zul je met gemak quintiljoenen opstapelen.

Dit soort problemen zijn gemakkelijk voor de mens, maar alleen als we ze op de juiste manier benaderen. “De manier waarop wij mensen deze problemen oplossen is niet ‘ernaar staren en dan het antwoord opschrijven’”, zegt hij Eran Malach, een machine learning-onderzoeker aan de Harvard University. “We doorlopen eigenlijk de trappen.”

Dat inzicht heeft onderzoekers geïnspireerd om de grote taalmodellen te bestuderen die chatbots als ChatGPT aandrijven. Hoewel deze systemen misschien vragen kunnen oplossen waarbij een paar rekenstappen betrokken zijn, zullen ze vaak problemen oplossen waarbij veel stappen betrokken zijn, zoals het berekenen van de som van twee grote getallen. Maar in 2022 komt er een team van Google-onderzoekers vertoonde dat het vragen van taalmodellen om stapsgewijze oplossingen te genereren, de modellen in staat stelde problemen op te lossen die voorheen buiten hun bereik leken. Hun techniek, die ‘chain-of-thought prompting’ wordt genoemd, werd al snel wijdverspreid, zelfs toen onderzoekers moeite hadden om te begrijpen waardoor het werkte.

Nu hebben verschillende teams de kracht van gedachteketenredenering onderzocht door gebruik te maken van technieken uit een geheimzinnige tak van de theoretische informatica, genaamd computationele complexiteitstheorie. Het is het nieuwste hoofdstuk in een onderzoekslijn die de complexiteitstheorie gebruikt om de intrinsieke mogelijkheden en beperkingen van taalmodellen te bestuderen. Deze inspanningen maken duidelijk waar we mogen verwachten dat modellen zullen falen, en ze zouden kunnen wijzen op nieuwe benaderingen om ze te bouwen.

"Ze verwijderen een deel van de magie", zei hij Dimitris Papailiopoulos, een machine learning-onderzoeker aan de Universiteit van Wisconsin, Madison. "Dat is een goed ding."

Transformatoren trainen

Grote taalmodellen zijn gebouwd rond wiskundige structuren die kunstmatige neurale netwerken worden genoemd. De vele ‘neuronen’ binnen deze netwerken voeren eenvoudige wiskundige bewerkingen uit op lange reeksen getallen die individuele woorden vertegenwoordigen, waarbij elk woord dat door het netwerk gaat, in een ander woord wordt omgezet. De details van deze wiskundige alchemie zijn afhankelijk van een andere reeks getallen, de netwerkparameters genaamd, die de sterkte van de verbindingen tussen neuronen kwantificeren.

Om een ​​taalmodel te trainen om coherente resultaten te produceren, beginnen onderzoekers doorgaans met een neuraal netwerk waarvan de parameters allemaal willekeurige waarden hebben, en voeden het vervolgens grote hoeveelheden gegevens van overal op internet. Elke keer dat het model een nieuw tekstblok ziet, probeert het elk woord beurtelings te voorspellen: het raadt het tweede woord op basis van het eerste, het derde op basis van de eerste twee, enzovoort. Het vergelijkt elke voorspelling met de daadwerkelijke tekst en past vervolgens de parameters aan om het verschil te verkleinen. Elke aanpassing verandert de voorspellingen van het model slechts een klein beetje, maar op de een of andere manier zorgt hun collectieve effect ervoor dat een model coherent kan reageren op input die het nog nooit heeft gezien.

Onderzoekers trainen al twintig jaar neurale netwerken om taal te verwerken. Maar het werk kwam pas echt van de grond in 20, toen onderzoekers van Google een nieuw soort netwerk een transformator genoemd.

“Dit werd zeven jaar geleden voorgesteld, wat lijkt op de prehistorie”, zei hij Pablo Barceló, een machine learning-onderzoeker aan de Pauselijke Katholieke Universiteit van Chili.

Wat transformatoren zo transformatief maakte, is dat het gemakkelijk is om ze op te schalen – om het aantal parameters en de hoeveelheid trainingsgegevens te vergroten – zonder dat training onbetaalbaar wordt. Vóór transformatoren hadden neurale netwerken hoogstens een paar honderd miljoen parameters; Tegenwoordig hebben de grootste op transformatoren gebaseerde modellen er meer dan een biljoen. Een groot deel van de verbetering in de prestaties van taalmodellen in de afgelopen vijf jaar is simpelweg te danken aan het opschalen.

Transformers hebben dit mogelijk gemaakt door gebruik te maken van speciale wiskundige structuren, aandachtskoppen genaamd, die hen een soort vogelperspectief geven van de tekst die ze lezen. Wanneer een transformator een nieuw tekstblok leest, scannen zijn aandachtskoppen snel het hele ding en identificeren relevante verbanden tussen woorden – waarbij misschien wordt opgemerkt dat het vierde en achtste woord waarschijnlijk het nuttigst zijn voor het voorspellen van het tiende. Vervolgens geven de aandachtshoofden woorden door aan een enorm web van neuronen, een zogenaamde feedforward-netwerk, dat het zware rekenwerk doet dat nodig is om de voorspellingen te genereren die het leren helpen.

Echte transformatoren hebben meerdere lagen van aandachtshoofden, gescheiden door feedforward-netwerken, en spuwen pas voorspellingen uit na de laatste laag. Maar op elke laag hebben de aandachtshoofden al de meest relevante context voor elk woord geïdentificeerd, zodat de rekenintensieve feedforward-stap tegelijkertijd voor elk woord in de tekst kan plaatsvinden. Dat versnelt het trainingsproces, waardoor het mogelijk wordt om transformatoren te trainen op steeds grotere sets data. Nog belangrijker is dat het onderzoekers in staat stelt de enorme rekenlast van het trainen van een enorm neuraal netwerk te spreiden over veel processors die achter elkaar werken.

Om het meeste uit enorme datasets te halen, “moet je de modellen echt groot maken”, zei hij David Chiang, een machine learning-onderzoeker aan de Universiteit van Notre Dame. "Het zal gewoon niet praktisch zijn om ze te trainen tenzij het wordt geparallelliseerd."

De parallelle structuur die het zo gemakkelijk maakt om transformatoren te trainen, helpt echter niet na de training. Op dat moment is het niet nodig om woorden te voorspellen die al bestaan. Tijdens normaal gebruik voeren transformatoren woord voor woord uit, waarbij elke uitvoer weer op de invoer wordt aangesloten voordat het volgende woord wordt gegenereerd, maar ze zitten nog steeds vast aan een architectuur die is geoptimaliseerd voor parallelle verwerking.

Naarmate op transformatoren gebaseerde modellen groeiden en bepaalde taken problemen bleven opleveren, begonnen sommige onderzoekers zich af te vragen of de drang naar meer parallelliseerbare modellen wel een prijs had gekost. Was er een manier om het gedrag van transformatoren theoretisch te begrijpen?

De complexiteit van transformatoren

Theoretische studies van neurale netwerken worden met veel problemen geconfronteerd, vooral als ze rekening proberen te houden met training. Neurale netwerken gebruiken een bekende procedure om hun parameters bij elke stap van het trainingsproces aan te passen. Maar het kan moeilijk te begrijpen zijn waarom deze eenvoudige procedure convergeert op een goede reeks parameters.

In plaats van na te denken over wat er tijdens de training gebeurt, bestuderen sommige onderzoekers de intrinsieke mogelijkheden van transformatoren door zich voor te stellen dat het mogelijk is hun parameters aan willekeurige waarden aan te passen. Dit komt neer op het behandelen van een transformator als een speciaal type programmeerbare computer.

"Je hebt een computerapparaat en je wilt weten: 'Wat kan het doen?' Wat voor soort functies kan het berekenen?'' zei Chiang.

Dit zijn de centrale vragen in de formele studie van berekeningen. Het veld dateert uit 1936, toen Alan Turing zich voor het eerst een fantasievol apparaat, nu een Turing-machine genoemd, die elke berekening kon uitvoeren door symbolen op een oneindige tape te lezen en te schrijven. Theoretici op het gebied van computationele complexiteit zouden later voortbouwen op het werk van Turing door te bewijzen dat computationele problemen van nature in verschillende categorieën kunnen worden onderverdeeld. complexiteitsklassen gedefinieerd door de middelen die nodig zijn om ze op te lossen.

In 2019 Barceló en twee andere onderzoekers bewezen dat een geïdealiseerde versie van een transformator met een vast aantal parameters net zo krachtig zou kunnen zijn als een Turingmachine. Als je een transformator instelt om zijn uitvoer herhaaldelijk als invoer terug te voeren en de parameters instelt op de juiste waarden voor het specifieke probleem dat je wilt oplossen, zal hij uiteindelijk het juiste antwoord uitspugen.

Dat resultaat was een uitgangspunt, maar berustte op een aantal onrealistische aannames die waarschijnlijk de kracht van transformatoren zouden overschatten. In de jaren daarna hebben onderzoekers gewerkt aan de ontwikkeling van meer realistische theoretische kaders.

Eén van die inspanningen begon in 2021, toen Willem Merrill, nu een afgestudeerde student aan de New York University, verliet een tweejarige fellowship aan het Allen Institute for Artificial Intelligence in Seattle. Terwijl hij daar was, had hij andere soorten neurale netwerken geanalyseerd met behulp van technieken die slecht leken te passen in de parallelle architectuur van transformatoren. Kort voor zijn vertrek raakte hij in gesprek met een onderzoeker van het Allen Institute for AI Ashish Sabharwal, die de complexiteitstheorie had bestudeerd voordat hij zich toelegde op AI-onderzoek. Ze begonnen te vermoeden dat de complexiteitstheorie hen zou kunnen helpen de grenzen van transformatoren te begrijpen.

“Het leek gewoon een eenvoudig model; er moeten een aantal beperkingen zijn die je gewoon kunt vaststellen, ‘zei Sabharwal.

Het tweetal analyseerde transformatoren met behulp van een tak van de computationele complexiteitstheorie, genaamd circuitcomplexiteit, die vaak wordt gebruikt om parallelle berekeningen te bestuderen en had onlangs toegepast tot vereenvoudigde versies van transformatoren. Het jaar daarop verfijnden ze een aantal van de onrealistische aannames uit eerder werk. Om te bestuderen hoe de parallelle structuur van transformatoren hun mogelijkheden zou kunnen beperken, beschouwde het tweetal het geval waarin transformatoren hun output niet terugvoerden naar hun input - in plaats daarvan zou hun eerste output het definitieve antwoord moeten zijn. Zij bewezen dat de transformatoren in dit theoretische raamwerk geen rekenproblemen konden oplossen die buiten een specifieke complexiteitsklasse liggen. En veel wiskundige problemen, waaronder relatief eenvoudige zoals het oplossen van lineaire vergelijkingen, vallen buiten deze klasse.

Kortom, ze lieten zien dat parallellisme een prijs met zich meebracht – tenminste als transformatoren meteen een antwoord moesten uitspugen. “Transformatoren zijn behoorlijk zwak als je ze gebruikt door input te geven en een onmiddellijk antwoord te verwachten”, zegt Merrill.

Gedachte experimenten

De resultaten van Merrill en Sabharwal riepen een natuurlijke vraag op: hoeveel krachtiger worden transformatoren als ze hun output mogen recyclen? Barceló en zijn co-auteurs hadden dit geval bestudeerd in hun analyse van geïdealiseerde transformatoren uit 2019, maar met meer realistische aannames bleef de vraag open. En in de tussenliggende jaren hadden onderzoekers een keten van gedachten ontdekt, waardoor de vraag een hernieuwde relevantie kreeg.

Merrill en Sabharwal wisten dat hun puur wiskundige benadering niet alle aspecten van de gedachteketen-redenering in echte taalmodellen kon vatten, waarbij de bewoordingen in de prompt kan heel belangrijk zijn. Maar hoe een prompt ook is geformuleerd, zolang het ervoor zorgt dat een taalmodel stapsgewijze oplossingen oplevert, kan het model in principe de resultaten van tussenstappen hergebruiken bij daaropvolgende passages door de transformator. Dat zou een manier kunnen zijn om de grenzen van parallelle berekeningen te omzeilen.

Ondertussen had een team van de Universiteit van Peking op soortgelijke wijze nagedacht, en hun voorlopige resultaten waren positief. In een paper uit mei 2023 identificeerden ze enkele wiskundige problemen die onmogelijk zouden moeten zijn voor gewone transformatoren in het raamwerk van Merrill en Sabharwal, en vertoonde dat tussenstappen de transformatoren in staat stelden deze problemen op te lossen.

In oktober vervolgden Merrill en Sabharwal hun eerdere werk met een gedetailleerde theoretische studie van de rekenkracht van de gedachteketen. Ze kwantificeerden hoe die extra rekenkracht afhangt van het aantal tussenstappen dat een transformator mag gebruiken voordat hij een definitief antwoord moet uitspugen. Over het algemeen verwachten onderzoekers dat het juiste aantal tussenstappen voor het oplossen van een probleem afhankelijk is van de omvang van de input voor het probleem. De eenvoudigste strategie voor het optellen van twee getallen van 20 cijfers vereist bijvoorbeeld twee keer zoveel tussenstappen als bij dezelfde aanpak voor het optellen van twee getallen van 10 cijfers.

Voorbeelden als deze suggereren dat transformatoren niet veel zouden winnen als ze slechts een paar tussenstappen zouden gebruiken. Merrill en Sabharwal hebben inderdaad bewezen dat de gedachtegang pas echt begint te helpen als het aantal tussenstappen groeit in verhouding tot de omvang van de input, en veel problemen vereisen dat het aantal tussenstappen nog veel groter wordt.

De grondigheid van het resultaat maakte indruk op onderzoekers. ‘Ze hebben dit echt vastgelegd’, zei hij Daniël Hu, een machine learning-onderzoeker aan Columbia University.

Uit het recente werk van Merrill en Sabharwal blijkt dat de gedachteketen geen wondermiddel is; in principe kan het transformatoren helpen moeilijkere problemen op te lossen, maar alleen ten koste van veel computerinspanning.

"We zijn geïnteresseerd in verschillende manieren om de beperkingen van transformatoren in één stap te omzeilen", zegt Merrill. “Gedachteketen is één manier, maar dit artikel laat zien dat dit misschien niet de meest economische manier is.”

Terug naar de realiteit

Toch waarschuwen onderzoekers dat dit soort theoretische analyses slechts een beperkte hoeveelheid over echte taalmodellen kan onthullen. Positieve resultaten – bewijzen dat transformatoren in principe bepaalde problemen kunnen oplossen – impliceren niet dat een taalmodel deze oplossingen daadwerkelijk tijdens de training zal leren.

En zelfs resultaten die de beperkingen van transformatoren aanpakken, brengen kanttekeningen met zich mee: ze geven aan dat geen enkele transformator bepaalde problemen in alle gevallen perfect kan oplossen. Dat is natuurlijk een behoorlijk hoge lat. "Er kunnen speciale gevallen van het probleem zijn die het prima zou kunnen oplossen," zei Hsu.

Ondanks deze kanttekeningen biedt het nieuwe werk een sjabloon voor het analyseren van verschillende soorten neurale netwerkarchitecturen die uiteindelijk transformatoren zouden kunnen vervangen. Als een analyse van de complexiteitstheorie suggereert dat bepaalde soorten netwerken krachtiger zijn dan andere, zou dat een bewijs zijn dat die netwerken het in de echte wereld ook beter zouden kunnen doen.

Chiang benadrukte ook dat onderzoek naar de beperkingen van transformatoren des te waardevoller is omdat taalmodellen steeds vaker worden gebruikt in een breed scala aan toepassingen in de echte wereld, waardoor het gemakkelijk wordt om hun capaciteiten te overschatten.

"Er zijn eigenlijk veel dingen die ze niet zo goed doen, en we moeten ons heel erg bewust zijn van wat de beperkingen zijn," zei Chiang. “Daarom is dit soort werk heel belangrijk.”

spot_img

Laatste intelligentie

spot_img