Zephyrnet-logo

Het juiste taalmodel kiezen voor uw NLP-toepassing

Datum:

kies taalmodel

Large Language Models (LLM's) zijn Deep Learning-modellen die zijn getraind om tekst te produceren. Met dit indrukwekkende vermogen zijn LLM's de ruggengraat geworden van moderne Natural Language Processing (NLP). Traditioneel worden ze vooraf opgeleid door academische instellingen en grote technologiebedrijven zoals OpenAI, Microsoft en NVIDIA. De meeste daarvan worden vervolgens beschikbaar gesteld voor openbaar gebruik. Deze plug-and-play-aanpak is een belangrijke stap in de richting van grootschalige AI-adoptie - in plaats van enorme middelen te besteden aan het trainen van modellen met algemene taalkennis, kunnen bedrijven zich nu concentreren op het verfijnen van bestaande LLM's voor specifieke gebruikssituaties.

Het kiezen van het juiste model voor uw toepassing kan echter lastig zijn. Gebruikers en andere belanghebbenden moeten hun weg banen door een levendig landschap van taalmodellen en aanverwante innovaties. Deze verbeteringen hebben betrekking op verschillende componenten van het taalmodel, waaronder de trainingsgegevens, het pre-trainingsdoel, de architectuur en de afstemmingsaanpak - je zou een boek over elk van deze aspecten kunnen schrijven. Bovenop al dit onderzoek vertroebelen de marketingbuzz en de intrigerende aura van kunstmatige algemene intelligentie rond enorme taalmodellen de zaken nog meer.

Als deze diepgaande educatieve inhoud nuttig voor u is, abonneer je op onze AI-mailinglijst om gewaarschuwd te worden wanneer we nieuw materiaal uitbrengen. 

In dit artikel leg ik de belangrijkste concepten en principes achter LLM's uit. Het doel is om niet-technische belanghebbenden een intuïtief begrip en een taal te bieden voor efficiënte interactie met ontwikkelaars en AI-experts. Voor een bredere dekking bevat het artikel analyses die zijn geworteld in een groot aantal NLP-gerelateerde publicaties. Hoewel we niet ingaan op wiskundige details van taalmodellen, kunnen deze gemakkelijk worden opgehaald uit de referenties.

Het artikel is als volgt opgebouwd: ten eerste plaats ik taalmodellen in de context van het evoluerende NLP-landschap. In het tweede gedeelte wordt uitgelegd hoe LLM's worden gebouwd en vooraf getraind. Tot slot beschrijf ik het finetuningproces en geef ik wat richtlijnen voor de modelselectie.

De wereld van taalmodellen

De kloof tussen mens en machine overbruggen

Taal is een fascinerende vaardigheid van de menselijke geest - het is een universeel protocol voor het communiceren van onze rijke kennis van de wereld, en ook voor meer subjectieve aspecten zoals intenties, meningen en emoties. In de geschiedenis van AI zijn er meerdere onderzoeksgolven geweest om de menselijke taal te benaderen (“model”) met wiskundige middelen. Vóór het tijdperk van Deep Learning waren representaties gebaseerd op eenvoudige algebraïsche en probabilistische concepten zoals one-hot representaties van woorden, sequentiële waarschijnlijkheidsmodellen en recursieve structuren. Met de evolutie van Deep Learning in de afgelopen jaren zijn taalkundige representaties toegenomen in precisie, complexiteit en expressiviteit.

In 2018 werd BERT geïntroduceerd als de eerste LLM op basis van de nieuwe Transformer-architectuur. Sindsdien hebben op Transformer gebaseerde LLM's een sterk momentum gekregen. Taalmodellering is vooral aantrekkelijk vanwege zijn universele bruikbaarheid. Hoewel veel NLP-taken in de echte wereld, zoals sentimentanalyse, het ophalen van informatie en het extraheren van informatie, geen taal hoeven te genereren, is de veronderstelling dat een model dat taal produceert ook de vaardigheden heeft om een ​​aantal meer gespecialiseerde taalkundige uitdagingen op te lossen.

Grootte doet er toe

Leren gebeurt op basis van parameters - variabelen die tijdens het trainingsproces worden geoptimaliseerd om de beste voorspellingskwaliteit te bereiken. Naarmate het aantal parameters toeneemt, kan het model meer gedetailleerde kennis verwerven en zijn voorspellingen verbeteren. Sinds de introductie van de eerste LLM's in 2017-2018 zagen we een exponentiële explosie in parametergroottes - terwijl baanbrekende BERT werd getraind met 340M-parameters, werd Megatron-Turing NLG, een model uitgebracht in 2022, getraind met 530B-parameters - een meer dan duizendvoudige toename.

kies taalmodel
Figuur 1: De parametergroottes van taalmodellen nemen exponentieel toe in de tijd [11]

Zo blijft de mainstream het publiek verbazen met steeds grotere hoeveelheden parameters. Er zijn echter kritische stemmen die erop wijzen dat de modelprestaties niet in hetzelfde tempo toenemen als de modelgrootte. Aan de andere kant kan pre-training van modellen een aanzienlijke ecologische voetafdruk achterlaten. Inkrimping-inspanningen hebben de brute-force-aanpak tegengegaan om vooruitgang in taalmodellering duurzamer te maken.

Het leven van een taalmodel

Het LLM-landschap is competitief en innovaties zijn van korte duur. De volgende grafiek toont de top-15 van meest populaire LLM's in de periode 2018-2022, samen met hun share-of-voice in de loop van de tijd:

kies taalmodel
Figuur 2: Vermeldingen en share-of-voice van de top-15 van meest populaire taalmodellen [12]

We kunnen zien dat de meeste modellen na relatief korte tijd in populariteit afnemen. Om vooruitstrevend te blijven, moeten gebruikers de huidige innovaties volgen en evalueren of een upgrade de moeite waard is.

De meeste LLM's volgen een vergelijkbare levenscyclus: eerst wordt het model "upstream" vooraf getraind. Vanwege de hoge eisen aan gegevensgrootte en rekenkracht, is het vooral een voorrecht van grote technologiebedrijven en universiteiten. Onlangs zijn er ook enkele samenwerkingsinspanningen geweest (bijv BigScience-workshop) voor de gezamenlijke vooruitgang van het LLM-veld. Een handvol goed gefinancierde startups zoals Cohere en AI21 Labs bieden ook vooraf opgeleide LLM's.

Na de release wordt het model 'downstream' geadopteerd en geïmplementeerd door applicatiegerichte ontwikkelaars en bedrijven. In dit stadium vereisen de meeste modellen een extra verfijningsstap voor specifieke domeinen en taken. Anderen, zoals GPT-3, zijn handiger omdat ze een verscheidenheid aan taalkundige taken direct tijdens de voorspelling kunnen leren (zero- of few-shot-voorspelling).

Eindelijk klopt de tijd aan de deur en komt er een beter model om de hoek - ofwel met een nog groter aantal parameters, efficiënter gebruik van hardware of een meer fundamentele verbetering van de modellering van menselijke taal. Modellen die tot substantiële innovaties hebben geleid, kunnen hele modelfamilies voortbrengen. BERT leeft bijvoorbeeld voort in BERT-QA, DistilBERT en RoBERTa, die allemaal gebaseerd zijn op de oorspronkelijke architectuur.

In de volgende paragrafen zullen we kijken naar de eerste twee fasen in deze levenscyclus: de pre-training en de afstemming voor implementatie.

Pre-training: hoe LLM's worden geboren

De meeste teams en NLP-beoefenaars zullen niet betrokken zijn bij de pre-training van LLM's, maar eerder bij hun afstemming en implementatie. Om met succes een model te kiezen en te gebruiken, is het echter belangrijk om te begrijpen wat er "onder de motorkap" gebeurt. In deze sectie zullen we kijken naar de basisingrediënten van een LLM:

  • Trainingsdata
  • Invoerweergave
  • Pre-trainingsdoel
  • Modelarchitectuur (encoder-decoder)

Elk van deze heeft niet alleen invloed op de keuze, maar ook op de afstemming en implementatie van uw LLM.

Trainingsdata

De gegevens die voor LLM-training worden gebruikt, zijn meestal tekstgegevens die verschillende stijlen omvatten, zoals literatuur, door gebruikers gegenereerde inhoud en nieuwsgegevens. Na het zien van een verscheidenheid aan verschillende teksttypen, worden de resulterende modellen zich bewust van de fijne details van taal. Anders dan tekstgegevens, wordt code regelmatig gebruikt als invoer, waardoor het model wordt geleerd om geldige programma's en codefragmenten te genereren.

Het is niet verwonderlijk dat de kwaliteit van de trainingsgegevens een directe invloed heeft op de modelprestaties - en ook op de vereiste grootte van het model. Als u de trainingsgegevens slim voorbereidt, kunt u de kwaliteit van het model verbeteren en tegelijkertijd de omvang ervan verkleinen. Een voorbeeld is het T0-model, dat 16 keer kleiner is dan GPT-3, maar beter presteert bij een reeks benchmarktaken. Hier is de truc: in plaats van alleen tekst als trainingsgegevens te gebruiken, werkt het rechtstreeks met taakformuleringen, waardoor het leersignaal veel gerichter wordt. Figuur 3 illustreert enkele trainingsvoorbeelden.

Figuur 3: T0 wordt getraind in expliciete taakformuleringen voor een breed scala aan taalkundige taken

Een laatste opmerking over trainingsdata: we horen vaak dat taalmodellen zonder toezicht worden getraind. Hoewel dit hen aantrekkelijk maakt, is het technisch verkeerd. In plaats daarvan geeft goedgevormde tekst al de nodige leersignalen, waardoor we het moeizame proces van handmatige gegevensannotatie besparen. De te voorspellen labels komen overeen met eerdere en/of toekomstige woorden in een zin. Annotatie gebeurt dus automatisch en op schaal, waardoor de relatief snelle voortgang in het veld mogelijk wordt.

Invoerweergave

Zodra de trainingsgegevens zijn verzameld, moeten we deze in een vorm verpakken die door het model kan worden verwerkt. Neurale netwerken worden gevoed met algebraïsche structuren (vectoren en matrices), en de optimale algebraïsche representatie van taal is een voortdurende zoektocht - gaande van eenvoudige reeksen woorden tot representaties met sterk gedifferentieerde contextinformatie. Elke nieuwe stap confronteert onderzoekers met de eindeloze complexiteit van natuurlijke taal en legt de beperkingen van de huidige representatie bloot.

De basiseenheid van taal is het woord. In het begin van NLP leidde dit tot de naïeve zak met woorden representatie die alle woorden uit een tekst bij elkaar gooit, ongeacht hun volgorde. Overweeg deze twee voorbeelden:

In de wereld van woorden zouden deze zinnen exact dezelfde representatie krijgen omdat ze uit dezelfde woorden bestaan. Het is duidelijk dat het slechts een klein deel van hun betekenis omvat.

Sequentiële representaties bevatten informatie over woordvolgorde. In Deep Learning werd de verwerking van sequenties oorspronkelijk geïmplementeerd om bewust te zijn Terugkerende neurale netwerken (RNN).[2] Als we echter nog een stap verder gaan, is de onderliggende structuur van taal niet puur sequentieel, maar hiërarchisch. Met andere woorden, we hebben het niet over lijsten, maar over bomen. Woorden die verder uit elkaar staan, kunnen zelfs sterkere syntactische en semantische banden hebben dan aangrenzende woorden. Beschouw het volgende voorbeeld:

Hier haar verwijst naar het meisje. Wanneer een RNN het einde van de zin bereikt en eindelijk ziet haar, kan de herinnering aan het begin van de zin al vervagen, waardoor het deze relatie niet kan herstellen.

Om deze afhankelijkheden op lange afstand op te lossen, werden complexere neurale structuren voorgesteld om een ​​meer gedifferentieerd geheugen van de context op te bouwen. Het idee is om woorden die relevant zijn voor toekomstige voorspellingen in het geheugen te houden en de andere woorden te vergeten. Dit was de bijdrage van Long-Short Term Memory (LSTM)[3]-cellen en Gated Recurrent Units (GRU's)[4]. Deze modellen optimaliseren echter niet voor specifieke te voorspellen posities, maar eerder voor een generieke toekomstige context. Bovendien zijn ze vanwege hun complexe structuur zelfs langzamer te trainen dan traditionele RNN's.

Ten slotte hebben mensen de herhaling afgeschaft en de aandachtsmechanisme, zoals opgenomen in de Transformator architectuur.[5] Aandacht stelt het model in staat om tijdens de voorspelling heen en weer te focussen tussen verschillende woorden. Elk woord wordt gewogen volgens zijn relevantie voor de specifieke positie die moet worden voorspeld. Voor de bovenstaande zin geldt dat zodra het model de positie van bereikt haarmeisje zal een hoger gewicht hebben dan at, ondanks het feit dat het veel verder weg is in de lineaire volgorde.

Tot op heden komt het aandachtsmechanisme het dichtst in de buurt van de biologische werking van het menselijk brein tijdens informatieverwerking. Studies hebben aangetoond dat aandacht hiërarchische syntactische structuren leert, incl. een reeks complexe syntactische verschijnselen (vgl Primer op BERTology en de documenten waarnaar daarin wordt verwezen). Het maakt ook parallelle berekeningen mogelijk en dus snellere en efficiëntere training.

Doelstellingen voorafgaand aan de training

Met de juiste weergave van trainingsgegevens kan ons model beginnen met leren. Er zijn drie algemene doelstellingen die worden gebruikt voor pre-training taalmodellen: sequentie-naar-sequentie-transductie, autoregressie en auto-codering. Ze hebben allemaal het model nodig om een ​​brede taalkundige kennis te beheersen.

De oorspronkelijke taak die wordt aangepakt door zowel de encoder-decoderarchitectuur als het Transformer-model is: sequentie-naar-sequentie transductie: een sequentie wordt omgezet in een sequentie in een ander representatieraamwerk. De klassieke sequentie-naar-sequentie-taak is machinevertaling, maar andere taken, zoals samenvatten, worden vaak op deze manier geformuleerd. Merk op dat de doelreeks niet noodzakelijkerwijs tekst is - het kunnen ook andere ongestructureerde gegevens zijn, zoals afbeeldingen, evenals gestructureerde gegevens zoals programmeertalen. Een voorbeeld van sequentie-naar-sequentie LLM's is de BART-familie.

De tweede taak is: autoregressie, wat ook de oorspronkelijke doelstelling van taalmodellering is. Bij autoregressie leert het model de volgende uitvoer (token) te voorspellen op basis van eerdere tokens. Het leersignaal wordt beperkt door de eenzijdigheid van de onderneming - het model kan alleen informatie van rechts of van links van het voorspelde token gebruiken. Dit is een grote beperking, aangezien woorden zowel van posities in het verleden als van toekomstige posities kunnen afhangen. Overweeg bijvoorbeeld hoe het werkwoord geschreven beïnvloedt de volgende zin in beide richtingen:

Hier, de positie van papier is beperkt tot iets dat beschrijfbaar is, terwijl de positie van student is beperkt tot een mens of in ieder geval een andere intelligente entiteit die kan schrijven.

Veel van de LLM's die vandaag de dag de krantenkoppen halen, zijn autoregressief, incl. de GPT-familie, PaLM en BLOOM.

De derde taak — auto-encoding — lost het probleem van unidirectionaliteit op. Auto-encoding lijkt erg op het leren van klassieke woordinbeddingen.[6] Ten eerste corrumperen we de trainingsgegevens door een bepaald deel van de tokens - meestal 10-20% - in de invoer te verbergen. Het model leert vervolgens de juiste invoer te reconstrueren op basis van de omringende context, rekening houdend met zowel de voorgaande als de volgende tokens. Het typische voorbeeld van auto-encoders is de BERT-familie, waar BERT voor staat: bidirectionele Encoder-representaties van Transformers.

Modelarchitectuur (encoder-decoder)

De basisbouwstenen van een taalmodel zijn de encoder en de decoder. De encoder transformeert de originele invoer in een hoogdimensionale algebraïsche representatie, ook wel een "verborgen" vector genoemd. Wacht even - verborgen? Nou, in werkelijkheid zijn er op dit moment geen grote geheimen. Natuurlijk kun je naar deze voorstelling kijken, maar een lange vector van getallen zal voor een mens niets zinnigs overbrengen. Er is de wiskundige intelligentie van ons model voor nodig om ermee om te gaan. De decoder reproduceert de verborgen weergave in een begrijpelijke vorm zoals een andere taal, programmeercode, een afbeelding enz.

Afbeelding 4: Basisschema van een encoder-decoderarchitectuur (voorbeeld van een Engels-Duitse vertaling)

De encoder-decoderarchitectuur werd oorspronkelijk geïntroduceerd voor terugkerende neurale netwerken. Sinds de introductie van het op aandacht gebaseerde Transformer-model heeft traditionele herhaling zijn populariteit verloren, terwijl het idee van de encoder-decoder voortleeft. De meeste Natural Language Understanding (NLU)-taken zijn afhankelijk van de encoder, terwijl Natural Language Generation (NLG)-taken de decoder nodig hebben en sequentie-naar-sequentie-transductie beide componenten vereist.

We zullen hier niet ingaan op de details van de Transformer-architectuur en het aandachtsmechanisme. Voor degenen die de details onder de knie willen krijgen, wees bereid om veel tijd te besteden om je hoofd eromheen te wikkelen. Naast het originele artikel bieden [7] en [8] uitstekende uitleg. Voor een lichtgewicht introductie raad ik de overeenkomstige secties in Andrew Ng's aan Volgordemodellen cursus.

Taalmodellen gebruiken in de echte wereld

Scherpstellen

Taalmodellering is een krachtige stroomopwaartse taak - als je een model hebt dat met succes taal genereert, gefeliciteerd - het is een intelligent model. De zakelijke waarde van een model dat bruist van willekeurige tekst is echter beperkt. In plaats daarvan wordt NLP meestal gebruikt voor meer gerichte stroomafwaartse taken zoals sentimentanalyse, het beantwoorden van vragen en het extraheren van informatie. Dit is het moment om te solliciteren overdracht leren en hergebruik de bestaande taalkennis voor meer specifieke uitdagingen. Tijdens het finetunen wordt een deel van het model “bevroren” en wordt de rest verder getraind met domein- of taakspecifieke data.

Expliciete fine-tuning voegt complexiteit toe op het pad naar LLM-implementatie. Het kan ook leiden tot een modelexplosie, waarbij elke zakelijke taak zijn eigen verfijnde model vereist, dat escaleert tot een onhoudbare verscheidenheid aan modellen. Dus mensen hebben een poging gedaan om van de fine-tuning stap af te komen met behulp van weinig of zero-shot leren (bijv. in GPT-3 [9]). Dit leren gebeurt on-the-fly tijdens de voorspelling: het model wordt gevoed met een "prompt" - een taakbeschrijving en mogelijk een paar trainingsvoorbeelden - om zijn voorspellingen voor toekomstige voorbeelden te begeleiden.

Hoewel het veel sneller te implementeren is, wordt de gemaksfactor van zero- of few-shot learning gecompenseerd door de lagere voorspellingskwaliteit. Bovendien moeten veel van deze modellen worden benaderd via cloud-API's. Dit kan een welkome kans zijn aan het begin van je ontwikkeling, maar in meer gevorderde stadia kan het veranderen in een andere ongewenste externe afhankelijkheid.

Het juiste model kiezen voor uw stroomafwaartse taak

Kijkend naar de continue aanvoer van nieuwe taalmodellen op de AI-markt, kan het lastig zijn om het juiste model voor een specifieke downstreamtaak te selecteren en synchroon te blijven met de stand van de techniek.

Onderzoekspapers vergelijken elk model normaal gesproken met specifieke downstreamtaken en datasets. Gestandaardiseerde taaksuites zoals: Superlijm en BIG-bank uniforme benchmarking met een groot aantal NLP-taken mogelijk maken en een basis voor vergelijking bieden. Toch moeten we er rekening mee houden dat deze tests worden voorbereid in een zeer gecontroleerde omgeving. Vanaf vandaag is de generalisatiecapaciteit van taalmodellen vrij beperkt - dus de overdracht naar real-life datasets kan de modelprestaties aanzienlijk beïnvloeden. Bij de evaluatie en selectie van een geschikt model moet worden geëxperimenteerd met gegevens die zo dicht mogelijk bij de productiegegevens liggen.

Als vuistregel geeft het pre-trainingsdoel een belangrijke hint: autoregressieve modellen presteren goed op tekstgeneratietaken zoals conversatie-AI, het beantwoorden van vragen en tekstsamenvattingen, terwijl auto-encoders uitblinken in bijvoorbeeld "begrijpen" en structureren van taal voor sentimentanalyse en verschillende taken voor het extraheren van informatie. Modellen die bedoeld zijn voor zero-shot learning kunnen in theorie allerlei taken uitvoeren zolang ze de juiste prompts ontvangen, maar hun nauwkeurigheid is over het algemeen lager dan die van nauwkeurig afgestelde modellen.

Om de zaken concreter te maken, laat de volgende grafiek zien hoe populaire NLP-taken worden geassocieerd met prominente taalmodellen in de NLP-literatuur. De associaties worden berekend op basis van meerdere overeenkomsten en aggregatiestatistieken, incl. het inbedden van gelijkenis en afstandsgewogen gelijktijdig voorkomen. Model-taakparen met hogere scores, zoals BART / Text Summarization en LaMDA / Conversational AI, duiden op een goede fit op basis van historische gegevens.

kies taalmodel
Figuur 5: Associatiesterkten tussen taalmodellen en downstreamtaken [12]

Key afhaalrestaurants

In dit artikel hebben we de basisbegrippen van LLM's en de belangrijkste dimensies waar innovatie plaatsvindt behandeld. De volgende tabel geeft een overzicht van de belangrijkste functies voor de meest populaire LLM's:

kies taalmodel
Tabel 1: Samenvatting van de kenmerken van de meest populaire Large Language Models

Laten we enkele algemene richtlijnen voor de selectie en inzet van LLM's samenvatten:

1. Wees bij het evalueren van potentiële modellen duidelijk over waar u zich bevindt in uw AI-reis:

  • In het begin kan het een goed idee zijn om te experimenteren met LLM's die zijn geïmplementeerd via cloud-API's.
  • Zodra u de product-markt-fit hebt gevonden, kunt u overwegen uw model aan uw zijde te hosten en te onderhouden om meer controle te hebben en de modelprestaties voor uw toepassing verder aan te scherpen.

2. Om af te stemmen op uw downstreamtaak, moet uw AI-team een ​​korte lijst met modellen maken op basis van de volgende criteria:

  • Benchmarking resultaten in de wetenschappelijke literatuur, met een focus op uw downstream taak
  • Afstemming tussen het pre-trainingsdoel en de stroomafwaartse taak: overweeg automatische codering voor NLU en autoregressie voor NLG
  • Eerdere ervaring gerapporteerd voor deze model-taakcombinatie (zie figuur 5)

4. De modellen op de shortlist moeten vervolgens worden getoetst aan uw werkelijke taak en dataset om een ​​eerste indruk te krijgen van de prestaties.
5. In de meeste gevallen bereikt u waarschijnlijk een betere kwaliteit met speciale fijnafstemming. Overweeg echter weinig/nul-shot-learning als u niet over de interne technische vaardigheden of het budget beschikt voor fine-tuning, of als u een groot aantal taken moet uitvoeren.
6. LLM-innovaties en -trends zijn van korte duur. Houd bij het gebruik van taalmodellen hun levenscyclus en de algehele activiteit in het LLM-landschap in de gaten en let op kansen om je spel te verbeteren.

Houd ten slotte rekening met de beperkingen van LLM's. Hoewel ze het verbazingwekkende, mensachtige vermogen hebben om taal te produceren, is hun algehele cognitieve vermogen melkwegstelsels verwijderd van ons mensen. De wereldkennis en het redeneervermogen van deze modellen zijn strikt beperkt tot de informatie die ze aan de oppervlakte van de taal vinden. Ook kunnen ze de feiten niet op tijd situeren en kunnen ze u zonder een oogenblik van achterhaalde informatie voorzien. Als je een applicatie bouwt die afhankelijk is van het genereren van actuele of zelfs originele kennis, overweeg dan om je LLM te combineren met aanvullende multimodale, gestructureerde of dynamische kennisbronnen.

Referenties

[1] Victor Sanh et al. 2021. Multitask-gestuurde training maakt zero-shot taakgeneralisatie mogelijk. CvdR, abs/2110.08207.
[2] Yoshua Bengio et al. 1994. Langdurige afhankelijkheden leren met gradiëntafdaling is moeilijkIEEE-transacties op neurale netwerken, 5 (2): 157–166.
[3] Sepp Hochreiter en Jürgen Schmidhuber. 1997. Lange korte termijn geheugenNeurale berekening, 9 (8): 1735–1780.
[4] Kyunghyun-Cho et al. 2014. Over de eigenschappen van neurale machinevertaling: Encoder-decoder-benaderingen. in Proceedings van SSST-8, achtste workshop over syntaxis, semantiek en structuur in statistische vertaling, pagina's 103-111, Doha, Qatar.
[5] Ashish Vaswani et al. 2017. Aandacht is alles wat je nodig hebt. In Vooruitgang in neurale informatieverwerkingssystemen, deel 30. Curran Associates, Inc.
[6] Tomas Mikolov et al. 2013. Gedistribueerde representaties van woorden en zinnen en hun compositorische eigenschappen. CvdR, abs/1310.4546.
[7] Jay Jalammar. 2018. De geïllustreerde transformator.
[8] Alexander Rush et al. 2018. De geannoteerde transformator.
[9] Tom B.Brown et al. 2020. Taalmodellen zijn leerders met weinig kans. in Proceedings van de 34e internationale conferentie over neurale informatieverwerkingssystemen, NIPS'20, Red Hook, NY, VS. Curran Associates Inc.
[10] Jacob Devlin et al. 2019. BERT: Pre-training van diepe bidirectionele transformatoren voor taalbegrip. in Proceedings van de 2019-conferentie van het Noord-Amerikaanse hoofdstuk van de Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pagina's 4171-4186, Minneapolis, Minnesota.
[11] Julien Simon 2021. Grote taalmodellen: een nieuwe wet van Moore?
[12] Onderliggende dataset: meer dan 320k artikelen over AI en NLP gepubliceerd in 2018-2022 in gespecialiseerde AI-bronnen, technologieblogs en publicaties van toonaangevende AI-denktanks.

Alle afbeeldingen, tenzij anders vermeld, zijn van de auteur.

Dit artikel is oorspronkelijk gepubliceerd op De website van Janna Lipenkova en opnieuw gepubliceerd naar TOPBOTS met toestemming van de auteur.

Geniet van dit artikel? Meld u aan voor meer AI-onderzoeksupdates.

We laten het u weten wanneer we meer samenvattende artikelen zoals deze vrijgeven.

spot_img

Laatste intelligentie

spot_img