Zephyrnet-logo

De beste NLP-papirene fra ICLR 2020

Dato:

jeg gikk gjennom 687 papirer som ble akseptert til ICLR 2020 virtuell konferanse (av 2594 innsendte - opp 63% siden 2019!) og identifiserte 9 artikler med potensial til å fremme bruken av dyplærende NLP-modeller i hverdagsbruk.

Her er papirene som er funnet og hvorfor de har betydning.

ELECTRA: Forhåndsopplæring av tekstkodere som diskriminatorer snarere enn generatorer

Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning

Hovedbidrag: En vanlig oppgave for pre-training språkmodeller er å maskere input og få modellen til å forutsi hva som er maskert. Denne artikkelen introduserer en ny opplæring før trening kalt token detection. I den nye oppgaven erstatter forfatterne noen tokens med alternativer ved å prøve fra en generator. Deretter trente de en diskriminator for å forutsi om generatoren erstattet hvert token i en inngang eller ikke.

Hvorfor det er viktig: Denne oppgaven er mer dataeffektiv, og lærer potensielt fra alle tokens i et datasett versus ~ 15% maskerte i vanlig tilnærming. Det viser at det fremdeles er plass til ekstra kreativitet i hvordan man trener en språkmodell.

ELECTRA

En oversikt over erstattet token deteksjon

Synes du dette inngående innholdet i NLP-forskning er nyttig? Abonner nedenfor for å bli oppdatert når vi slipper nytt relevant innhold.

Det nysgjerrige tilfellet av nevral tekstdegenerasjon

Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi

Hovedbidrag: Forfatterne foreslår en ny avkodingsstrategi kalt nucleus sampling - som avkorter halen på sannsynlighetsfordelingen, prøvetaking fra den dynamiske kjernen av tokens som inneholder det store flertallet av sannsynlighetsmassen. Den kontraintuitive empiriske observasjonen er at selv om bruken av sannsynlighet som et treningsmål fører til høykvalitetsmodeller for et bredt spekter av språkforståelsesoppgaver, bruker sannsynligheten som et dekodingsmål til tekst som er blid og underlig repeterende.

Hvorfor det er viktig: Tekstdegenerasjon er et problem selv i de nyeste banebrytende språkmodellene. Avkodingsstrategier er viktige for å skape mer menneskelignende tekstgenerering for ulike oppgaver. Å bevege seg bort fra grådige algoritmer som strålesøk vil hjelpe ytelse på nedstrøms oppgaver.

Strålesøk

Eksempel på strålesøkbasert generasjon vs menneskelig generasjon

Hva kan nevrale nettverk tenke på?

Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S. Du, Ken-ichi Kawarabayashi, Stefanie Jegelka

Hovedbidrag: Denne artikkelen introduserer et rammeverk kalt algoritmisk justering for å måle hvor godt nevrale nettverk utfører på resonneringsoppgaver. Nevrale nettverk som "justerer" seg mot kjente algoritmiske løsninger er bedre i stand til å lære løsningene. Rammeverket sier omtrent at for at modellen skal kunne lære og lykkes med å generalisere på en resonneringsoppgave, må den være i stand til å kunne enkelt lære (til å tilnærme seg) trinnene i resonneringsoppgavene. Forfatterne viste at nevrale nettverk i grafen er godt egnet for og derfor kan lære å løse dynamiske programmeringsproblemer.

Hvorfor det er viktig: Dette er et tett teoretisk papir som forklarer arkitektoniske valg mennesker har gjort intuitivt, og legger grunnlaget for fremtidig forskning som utforsker nye arkitekturer for å passe bedre til oppgaver. Det skaper et nytt rammeverk for å evaluere fremtidige algoritmer og oppgaver.

Sekvensiell latent kunnskapsutvalg for kunnskapsbasert dialog

Byeongchang Kim, Jaewoo Ahn, Gunhee Kim

Hovedbidrag: Denne artikkelen foreslår en ny tilnærming til å velge kunnskap for dialog med åpen domene kalt Sequential Latent Model som representerer kunnskapshistorie som noe latent representasjon. De gjør dette fordi å holde oversikt over kunnskapshistorikken reduserer tvetydigheten forårsaket av mangfoldet i kunnskapsvalg av samtale, men kan også bidra til å bedre bruke responsinformasjonen / ytringene.

Hvorfor det er viktig: Dette arbeidet viser at forbedring av kunnskapsutvalg kan utgjøre en stor forskjell i kvaliteten på responsgenerering. Dette har implikasjoner for å bygge mer robuste dialogapplikasjoner.

Kunnskapsbasert dialog

Eksempler på genererte svar etter forfatterens modell og grunnlinjer på Wizard of Wikipedia. TMN står for E2E Transformer MemNet, og A og W for lærling og veiviser.

En sannsynlig formulering av tekstoverføring uten tilsyn

Junxian He, Xinyi Wang, Graham Neubig, Taylor Berg-Kirkpatrick

Hovedbidrag: Forfatterne foreslår en sannsynlig tilnærming til overvåking av tekststil uten tilsyn. Denne tilnærmingen fungerer ved å bruke ikke-parallelle data fra to domener som et delvis observert parallelt korpus. Forfatterenes foreslåtte modell lærer å transformere sekvenser fra ett domene til et annet domene. Ved å generere en parallell latent sekvens som genererer hver observerte sekvens, gjør dette modellen i stand til å lære dette på en ukontrollert måte.

Hvorfor det er viktig: Papiret hadde gode resultater for følgende oppgaver: Overvåket sentimentoverføring, formalitetsoverføring, orddekryptering, forfatterimitasjon og maskinoversettelse. Noen av disse kan være nyttige funksjoner for fremtidige skriveapplikasjoner. Tilnærmingen introdusert i papiret krever ikke sammenkoblede opplæringsdata, noe som gjør datainnsamling for stiloverføring lettere.

Uovervåket overføring av tekststil

Resultater på sentimentoverføring, forfatterimitasjon og formalitetsoverføring

ALBERT: En lite BERT for selvovervåket læring av språkrepresentasjoner

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

Hovedbidrag: ALBERT er en utvidelse av BERT som prøver å svare på spørsmålet: er større modeller svaret på NLP-oppgaver? Albert oppnår SOTA-resultater ved å dele parametere på tvers av lag. Ved å dele parametere kan ALBERT være mindre med lignende ytelse. De beste resultatene fra ALBERT er med flere parametere - men det trener fortsatt raskere enn BERT. Og når de trener like mye tid, presterer ALBERT bedre enn BERT.

Hvorfor det er viktig: Disse resultatene er lovende, og viser at det å bare bygge mer komplekse, større og dypere modeller ikke alltid er den beste tilnærmingen til å forbedre modellytelsen.

ALBERT NLP-modell

Toppmoderne resultater på SQuAD- og RACE-referansene

Koding av ordrekkefølge i komplekse innebygginger

Benyou Wang, Donghao Zhao, Christina Lioma, Qiuchi Li, Peng Zhang, Jakob Grue Simonsen

Hovedbidrag: Denne artikkelen beskriver en ny språkmodell som fanger både ordens posisjon og deres ordrelasjoner. Papiret omdefinerer ordinnblanding (tidligere betraktet som faste og uavhengige vektorer) som funksjoner av ordets posisjon. Forfatterens Transformer Complex-Order-modell overgår Vanilla Transformer og complex-vanilla Transformer med henholdsvis 1.3 og 1.1 i absolutt BLEU-poengsum.

Hvorfor det er viktig: Innebygging av posisjoner fanger posisjonen til individuelle ord, men ikke det ordnede forholdet (f.eks. Nærhet eller forrang) mellom individuelle ordposisjoner. Deres tilnærming tillater ordrepresentasjoner i forskjellige posisjoner å korrelere med hverandre i en kontinuerlig funksjon.

Reformer

Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya

Hovedbidrag: Forfatterne foreslår en ny transformatormodell med to store forbedringer av arkitekturen: a) bruk av reversible lag for å forhindre behovet for å lagre aktiveringene av alle lag for tilbakeslag, og b) bruke lokalitetsfølsom hashing for å tilnærme den kostbare softmax (QK ^ T ) beregning i full dot-produkt oppmerksomhet

Hvorfor det er viktig: Reformeren opptrer på nivå med SOTA Transformer-modeller mens den er mye mer minneeffektiv og mye raskere på lange sekvenser. For eksempler, Vaswani et al. (2017) basismodellen hadde en BLEU-poengsum på 27.3 sammenlignet med Reformers BLEU-poengsum på 27.6 på nyeste 2014 for WMT engelsk-tysk.

Reformer NLP-modell

Til venstre, lokalitetsfølsom hasjoppmerksomhet som viser hash-bøttering, sortering og klumping og de resulterende årsaksoppmerksomhetene. Til høyre (ad) Oppmerksomhetsmatriser for disse varianter av oppmerksomhet.

Tyver på Sesame Street! Modellutvinning av BERT-baserte APIer

Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, Mohit Iyyer

Hovedbidrag: Denne artikkelen fremhever en utnyttelse som bare er mulig gjennom skiftet mot overføringslæringsmetoder innen NLP-samfunnet: for et spørrebudsjett på noen hundre dollar kan en angriper trekke ut en modell som bare fungerer dårligere enn offermodellen på SST2, SQuAD, MNLI og BoolQ. På SST2-oppgaven hadde offermodellen en nøyaktighet på 93.1% sammenlignet med den ekstraherte modellens 90.1%. De viser at en motstander ikke trenger noen reelle treningsdata for å kunne angrepet vellykket. Angriperen trenger ikke engang å bruke grammatiske eller semantisk meningsfulle spørsmål. De brukte tilfeldige ordsekvenser kombinert med oppgavespesifikke heuristikker for å danne nyttige spørsmål for modellutvinning på et mangfoldig sett med NLP-oppgaver.

Hvorfor det er viktig: Utganger av moderne NLP APIer på meningsløs tekst gir sterke signaler om modellinnvendinger, slik at motstandere kan trene sine egne modeller og unngå å betale for API.

Svar på spørsmål

Oversikt over den foreslåtte modellens utvinningsoppsett for svar på spørsmål

Denne artikkelen ble opprinnelig publisert på Christina Kims nettsted og publisert på nytt til TOPBOTS med tillatelse fra forfatteren.

Liker du denne artikkelen? Registrer deg for flere NLP-forskningsoppdateringer.

Vi gir beskjed når vi gir ut flere sammendragsartikler som denne.

Kilde: https://www.topbots.com/best-nlp-papers-from-iclr-2020/?utm_source=rss&utm_medium=rss&utm_campaign=best-nlp-papers-from-iclr-2020

spot_img

Siste etterretning

spot_img