Zephyrnet-logo

Nyttige assistenter, romantiske partnere eller svindlere? Del én » CCC-blogg

Dato:

CCC støttet tre vitenskapelige sesjoner på årets AAAS årlige konferanse, og i tilfelle du ikke var i stand til å delta personlig, vil vi oppsummere hver økt. Denne uken vil vi oppsummere høydepunktene fra paneldeltakernes presentasjoner av sesjonen, "Store språkmodeller: hjelpsomme assistenter, romantiske partnere eller svindlere?” Dette panelet, moderert av Dr. Maria Gini, medlem av CCC Council og professor i informatikk og ingeniør ved University of Minnesota, omtalt Dr. Ece Kamar, administrerende direktør for AI Frontiers i Microsoft Research, Dr. Hal Daumé III, professor i informatikk ved University of Maryland, og Dr. Jonathan May, professor i informatikk ved University of Southern California Information Sciences Institute.

Store språkmodeller er i forkant av samtaler i samfunnet i dag, og juryen er ute på om de lever opp til hypen rundt dem. Paneldeltakerne i denne AAAS-sesjonen tok for seg mulighetene, utfordringene og potensialet til LLM-er.

Den første paneldeltakeren var Dr. Ece Kamar (Microsoft Research). Hun beskrev den nåværende statusen til AI som en "faseovergang." Hun ga et unikt perspektiv som en som har sett endringene i AI i industrien, og den eksponentielle veksten i dyplæringsmodeller som svært få mennesker forventet ville fortsette inn i 2024.

Veksten ble forårsaket av en økning i mengden data som LLM-er trenes på, og den større arkitekturen kalt transformatorer. En interessant innsikt Dr. Kamar delte på grafen er at modellene skaleres så raskt fordi de i utgangspunktet bare ble trent for en bestemt oppgave; en oppgave de kunne utføre pålitelig. ChatGPT viste at hvis du skalerer stort nok, inkludert antall parametere en modell tar i betraktning, kan modellene begynne å fullføre oppgaver med samme ytelse som en modell som er trent til spesifikt å fullføre de samme oppgavene.

Dette er definisjonen av LLM-faseovergangen: modeller trenger ikke lenger å være spesifikt trent for en spesifikk oppgave, men kan generelt trenes og deretter utføre mange oppgaver. Og det er ingen tegn på at veksten av disse evnene bremser ned.

Dr. Kamar hadde tidlig tilgang til GPT-4, og i løpet av hennes omfattende tid med å teste det ut, ble hun imponert over dens betydelige forbedringer som fulgte med skala og data, og det faktum at den synkront kunne utføre forskjellige oppgaver.

Hva vil fremtiden bringe for disse LLM-ene? Dr. Kamar forventer at LLM-er vil gå utover menneskelig språk, og lære maskinspråk og være i stand til å oversette mellom de to språkene. Dette vil forbedre modalitetskapasiteter i input og output, noe som kan føre til at modeller ikke bare kan generere språk, men handlinger og spådommer i atferd.

Deretter utvidet Dr. Kamar den betydelige faseovergangen som skjer innen databehandling. Systemer utvikles veldig annerledes i dag, og denne utviklingen vil kreve å skape et nytt databehandlingsparadigme som vi bare har skrapet i overflaten av på dette tidspunktet. Måten vi samhandler med datamaskiner på kommer til å se mye annerledes ut i de kommende årene, og dette vil kreve å tenke nytt om Human-Computer Interaction (HCI).

En annen endring er måten mennesker vil arbeide fremover. Microsoft har utført studier som viser at arbeidernes produktivitet kan dobles når det gjelder kodelinjer skrevet ved hjelp av AI. Dette er en utrolig bragd, men måten denne teknologien fungerer på og hvor intelligensen kommer fra er stort sett ukjent, så det er mange forskningsspørsmål på dette området.

Det er også mange spørsmål om potensiell misbruk av LLM-er som disse. Det er bekymringer rundt rettferdighet, ulike demografiske risikoer og andre enda mer drastiske konsekvenser. Mens det er et stort potensial for vitenskapelig oppdagelse, er det også et stort potensiale for skade; for eksempel å overbevise foreldre om ikke å vaksinere barna sine, et barn til å gjøre noe dårlig, eller å overbevise noen om at verden er flat. Mye sikkerhetsarbeid har gått til utvikling av LLM-er, og åpen kildekode kan være svært nyttig for å gjøre fremskritt også på dette området.  

Dr. Kamar stilte deretter spørsmål til det vitenskapelige samfunnet:

  • Hvordan vil vitenskapen endre seg med AI-avbrudd?
  • Tar vi skritt for å forandre hvordan vi utdanner og trener neste generasjon?
  • Bygger du teknologisk infrastruktur for å dra nytte av denne faseovergangen?
  • Forbereder vi fremtidige generasjoner for den nye verden?

Til slutt understreket Dr. Kamar at en av kjerneaspektene ved faseovergangen som er bemerkelsesverdig er hastigheten som LLM-er utvikler seg i. Disse modellene forbedres betydelig på svært kort tid, og dataforskere har mye å ta igjen.

Den andre paneldeltakeren, Dr. Hal Daumé III (University of Maryland), startet foredraget sitt med å forklare at AI-modeller bør utvikles for å hjelpe folk til å gjøre de tingene de ønsker å gjøre; forsterke menneskelig arbeid, ikke automatisere. Denne visjonen om automatisering har preget samfunnet siden 60-tallet. I stedet for å hjelpe folk med å spille sjakk bedre, utviklet forskere et system som spiller sjakk på egen hånd.

Denne filosofien går ingen vei; AI i dag er fortsatt nyhetsverdig når den er intelligent nok til å gjøre en oppgave på egen hånd. Dette er dypt i blodet til AI. Før vi bruker tid og penger på å automatisere et system, bør vi først ta en pause og spørre er dette i vår interesse?

Dr. Daumé presset på konseptet augmentation: hvordan kan AI brukes som et verktøy? Systemer som Github copilot øker produktiviteten, men å øke produktiviteten er ikke nok. En bruker av systemet utbrøt at det lot dem fokusere på deler av kodingen som var morsomme, noe som er mye mer i tråd med hvordan AI skal bygges.

AI-forskere bør ikke ønske å fjerne de delene av en persons jobb som er morsomme; de bør prioritere å fjerne slitet. Det bør forbedre menneskeliv i stedet for bare å forbedre bunnlinjen for et selskap.

Dr. Daumé var medforfatter av en artikkel som tok opp disse punktene, og motargumentet dukket opp at fra et teknisk perspektiv er det ofte mye lettere å automatisere systemer som bruker maskinlæringsteknologi, enn å utvide. Dette er fordi dataene som er nødvendige for å trene et system som skal trene et system er enkle å få tak i. Vi leverer denne informasjonen ved å gjøre jobben vår, og det er enkelt å trene ML til å etterligne menneskelig atferd. Det er mye vanskeligere å lære et system å hjelpe noen med å fullføre en oppgave. Denne informasjonen er spredt blant litteraturanmeldelser fra NSF, skriving på et stykke papir av en programmerer, osv. Dataene som er nødvendige for å hjelpe et menneske med å utføre oppgaver, blir ikke registrert.

Et annet viktig aspekt ved å bygge nyttige systemer er å spørre brukeren hvilke systemer som vil være nyttige for livet deres. For eksempel er behovene til blinde mennesker veldig forskjellige fra behovene til seende (som også er forskjellige fra seende mennesker tror behovene til blinde mennesker er). Et eksempel Dr. Daumé delte var at et visuelt system kan avsløre at en gjenstand er en boks med brus, men en blind person kan typisk fortelle det på egen hånd. Ingrediensene i brusen ville være mye mer nyttige for dem. Det er et enormt gap mellom kvaliteten på et systems svar på å forstå spørsmål til å løse tilgjengelighetsspørsmål, og dette gapet øker.

Et ekstra eksempel på viktigheten av å først bestemme fellesskapets behov før man lager teknologi for å «hjelpe» dem, er innholdsmoderering. Mange frivillige innholdsmoderatorer engasjerer seg i arbeidet fordi de ønsker å gjøre verden til et bedre sted, og bidra til å bygge et fellesskap de synes er viktig. Når de blir spurt om hva slags verktøy de ønsker å hjelpe rollen deres, vil de ofte ikke at jobben deres skal være helautomatisert, de vil bare at kjedelige deler som å slå opp chat-historikken skal være enklere.

Dr. Daumé avslutter denne diskusjonen med et siste eksempel på sin bilelskende mor som elsker biler og nekter å kjøre automatiske biler. Hun velger manuelt gir, og det er veldig viktig for henne å ha det valget. Folk bør ha kontroll på om de vil at oppgavene deres skal automatiseres eller ikke.

Dr. Daumé fortsetter samtalen ved å tilby alternativer til dagens tilnærminger til tilgjengelighetsteknologi. For eksempel, når du bygger et verktøy rundt tegnspråkgjenkjenning, i stedet for å skrape internett etter videoer av folk som signerer (som har mange bekymringer om samtykke og personvern, pluss at de fleste av disse videoene er av profesjonelle og uten bakgrunnsstøy/distraksjoner som er t realistisk), nå ut til fellesskapet og sett i gang et prosjekt som gir dem mulighet til å sende inn videoer for å lære opp verktøyene. Community-first-strategier som disse er mer etiske og ansvarlige, og gir brukerne mer kontroll. 

LLM og andre verktøy bør utvikles for å prioritere nytte, ikke intelligens, avslutter Dr. Daumé. Jo mer nyttig det er, jo mer kan det hjelpe folk til å gjøre noe de ikke kan eller ikke vil, i stedet for å automatisere noe som folk allerede gjør godt og liker.

Dr. Jonathan May (University of Southern California Information Sciences Institute) var den neste foredragsholderen, og han begynte sitt foredrag med å reflektere over temaet for konferansen: «Mot vitenskap uten murer». Han hevder at mens nyere LLM-utvikling tar vegger ned for noen mennesker, bygger det vegger for mange.

Han diskuterer først hvordan internett senket mange barrierer for å drive forskning; da han var 17 lurte han på hvorfor Star Wars og Ringenes Herre hadde veldig like plott, og han måtte kjøre til biblioteket og finne en bok med svaret. Han forsket med høyere innsats, men like krevende for sin doktorgradsavhandling, men ved slutten av studietiden var det opprettet en Wikipedia-side om emnet, og deretter internettsøk, og nå er forskning uten bil normen.

Dr. May fortsatte med å si at han følte seg privilegert over å være i den demografiske målgruppen for LLM-er. Han koder ikke ofte og lærte aldri mange kodeferdigheter, men når han trenger det for arbeidet sitt kan han spørre ChatGPT og det gjør en god jobb. 

Imidlertid er det mange vegger for å gjøre LLMs nytte utbredt:

  • Språkvegger: Modeller fungerer bedre jo mer data de er trent på. Mens dagens kommersielle LLM-er er flerspråklige, er de tungt vektet mot engelsk. ChatGPT er for eksempel trent på 92 % engelsk språk. Videre er instruksjonsdataene, som er den "hemmelige sausen" til LLM-er, de aller fleste engelske (96 % av ChatGPT-er for eksempel). Det er for tiden svært få anstrengelser for å forbedre den tverrspråklige ytelsen til disse modellene til tross for systemiske ytelsesgap på eksisterende tester, noe som gir mening på grunn av en generell konsensus om at maskinoversettelse (MT) er "løst" og innsatsen bør fokuseres på andre oppgaver.
  • Identitetsvegger: Hvis du spør ChatGPT hva du bør gjøre i julen, fokuserer det på ulike aktiviteter og tradisjoner du kan engasjere deg i; den nevner ikke at du kan gå på jobb. LLM-er har vist seg å oppføre seg annerledes når de beskriver forskjellige demografiske grupper, uttrykker mer negativ følelse og til og med direkte toksisitet i noen tilfeller. Det er sannsynligheter for stereotype setninger som kan forårsake skade i samfunn som LHBTQ+ eller jødiske; over hele linja er det mye skjevhet, og dette har konsekvenser i utplassert beslutningstaking. Det er noen innebygde sikkerhetstiltak, og mer eksplisitte undersøkelsesspørsmål er mindre sannsynlig å motta giftige svar, men modeller foretrekker sannsynligvis stereotype utsagn og utfall, og det er der det er skader, spesielt når du bruker modeller i nedstrømsfunksjoner der du ikke ser output (dvs. låneberettigelse). Han ga et eksempel på LLM-er som viser skjevhet når de genererer ansikter til individer basert på jobben deres; de lavere betalte jobbene vises som kvinner og minoriteter, mens de høyere betalte jobbene er hvite menn.
  • Miljøvegger (programvare): LLM krever en betydelig mengde energi for å produsere og drive. Selv de mest "beskjedne" LM-ene bruker 3 ganger mer årlig energi enn bruken av en enkelt person. Det er også et betydelig gap i data for de største språkmodellene som ChatGPT, men selskapene som eier dem nekter eksplisitt tilgang til energiforbruket deres.
  • Miljøvegger (maskinvare): For å produsere brikker, som alle LLM-er krever, trenger du "konfliktmaterialer" som tantal (utvunnet i Kongo) og hafnium (utvunnet i Senegal og Russland). I USA skal selskaper rapportere mengden konfliktmineraler de bruker, men USA viser offentlig en nedgang i bruken av disse materialene, noe som ikke kan være sant. Utover det er det mange sosiopolitiske problemer som at Kina begrenser germanium og gallium som gjengjeldelse for amerikanske eksportrestriksjoner.

Dr. May uttrykker at disse kategoriene avslører noen av de mange nedstrømsproblemene for skade forårsaket av LLM-er, og tilfeller der folk ikke drar nytte av det. Det er grunn til bekymring, men det er også muligheter for forskning og/eller atferdsendringer som vil redusere noen av disse skadene:

  • Språk: Vie mer forskningsmidler til flerspråklighet (ikke bare hegemonisk oversettelse til og fra engelsk).
  • Identitet: Bottom-up og samfunnsinkluderende forskning. Modellmodifisering og testing før distribusjon
  • Miljø: Algoritmeutvikling som bruker mindre data og endrer færre parametere (f.eks. LoRA, adaptere, ikke-RL PO). Vær pliktoppfyllende når det gjelder databehandling og insister på åpenhet på regulatoriske nivåer 

Dr. May avsluttet panelet med å gjenta Dr. Daumés poeng om at folk bør dra nytte av den måten de ønsker å ha nytte av når de samhandler med LLM-er, og dette må være øverst i hodet på utviklingsstadiet.

Tusen takk for at du leste, og følg med i morgen for å lese oppsummeringen av spørsmål og svar-delen av økten.

spot_img

Siste etterretning

spot_img