Zephyrnet-logo

Behulpzame assistenten, romantische partners of oplichters? Deel één » CCC-blog

Datum:

CCC ondersteunde drie wetenschappelijke sessies op de jaarlijkse AAAS-conferentie van dit jaar, en voor het geval u er niet persoonlijk bij kon zijn, zullen we elke sessie samenvatten. Deze week zullen we de hoogtepunten van de presentaties van de panelleden van de sessie samenvatten: “Grote taalmodellen: behulpzame assistenten, romantische partners of oplichters?Dit panel, gemodereerd door Dr. Maria Gini, CCC-raadslid en hoogleraar computerwetenschappen en techniek aan de Universiteit van Minnesota Dr. Ece Kamar, Managing Director van AI Frontiers bij Microsoft Research, Dr. Hal Daumé III, hoogleraar computerwetenschappen aan de Universiteit van Maryland, en Dr. Jonathan May, hoogleraar computerwetenschappen aan het Information Sciences Institute van de University of Southern California.

Grote taalmodellen lopen tegenwoordig voorop in de gesprekken in de samenleving, en de jury vraagt ​​zich af of ze de hype die hen omringt waarmaken. De panelleden van deze AAAS-sessie gingen in op de mogelijkheden, uitdagingen en mogelijkheden van LLM's.

Het eerste panellid was Dr. Ece Kamar (Microsoft Research). Ze beschreef de huidige status van AI als een ‘faseovergang’. Ze bood een uniek perspectief als iemand die de veranderingen in AI in de industrie heeft gezien, en de exponentiële groei in deep learning-modellen waarvan maar weinig mensen hadden verwacht dat deze zich in 2024 zou voortzetten.

De groei werd veroorzaakt door een toename van de hoeveelheid gegevens waarop LLM's worden getraind, en de grotere architectuur die transformatoren wordt genoemd. Een interessant inzicht dat Dr. Kamar in de grafiek deelde, is dat de modellen zo snel schalen omdat ze aanvankelijk alleen voor een bepaalde taak waren getraind; een taak die ze betrouwbaar konden uitvoeren. ChatGPT liet zien dat als je groot genoeg schaalt, inclusief het aantal parameters waarmee een model rekening houdt, modellen taken kunnen gaan voltooien met vergelijkbare prestaties als een model dat is getraind om specifiek dezelfde taken uit te voeren.

Dit is de definitie van de LLM-faseovergang: modellen hoeven niet langer specifiek te worden getraind voor een specifieke taak, maar kunnen algemeen worden getraind en vervolgens vele taken uitvoeren. En er zijn geen tekenen dat de groei van deze capaciteiten vertraagt.

Dr. Kamar had in een vroeg stadium toegang tot GPT-4, en tijdens de uitgebreide tests ervan was ze onder de indruk van de aanzienlijke verbeteringen die met de schaal en de gegevens gepaard gingen, en van het feit dat het programma synchroon verschillende taken kon uitvoeren.

Wat heeft de toekomst voor deze LLM's in petto? Dr. Kamar verwacht dat LLM's verder zullen gaan dan de menselijke taal, en machinetaal zullen leren en in staat zullen zijn om tussen de twee talen te vertalen. Dit zou de mogelijkheden van modaliteiten in input en output verbeteren, wat ertoe zou kunnen leiden dat modellen niet alleen taal kunnen genereren, maar ook acties en voorspellingen in gedrag.

Vervolgens ging Dr. Kamar dieper in op de significante faseovergang die zich in de computerwereld voordoet. Systemen worden tegenwoordig op een heel andere manier ontwikkeld, en deze ontwikkeling vereist het creëren van een nieuw computerparadigma waarvan we op dit moment nog maar het oppervlak hebben bekrast. De manier waarop we omgaan met computers zal er de komende jaren heel anders uitzien, en dit zal een heroverweging van de mens-computerinteractie (HCI) vereisen.

Een andere verandering is de manier waarop mensen vooruit zullen werken. Microsoft heeft onderzoeken uitgevoerd waaruit blijkt dat de productiviteit van werknemers kan verdubbelen als het gaat om het aantal regels code dat wordt geschreven met behulp van AI. Dit is een ongelooflijke prestatie, maar de manier waarop deze technologie werkt en waar de intelligentie vandaan komt is grotendeels onbekend, dus er zijn veel onderzoeksvragen op dit gebied.

Er zijn ook veel vragen over mogelijk misbruik van dergelijke LLM's. Er zijn zorgen over eerlijkheid, verschillende demografische risico's en andere, nog drastischer gevolgen. Hoewel er een groot potentieel is voor wetenschappelijke ontdekkingen, is er ook een groot potentieel voor schade; bijvoorbeeld ouders overtuigen om hun kinderen niet te vaccineren, een kind iets slechts te doen, of iemand ervan overtuigen dat de wereld plat is. Er zijn veel veiligheidsinspanningen gestoken in de ontwikkeling van LLM's, en open sourcing kan zeer nuttig zijn om ook op dit gebied vooruitgang te boeken.  

Dr. Kamar stelde vervolgens vragen aan de wetenschappelijke gemeenschap:

  • Hoe zal de wetenschap veranderen door de disruptie van AI?
  • Nemen we stappen om de manier waarop we de volgende generatie opleiden en trainen te transformeren?
  • Bouwt u technologische infrastructuur om te profiteren van deze faseovergang?
  • Bereiden wij toekomstige generaties voor op de nieuwe wereld?

Ten slotte benadrukte Dr. Kamar dat een van de opmerkelijke kernaspecten van de faseovergang de snelheid is waarmee LLM's zich ontwikkelen. Deze modellen worden in zeer korte tijd aanzienlijk verbeterd, en computeronderzoekers hebben nog een grote inhaalslag te maken.

Het tweede panellid, Dr. Hal Daumé III (Universiteit van Maryland), begon zijn lezing met uit te leggen dat AI-modellen ontwikkeld moeten worden om mensen te helpen de dingen te doen die ze willen doen; menselijk werk vergroten, niet automatiseren. Deze visie op automatisering is sinds de jaren zestig in de samenleving doorgedrongen. In plaats van mensen te helpen beter te schaken, ontwierpen wetenschappers een systeem dat op zichzelf schaakt.

Deze filosofie gaat nergens heen; Tegenwoordig is AI nog steeds nieuwswaardig als het intelligent genoeg is om een ​​taak op eigen kracht uit te voeren. Dit zit diep in het bloed van AI. Voordat we tijd en geld besteden aan het automatiseren van een systeem, moeten we eerst even stilstaan ​​en ons afvragen: is dit in ons belang?

Dr. Daumé heeft het concept van augmentatie gepromoot: hoe kan AI als hulpmiddel worden gebruikt? Systemen zoals Github copilot verhogen de productiviteit, maar het verhogen van de productiviteit is niet genoeg. Een gebruiker van het systeem riep uit dat ze zich konden concentreren op delen van het coderen die leuk waren, wat veel beter aansluit bij hoe AI zou moeten worden gebouwd.

AI-onderzoekers moeten niet de leuke delen van iemands werk willen verwijderen; ze zouden prioriteit moeten geven aan het verwijderen van het saaie werk. Het zou mensenlevens moeten verbeteren in plaats van alleen maar de bedrijfsresultaten te verbeteren.

Dr. Daumé was co-auteur van een artikel waarin deze punten aan de orde werden gesteld, en het tegenargument kwam naar voren dat vanuit technisch perspectief het bouwen van systemen die met name machine learning-technologie gebruiken, vaak een stuk gemakkelijker te automatiseren is dan te vergroten. Dit komt omdat de gegevens die nodig zijn om een ​​systeem te trainen dat een systeem gaat trainen, gemakkelijk te verkrijgen zijn. Wij verstrekken deze informatie door ons werk te doen, en het is gemakkelijk om ML te trainen om menselijk gedrag na te bootsen. Het is veel moeilijker om een ​​systeem te leren iemand te helpen een taak te voltooien. Deze informatie is verspreid over literatuuroverzichten van NSF, schrijven op een stuk papier door een programmeur, enz. De gegevens die nodig zijn om een ​​mens te helpen taken uit te voeren, worden niet vastgelegd.

Een ander belangrijk aspect bij het bouwen van nuttige systemen is de gebruiker vragen welke systemen nuttig zouden zijn voor zijn leven. De behoeften van blinde mensen zijn bijvoorbeeld heel anders dan de behoeften van ziende mensen (die ook verschillen van wat ziende mensen denken). denken de behoeften van blinde mensen zijn). Een voorbeeld dat Dr. Daumé vertelde was dat een visueel systeem kan onthullen dat een voorwerp een blikje frisdrank is, maar een blinde persoon kan dat doorgaans zelf zien. De ingrediënten van de frisdrank zouden voor hen veel nuttiger zijn. Er gaapt een enorme kloof tussen de kwaliteit van de reacties van een systeem op het simpelweg begrijpen van vragen en het beantwoorden van toegankelijkheidsvragen, en deze kloof wordt steeds groter.

Een bijkomend voorbeeld van het belang van het eerst vaststellen van de behoeften van de gemeenschap voordat technologie wordt gecreëerd om hen te ‘helpen’ is contentmoderatie. Veel vrijwillige contentmoderators doen dit werk omdat ze de wereld een betere plek willen maken en willen helpen een gemeenschap op te bouwen die zij belangrijk vinden. Op de vraag wat voor soort tool ze bij hun rol willen ondersteunen, willen ze vaak niet dat hun werk volledig geautomatiseerd is. Ze willen gewoon dat saaie onderdelen, zoals het opzoeken van de chatgeschiedenis, eenvoudiger worden.

Dr. Daumé rondt deze discussie af met een laatste voorbeeld van zijn autominnende moeder die van auto's houdt en weigert automatische auto's te besturen. Ze kiest voor handgeschakelde versnellingsbakken, en het is heel belangrijk dat ze die keuze heeft. Mensen moeten zelf kunnen beslissen of ze willen dat hun taken worden geautomatiseerd of niet.

Dr. Daumé vervolgt het gesprek door alternatieven aan te bieden voor de huidige benaderingen van toegankelijkheidstechnologie. Als je bijvoorbeeld een tool bouwt rond gebarentaalherkenning, in plaats van het internet af te struinen naar video's van mensen die ondertekenen (wat veel toestemmings- en privacyproblemen met zich meebrengt, en de meeste van deze video's zijn van professionals en zonder achtergrondgeluid/afleiding, wat ' Het is niet realistisch), neem contact op met de gemeenschap en start een project dat hen in staat stelt video's in te dienen om de tools te trainen. Dit soort community-first-strategieën zijn ethischer en verantwoordelijker, en geven gebruikers meer controle. 

LLM's en andere hulpmiddelen moeten worden ontwikkeld om prioriteit te geven aan bruikbaarheid, en niet aan intelligentie, concludeert Dr. Daumé. Hoe nuttiger het is, hoe meer het mensen kan helpen iets te doen wat ze niet kunnen of willen doen, in plaats van iets te automatiseren dat mensen al goed doen en leuk vinden.

Dr. Jonathan May (University of Southern California Information Sciences Institute) was de volgende spreker en hij begon zijn lezing met een reflectie op het thema van de conferentie: ‘Towards Science Without Walls’. Hij stelt dat hoewel de recente LLM-ontwikkeling voor sommige mensen muren neerhaalt, het voor velen muren bouwt.

Hij bespreekt eerst hoe internet veel barrières voor het doen van onderzoek heeft verlaagd; Toen hij 17 was, vroeg hij zich af waarom Star Wars en Lord of the Rings zeer vergelijkbare plots hadden, en hij moest naar de bibliotheek rijden om een ​​boek met het antwoord te zoeken. Voor zijn proefschrift deed hij ingewikkelder, maar net zo zwaar onderzoek, maar tegen het einde van zijn studie was er een Wikipedia-pagina over het onderwerp gemaakt en daarna op internet gezocht, en nu is autoloos onderzoek de norm.

Dr. May vervolgde met te zeggen dat hij zich bevoorrecht voelde om tot de doelgroep van LLM's te behoren. Hij codeert niet vaak en heeft nooit veel codeervaardigheden geleerd, maar als hij het nodig heeft voor zijn werk, kan hij het aan ChatGPT vragen en het doet geweldig werk. 

Er zijn echter veel muren die het nut van LLM’s wijdverspreid maken:

  • Taalmuren: Modellen werken beter naarmate ze met meer gegevens worden getraind. Hoewel de huidige commerciële LLM's meertalig zijn, neigen ze zwaar naar het Engels. ChatGPT is bijvoorbeeld getraind op 92% Engelse taal. Bovendien zijn de instructiegegevens, die de “geheime saus” van LLM's vormen, voor het overgrote deel Engels (96% van ChatGPT's bijvoorbeeld). Er zijn momenteel zeer weinig pogingen om de meertalige prestaties van deze modellen te verbeteren, ondanks systemische prestatieverschillen bij bestaande tests, wat logisch is vanwege de algemene consensus dat machinevertaling (MT) ‘opgelost’ is en dat de inspanningen op andere taken moeten worden gericht.
  • Identity Walls: Als je ChatGPT vraagt ​​wat je met Kerstmis moet doen, richt het zich op verschillende activiteiten en tradities waaraan je kunt deelnemen; er staat niet bij dat je naar je werk kunt gaan. Er is aangetoond dat LLM's zich anders gedragen bij het beschrijven van verschillende demografische groepen, waarbij ze in sommige gevallen meer negatieve sentimenten en zelfs regelrechte toxiciteit uiten. Er is een kans op stereotiepe zinnen die schade kunnen veroorzaken in gemeenschappen als LGBTQ+ of Joods; over de hele linie is sprake van veel bias en dit heeft gevolgen voor de ingezette besluitvorming. Er zijn een aantal waarborgen ingebouwd, en meer expliciete indringende vragen zullen minder snel giftige antwoorden krijgen, maar modellen geven waarschijnlijk de voorkeur aan stereotiepe uitspraken en uitkomsten, en dat is waar er schade ontstaat, vooral als je modellen gebruikt met downstream-mogelijkheden waarbij je de verschillen niet ziet. output (dwz geschiktheid voor leningen). Hij gaf een voorbeeld van LLM's die vooringenomenheid vertoonden bij het genereren van gezichten van individuen op basis van hun baan; de lagerbetaalde banen worden weergegeven als vrouwen en minderheden, terwijl de hogerbetaalde banen blanke mannen zijn.
  • Environmental Walls (software): LLM's hebben een aanzienlijke hoeveelheid energie nodig om te produceren en te functioneren. Zelfs de meest ‘bescheiden’ LM’s verbruiken jaarlijks drie keer meer energie dan het verbruik van één persoon. Er is ook een aanzienlijke kloof in de gegevens voor de grootste taalmodellen zoals ChatGPT, maar de bedrijven die er eigenaar van zijn ontkennen expliciet de toegang tot hun energieverbruik.
  • Milieumuren (hardware): Om chips te produceren, die alle LLM’s nodig hebben, heb je ‘conflictmaterialen’ nodig zoals tantaal (gedolven in Congo) en hafnium (gedolven in Senegal en Rusland). In de VS worden bedrijven verondersteld de hoeveelheid conflictmineralen die ze gebruiken te rapporteren, maar de VS laten publiekelijk een afname zien in het gebruik van deze materialen, wat niet waar kan zijn. Daarnaast zijn er veel sociaal-politieke problemen, zoals China dat germanium en gallium aan banden legt als vergelding voor de Amerikaanse exportbeperkingen.

Dr. May geeft aan dat deze categorieën enkele van de vele problemen aan het licht brengen met betrekking tot de schade veroorzaakt door LLM's, en gevallen waarin mensen er geen voordeel uit halen. Er is reden tot zorg, maar er zijn ook mogelijkheden voor onderzoek en/of gedragsveranderingen die een deel van deze schade zouden kunnen verzachten:

  • Taal: Besteed meer onderzoeksfinanciering aan meertaligheid (niet alleen aan hegemonistische vertalingen van en naar het Engels).
  • Identiteit: Bottom-up en gemeenschapsinclusief onderzoek. Modelaanpassing en testen vóór implementatie
  • Omgeving: Ontwikkeling van algoritmen die minder gegevens gebruiken en minder parameters wijzigen (bijv. LoRA, adapters, niet-RL PO). Wees gewetensvol als het om computers gaat en dring aan op openheid op regelgevingsniveau 

Dr. May rondde het panel af met het herhalen van het punt van Dr. Daumé dat mensen baat moeten hebben op de manier waarop zij baat willen hebben bij de interactie met LLM's, en dit moet bovenaan de aandacht staan ​​in de ontwikkelingsfase.

Hartelijk dank voor het lezen, en stem morgen af ​​om de samenvatting van het vraag- en antwoordgedeelte van de sessie te lezen.

spot_img

Laatste intelligentie

spot_img