Zephyrnet-logo

Machines leren beter als we ze de basis leren

Datum:

Introductie

Stel je voor dat je buurman belt om een ​​gunst te vragen: kun je hun konijn als huisdier wat plakjes wortel geven? Makkelijk genoeg, zou je denken. Je kunt je hun keuken voorstellen, zelfs als je er nog nooit bent geweest - wortels in een koelkast, een la met verschillende messen. Het is abstracte kennis: je weet niet hoe de wortels en messen van je buren er precies uitzien, maar je neemt geen lepel voor een komkommer.

Programma's voor kunstmatige intelligentie kunnen niet concurreren. Wat u een gemakkelijke taak lijkt, is een enorme onderneming voor de huidige algoritmen.

Een AI-getrainde robot kan een specifiek mes en wortel vinden die zich in een bekende keuken verstoppen, maar in een andere keuken zal hij de abstracte vaardigheden missen om te slagen. "Ze generaliseren niet naar nieuwe omgevingen," zei Victor Zhong, een afgestudeerde student informatica aan de Universiteit van Washington. De machine faalt omdat er simpelweg te veel te leren is en een te grote ruimte om te verkennen.

Het probleem is dat deze robots - en AI-agenten in het algemeen - geen basis van concepten hebben om op voort te bouwen. Ze weten niet wat een mes of een wortel is, laat staan ​​hoe ze een la moeten openen, er een uitkiezen en plakjes snijden. Deze beperking is gedeeltelijk te wijten aan het feit dat veel geavanceerde AI-systemen worden getraind met een methode die versterkingsleren wordt genoemd en die in wezen zelfstudie is met vallen en opstaan. AI-agenten die getraind zijn met Reinforcement Learning kunnen het werk waarvoor ze zijn opgeleid heel goed uitvoeren, in de omgeving waarin ze zijn opgeleid om het te doen. Maar verander het werk of de omgeving en deze systemen zullen vaak falen.

Om deze beperking te omzeilen, zijn computerwetenschappers begonnen machines belangrijke concepten te leren voordat ze ze loslieten. Het is alsof je een handleiding leest voordat je nieuwe software gebruikt: je zou kunnen proberen zonder te verkennen, maar je leert er veel sneller mee. "Mensen leren door een combinatie van zowel doen als lezen," zei Karthik Narasimhan, een computerwetenschapper aan Princeton University. "We willen dat machines hetzelfde doen."

Nieuw werk van Zhong en anderen laat zien dat het op deze manier voorbereiden van een leermodel het leren in gesimuleerde omgevingen een boost kan geven, zowel online als in de echte wereld met robots. En het zorgt er niet alleen voor dat algoritmen sneller leren, het leidt ze ook naar vaardigheden die ze anders nooit zouden leren. Onderzoekers willen dat deze agenten generalisten worden, in staat om alles te leren, van schaken tot winkelen tot schoonmaken. En naarmate demonstraties praktischer worden, denken wetenschappers dat deze aanpak zelfs de manier waarop mensen met robots kunnen omgaan, kan veranderen.

"Het is een behoorlijk grote doorbraak geweest", zegt Brian Ichter, onderzoeker op het gebied van robotica bij Google. "Het is vrij onvoorstelbaar hoe ver het in anderhalf jaar is gekomen."

Schaarse beloningen

Op het eerste gezicht is machine learning al opmerkelijk succesvol. De meeste modellen gebruiken meestal versterking van leren, waar algoritmen leren door beloningen te krijgen. Ze beginnen totaal onwetend, maar vallen en opstaan ​​worden uiteindelijk vallen en opstaan. Versterkende lerende agenten kunnen eenvoudige spellen gemakkelijk onder de knie krijgen.

Denk aan de videogame Snake, waarin spelers een slang besturen die langer wordt terwijl hij digitale appels eet. Je wilt dat je slang de meeste appels eet, binnen de grenzen blijft en voorkomt dat hij tegen zijn steeds omvangrijker wordende lichaam aanloopt. Zulke duidelijke goede en foute uitkomsten geven een goed beloonde machine-agent positieve feedback, dus genoeg pogingen kunnen het van "noob" naar High Score brengen.

Maar stel dat de regels veranderen. Misschien moet dezelfde agent op een groter raster en in drie dimensies spelen. Hoewel een menselijke speler zich snel zou kunnen aanpassen, kan de machine dat niet vanwege twee kritieke zwakheden. Ten eerste betekent de grotere ruimte dat het langer duurt voordat de slang op appels stuit, en het leren vertraagt ​​exponentieel wanneer beloningen schaars worden. Ten tweede zorgt de nieuwe dimensie voor een totaal nieuwe ervaring, en het leren van versterking heeft moeite om te generaliseren naar nieuwe uitdagingen.

Zhong zegt dat we deze obstakels niet hoeven te accepteren. "Hoe komt het dat wanneer we willen schaken" - een ander spel dat Reinforcement Learning onder de knie heeft - "we een Reinforcement Learning-agent vanaf het begin trainen?" Dergelijke benaderingen zijn inefficiënt. De agent dwaalt doelloos rond totdat hij een goede situatie tegenkomt, zoals een schaakmat, en Zhong zegt dat het een zorgvuldig menselijk ontwerp vereist om de agent te laten weten wat het betekent dat een situatie goed is. "Waarom moeten we dit doen als we al zoveel boeken hebben over schaken?"

Gedeeltelijk komt dat omdat machines in de eerste plaats moeite hebben gehad om de menselijke taal te begrijpen en afbeeldingen te ontcijferen. Als een robot bijvoorbeeld op visie gebaseerde taken wil uitvoeren, zoals het vinden en snijden van wortelen, moet hij weten wat een wortel is - het beeld van een ding moet "gegrond" zijn in een meer fundamenteel begrip van wat dat ding is. Tot voor kort was er geen goede manier om dat te doen, maar een explosie van de snelheid en schaal van taal- en beeldverwerking heeft de nieuwe successen mogelijk gemaakt.

New natuurlijke taalverwerking modellen stellen machines in staat om in wezen de betekenis achter woorden en zinnen te leren - om ze te gronden in dingen in de wereld - in plaats van alleen een eenvoudige (en beperkte) betekenis op te slaan zoals een digitaal woordenboek.

Computervisie heeft een vergelijkbare digitale explosie gezien. Rond 2009 debuteerde ImageNet als een database met geannoteerde afbeeldingen voor onderzoek naar computervisie. Tegenwoordig herbergt het meer dan 14 miljoen afbeeldingen van objecten en plaatsen. En programma's zoals die van OpenAI DAL·E genereer op commando nieuwe afbeeldingen die er door mensen gemaakt uitzien, ondanks dat er geen exacte vergelijking is om uit te putten.

Het laat zien hoe machines pas nu toegang hebben tot voldoende online data om de wereld echt te leren kennen, aldus Anima Anandkumar, een computerwetenschapper aan het California Institute of Technology en Nvidia. En het is een teken dat ze net als wij van concepten kunnen leren en ze kunnen gebruiken voor generaties. "We bevinden ons nu in zo'n geweldig moment", zei ze. "Want als we eenmaal generatie kunnen krijgen, kunnen we zoveel meer doen."

Gaming the System

Onderzoekers zoals Zhong besloten dat machines niet meer volledig ongeïnformeerd aan hun verkenningen hoefden te beginnen. Gewapend met geavanceerde taalmodellen konden de onderzoekers een pre-trainingsstap toevoegen waarbij een programma leerde van online informatie voordat het met vallen en opstaan ​​ging.

Om het idee te testen, vergeleken hij en zijn collega's de pre-training met traditioneel versterkend leren in vijf verschillende game-achtige instellingen waar machine-agenten taalcommando's interpreteerden om problemen op te lossen. Elke gesimuleerde omgeving daagde de machine-agent op unieke wijze uit. Eén vroeg de agent om items in een 3D-keuken te manipuleren; een andere vereiste leestekst om een ​​precieze reeks acties te leren om monsters te bestrijden. Maar de meest gecompliceerde setting was een echt spel, de 35-jarige NetHack, waarbij het doel is om door een geavanceerde kerker te navigeren om een ​​amulet op te halen.

Voor de eenvoudige instellingen betekende geautomatiseerde pre-training simpelweg het aarden van de belangrijke concepten: dit is een wortel, dat is een monster. Voor NetHack trainde de agent door mensen te zien spelen, met behulp van playthroughs die door menselijke spelers naar internet zijn geüpload. Deze playthroughs hoefden niet eens zo goed te zijn - de agent hoefde alleen intuïtie op te bouwen voor hoe mensen zich gedragen. De agent was niet bedoeld om een ​​expert te worden, maar een gewone speler. Het zou intuïtie opbouwen door te kijken - wat zou een mens doen in een bepaald scenario? De agent zou beslissen welke zetten succesvol waren, door zijn eigen wortel en stok te formuleren.

"Door middel van pre-training vormen we goede priors voor het associëren van taalbeschrijvingen met dingen die in de wereld gebeuren," zei Zhong. De agent zou vanaf het begin beter spelen en sneller leren tijdens het daaropvolgende versterkingsleren.

Het resultaat was dat de voorgetrainde agent beter presteerde dan de traditioneel opgeleide. "We behalen over de hele linie winst in alle vijf deze omgevingen", zei Zhong. Eenvoudigere instellingen lieten slechts een klein voordeel zien, maar in de gecompliceerde kerkers van NetHack leerde de agent vele malen sneller en bereikte hij een vaardigheidsniveau dat de klassieke aanpak niet kon. "Misschien krijg je een 10x prestatie, want als je dit niet doet, leer je gewoon geen goed beleid", zei hij.

"Deze generalistische agenten zijn een grote sprong voorwaarts ten opzichte van wat standaard versterkend leren doet," zei Anandkumar.

Haar team traint ook agenten vooraf om ze sneller te laten leren, waardoor aanzienlijke vooruitgang wordt geboekt met 's werelds bestverkochte videogame, Minecraft. Het staat bekend als een 'sandbox'-spel, wat betekent dat het spelers een vrijwel oneindige ruimte geeft om te communiceren en nieuwe werelden te creëren. Het is zinloos om een ​​beloningsfunctie te programmeren voor duizenden taken afzonderlijk, dus in plaats daarvan het teammodel ("MijnDojo”) bouwde zijn begrip van het spel op door playthrough-video's met ondertiteling te bekijken. Het is niet nodig om goed gedrag te codificeren.

"We krijgen geautomatiseerde beloningsfuncties", zei Anandkumar. "Dit is de eerste benchmark met duizenden taken en de mogelijkheid om versterkend leren te doen met taken met een open einde gespecificeerd door middel van tekstprompts."

Voorbij spellen

Games waren een geweldige manier om te laten zien dat pre-trainingsmodellen konden werken, maar het zijn nog steeds vereenvoudigde werelden. Robots trainen om de echte wereld aan te kunnen, waar de mogelijkheden praktisch eindeloos zijn, is veel moeilijker. “We stelden de vraag: zit er iets tussen?” zei Narasimhan. Dus besloot hij wat online te shoppen.

Zijn team creëerde Webwinkel. "Het is eigenlijk net een winkelbutler," zei Narasimhan. Gebruikers kunnen iets zeggen als "Geef me een Nike-schoen die wit is en onder de $ 100, en ik wil dat in de recensies staat dat ze erg comfortabel zijn voor peuters", en het programma vindt en koopt de schoen.

Net als bij de games van Zhong en Anandkumar ontwikkelde WebShop een intuïtie door te trainen met afbeeldingen en tekst, dit keer van Amazon-pagina's. "Na verloop van tijd leert het de taal te begrijpen en toe te wijzen aan acties die het op de website moet ondernemen."

Op het eerste gezicht lijkt een winkelbutler misschien niet zo futuristisch. Maar terwijl een geavanceerde chatbot je kan koppelen aan een gewenste sneaker, vereisen interacties zoals het plaatsen van de bestelling een geheel andere vaardigheden. En hoewel je Alexa- of Google Home-speakers naast je bed bestellingen kunnen plaatsen, vertrouwen ze op propriëtaire software die vooraf bepaalde taken uitvoert. WebShop navigeert op het web zoals mensen dat doen: door te lezen, te typen en te klikken.

"Het is een stap dichter bij algemene intelligentie," zei Narasimhan.

Introductie

Natuurlijk heeft het zijn eigen uitdagingen om robots te laten communiceren met de echte wereld. Denk bijvoorbeeld aan een fles. Je herkent er een aan het uiterlijk, je weet dat het bedoeld is om vloeistoffen in op te slaan en je begrijpt hoe je het met je handen moet manipuleren. Kunnen echte machines ooit woorden en beelden omzetten in een complexe intelligentie van beweging?

Narasimhan werkte mee Anirudha Majumdar, een roboticus bij Princeton, om erachter te komen. Ze leerden een robotarm gereedschappen te manipuleren die hij nog nooit eerder had gezien, en trainden hem vooraf met behulp van beschrijvende taal uit succesvolle taalmodellen. Het programma leerde sneller en presteerde beter met bijna elke tool en actie, in vergelijking met programma's die leren door traditionele verkenning, volgens afgelopen juni op de preprint-server arxiv.org geplaatst.

Ingenieurs hebben een bibliotheek met nog complexere opdrachten gebouwd in de robotica-labs van Google, ook geworteld in pre-training voor het bouwen van contexten. "De wereld van mogelijkheden die je moet overwegen is enorm", zei hij Carol Hausman, een onderzoekswetenschapper in het Google-roboticateam. "Dus vragen we het taalmodel om het voor ons op te splitsen."

Het team werkte met een mobiele hulprobot, met een zevenarmige arm, die ze aan de hand van taalvaardigheid trainden. Voor elk gegeven commando - zoals "help me mijn gemorste drankje op te ruimen" - gebruikt het programma een taalmodel om acties uit een bibliotheek van 700 getrainde bewegingen voor te stellen, zoals "pak" een papieren handdoek, "pak" het blikje op, of " gooi het blikje weg. En Hausman zegt dat het zijn beperkingen erkent met zinnen als “Ik ben eigenlijk niet in staat om het weg te vegen. Maar ik kan je wel een spons brengen.' Het team rapporteerde onlangs de resultaten van dit project, genaamd Zeg Can.

Een ander voordeel van het versterken van robots met taalmodellen is dat het vertalen van synoniemen en woorden in andere talen triviaal wordt. De ene persoon kan 'draaien' zeggen, terwijl een ander 'draaien' zegt, en de robot begrijpt beide. "Het gekste dat we hebben geprobeerd, is dat het ook emoji's begrijpt", zei hij Fei Xia, een onderzoekswetenschapper bij Google.

De bots leren        

SayCan is misschien wel de meest geavanceerde demonstratie van taalgebaseerd leren in robotica tot nu toe. En taal- en beeldmodellen worden voortdurend verbeterd, waardoor betere en complexere pre-trainingstechnieken ontstaan.

Maar Xia probeert de opwinding voorzichtig te temperen. "Iemand zei half grappend dat we het 'robot GPT'-moment hadden bereikt", zei hij, verwijzend naar de baanbrekende taalmodellen die een breed scala aan menselijke commando's begrijpen. "We zijn er nog niet, er valt nog veel te ontdekken."

Deze modellen kunnen bijvoorbeeld onjuiste antwoorden geven of verkeerde acties ondernemen, die onderzoekers proberen te begrijpen. Robots hebben het ook nog niet onder de knie”belichaming”: Terwijl mensen een fysieke intuïtie hebben die is gebaseerd op de kindertijd die ze met speelgoed hebben doorgebracht, hebben robots nog steeds interacties in de echte wereld nodig om dit soort intuïtie te ontwikkelen. "Voor sommige instellingen zijn er veel niet-gelabelde demonstraties", zei Zhong - denk aan databases met videogame-interacties zoals Minecraft en NetHack. Geen enkele database kan robots snel intelligente beweging aanleren.

Toch gaat de vooruitgang snel. En meer onderzoekers geloven dat slimmere robotica het eindresultaat zal zijn. Narasimhan volgt deze mens-robotevolutie van ponskaarten tot de volgende technologie. "We hadden toetsenborden en muizen en daarna touchscreens", zei hij. Grondige taal is de volgende. U spreekt met uw computer voor antwoorden en boodschappen. "Deze hele droom van assistenten die echt capabel zijn, is nog niet uitgekomen", zei hij. "Maar ik denk dat het heel snel zal gebeuren."

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?