Zephyrnet-logo

Deze DeepMind AI leert snel nieuwe vaardigheden door alleen maar naar mensen te kijken

Datum:

Voor het aanleren van algoritmen om mensen na te bootsen zijn doorgaans honderden of duizenden voorbeelden nodig. Maar een nieuwe AI van Google DeepMind kan direct nieuwe vaardigheden van menselijke demonstranten oppikken.

Een van de grootste trucs van de mensheid is ons vermogen om snel en efficiënt kennis van elkaar te verwerven. Dit soort sociaal leren, vaak culturele overdracht genoemd, stelt ons in staat een collega te laten zien hoe hij een nieuw hulpmiddel moet gebruiken of onze kinderen kinderliedjes te leren.

Het is geen verrassing dat onderzoekers hebben geprobeerd het proces in machines te repliceren. Imitatieleren, waarbij AI toekijkt hoe een mens een taak voltooit en vervolgens probeert zijn gedrag na te bootsen, is lange tijd een populaire aanpak geweest voor het trainen van robots. Maar zelfs de meest geavanceerde deep learning-algoritmen van vandaag moeten doorgaans veel voorbeelden zien voordat ze hun trainers met succes kunnen kopiëren.

Wanneer mensen leren door middel van imitatie, kunnen ze vaak al na een handvol demonstraties nieuwe taken oppakken. Nu hebben Google DeepMind-onderzoekers een stap gezet in de richting van snel sociaal leren in AI met agenten die in realtime leren navigeren door een virtuele wereld van mensen.

“Onze agenten slagen erin om real-time een mens te imiteren in nieuwe contexten zonder gebruik te maken van vooraf verzamelde menselijke gegevens”, schrijven de onderzoekers in een papier in Nature Communications. "We identificeren een verrassend eenvoudige reeks ingrediënten die voldoende zijn om culturele overdracht te genereren.”

De onderzoekers trainden hun agenten in een speciaal ontworpen simulator genaamd GoalCycle3D. De simulator gebruikt een algoritme om een ​​vrijwel eindeloos aantal verschillende omgevingen te genereren op basis van regels over hoe de simulatie zou moeten werken en welke aspecten ervan zouden moeten variëren.

In elke omgeving is het een kleine klodder AI-agenten moet door oneffen terrein en verschillende obstakels navigeren om in een specifieke volgorde door een reeks gekleurde bollen te gaan. De hobbeligheid van het terrein, de dichtheid van obstakels en de configuratie van de bollen varieert per omgeving.

De agenten zijn getraind om te navigeren met behulp van versterking van leren. Ze verdienen een beloning als ze in de juiste volgorde door de bollen gaan en gebruiken dit signaal om hun prestaties tijdens vele beproevingen te verbeteren. Maar daarnaast bevatten de omgevingen ook een deskundige agent – ​​die hardgecodeerd is of wordt bestuurd door een mens – die de juiste route door het parcours al kent.

Tijdens veel trainingen leren de AI-agenten niet alleen de basisprincipes van hoe de omgevingen werken, maar ook dat de snelste manier om elk probleem op te lossen is door de expert te imiteren. Om ervoor te zorgen dat de agenten leerden imiteren in plaats van de cursussen alleen maar uit het hoofd te leren, trainde het team ze in de ene reeks omgevingen en testte ze vervolgens in een andere. Cruciaal was dat het team na de training liet zien dat hun agenten een expert konden imiteren en de route ook zonder de expert konden blijven volgen.

Dit vereiste een paar aanpassingen aan de standaard benaderingen van versterkend leren.

De onderzoekers lieten het algoritme zich op de expert richten door het de locatie van de andere agent te laten voorspellen. Ze gaven het ook een geheugenmodule. Tijdens de training kwam de expert in en uit omgevingen, waardoor de agent gedwongen werd zijn acties uit zijn hoofd te leren voor wanneer hij niet langer aanwezig was. De AI trainde ook in een breed scala aan omgevingen, waardoor hij een breed scala aan mogelijke taken zag.

Het kan echter lastig zijn om de aanpak te vertalen naar meer praktische domeinen. Een belangrijke beperking is dat toen de onderzoekers testten of de AI kon leren van menselijke demonstraties, de deskundige agent tijdens alle trainingsruns door een persoon werd bestuurd. Dat maakt het moeilijk om te weten of de agenten van verschillende mensen kunnen leren.

Belangrijker nog is dat de mogelijkheid om de trainingsomgeving willekeurig te veranderen moeilijk te reproduceren is in de echte wereld. En de onderliggende taak was eenvoudig, vereiste geen fijne motoriek en vond plaats in sterk gecontroleerde virtuele omgevingen.

Toch is vooruitgang op het gebied van sociaal leren op het gebied van AI welkom. Als we in een wereld met intelligente machines willen leven, zal het vinden van efficiënte en intuïtieve manieren om onze ervaring en expertise met hen te delen cruciaal zijn.

Krediet van het beeld: Juliana en Mariana Amorim / Unsplash

spot_img

Laatste intelligentie

spot_img