Zephyrnet-logo

Versterkende leercompetitie verlegt de grenzen van belichaamde AI

Datum:

Sluit je aan bij Transform 2021 van 12-16 juli. Registreer voorr het AI-evenement van het jaar.


Sinds de eerste decennia van kunstmatige intelligentie zijn humanoïde robots een hoofdbestanddeel van sciencefictionboeken, films en tekenfilms. Maar na decennia van onderzoek en ontwikkeling op het gebied van AI hebben we nog steeds niets dat in de buurt komt De Jetsons ' Rosey de Robot.

Dit komt doordat veel van onze intuïtieve planning en motorische vaardigheden - dingen die we als vanzelfsprekend beschouwen - veel gecompliceerder zijn dan we denken. Navigeren door onbekende gebieden, het vinden en oppakken van objecten, het kiezen van routes en het plannen van taken zijn gecompliceerde prestaties die we alleen op prijs stellen als we proberen er computerprogramma's van te maken.

Het ontwikkelen van robots die de wereld fysiek kunnen voelen en met hun omgeving kunnen communiceren, valt op het gebied van belichaamde kunstmatige intelligentie, een van de lang gezochte doelen van AI-wetenschappers. En hoewel de vooruitgang in het veld nog ver verwijderd is van de mogelijkheden van mens en dier, zijn de prestaties opmerkelijk.

In een recente ontwikkeling in belichaamde AI hebben wetenschappers van IBM, het Massachusetts Institute of Technology en Stanford University een nieuwe uitdaging ontwikkeld die helpt bij het beoordelen van het vermogen van AI-agenten om paden te vinden, met objecten om te gaan en taken efficiënt te plannen. Getiteld ThreeDWorld Transport-uitdagingis de test een virtuele omgeving die wordt gepresenteerd op de Geïntegreerde AI-workshop tijdens de conferentie over computervisie en patroonherkenning, die in juni online werd gehouden.

Geen enkele huidige AI-techniek komt in de buurt van het oplossen van de TDW Transport Challenge. Maar de resultaten van de wedstrijd kunnen helpen om nieuwe richtingen te vinden voor de toekomst van belichaamde AI en robotica-onderzoek.

Versterkend leren in virtuele omgevingen

De kern van de meeste robottoepassingen is versterking van leren, een tak van machine learning op basis van acties, toestanden en beloningen. Een bekrachtigingslerende agent krijgt een reeks acties die hij op zijn omgeving kan toepassen om beloningen te krijgen of een bepaald doel te bereiken. Deze acties zorgen voor veranderingen in de toestand van de agent en de omgeving. De RL-agent ontvangt beloningen op basis van hoe zijn acties hem dichter bij zijn doel brengen.

RL-agenten beginnen meestal door niets over hun omgeving te weten en willekeurige acties te selecteren. Terwijl ze geleidelijk feedback krijgen van hun omgeving, leren ze een reeks acties die hun beloningen kunnen maximaliseren.

Dit schema wordt niet alleen gebruikt in robotica, maar ook in veel andere toepassingen, zoals zelfrijdende auto's en inhoud aanbevelingen. Versterkend leren heeft onderzoekers ook geholpen meester ingewikkelde spellen zoals Go, StarCraft 2 en DOTA.

Het creëren van versterkende leermodellen brengt verschillende uitdagingen met zich mee. Een daarvan is het ontwerpen van de juiste reeks toestanden, beloningen en acties, wat erg moeilijk kan zijn in toepassingen zoals robotica, waar agenten te maken hebben met een continue omgeving die wordt beïnvloed door gecompliceerde factoren zoals zwaartekracht, wind en fysieke interacties met andere objecten. . Dit in tegenstelling tot omgevingen zoals schaken en Go die zeer discrete toestanden en acties hebben.

Een andere uitdaging is het verzamelen van trainingsgegevens. Versterkende leeragenten moeten trainen met behulp van gegevens uit miljoenen episodes van interacties met hun omgeving. Deze beperking kan robottoepassingen vertragen omdat ze hun gegevens uit de fysieke wereld moeten verzamelen, in tegenstelling tot video- en bordspellen, die snel achter elkaar op verschillende computers kunnen worden gespeeld.

Om deze barrière te overwinnen, hebben AI-onderzoekers geprobeerd gesimuleerde omgevingen te creëren voor toepassingen van versterkend leren. Tegenwoordig gebruiken zelfrijdende auto's en robotica vaak gesimuleerde omgevingen als een belangrijk onderdeel van hun trainingsregime.

"Trainingsmodellen met echte robots kunnen duur zijn en er zijn soms veiligheidsoverwegingen bij betrokken", vertelde Chuang Gan, hoofdonderzoeker bij het MIT-IBM Watson AI Lab, aan TechTalks. "Als gevolg hiervan is er een trend geweest om simulatoren op te nemen, zoals wat de TDW-Transport Challenge biedt, om AI-algoritmen te trainen en te evalueren."

Maar het repliceren van de exacte dynamiek van de fysieke wereld is buitengewoon moeilijk, en de meeste gesimuleerde omgevingen zijn een ruwe benadering van wat een bekrachtigingslerende agent in de echte wereld zou tegenkomen. Om deze beperking aan te pakken, heeft het TDW Transport Challenge-team zich tot het uiterste ingespannen om de testomgeving zo realistisch mogelijk te maken.

De omgeving is bovenop de ThreeDWorld-platform, dat de auteurs omschrijven als "een universeel virtueel werelsimulatieplatform dat zowel bijna-fotorealistische beeldweergave, fysiek gebaseerde geluidsweergave als realistische fysieke interacties tussen objecten en agenten ondersteunt."

"We wilden een meer geavanceerde fysieke virtuele omgevingssimulator gebruiken om een ​​nieuwe belichaamde AI-taak te definiëren, waarbij een agent de toestanden van meerdere objecten onder realistische fysieke beperkingen moet veranderen", schrijven de onderzoekers in een begeleidend document.

Taak- en bewegingsplanning

Tests voor versterkend leren hebben verschillende moeilijkheidsgraden. De meeste huidige tests omvatten navigatietaken, waarbij een RL-agent zijn weg moet vinden door een virtuele omgeving op basis van visuele en audio-invoer.

De TDW Transport Challenge, aan de andere kant, plaatst de versterkende leermiddelen tegenover problemen met “taak- en bewegingsplanning” (TAMP). TAMP vereist dat de agent niet alleen optimale bewegingspaden vindt, maar ook de toestand van objecten verandert om zijn doel te bereiken.

De uitdaging speelt zich af in een huis met meerdere kamers, versierd met meubels, objecten en containers. De bekrachtigingslerende agent bekijkt de omgeving vanuit een first-person perspectief en moet een of meerdere objecten uit de kamers vinden en deze verzamelen op een gespecificeerde bestemming. De agent is een tweearmige robot, dus hij kan maar twee objecten tegelijk dragen. Als alternatief kan het een container gebruiken om verschillende voorwerpen te vervoeren en het aantal reizen dat het moet maken te verminderen.

Bij elke stap kan de RL-agent een van de verschillende acties kiezen, zoals draaien, vooruit gaan of een object oppakken. De agent ontvangt een beloning als hij de overdrachtstaak binnen een beperkt aantal stappen voltooit.

Hoewel dit het soort probleem lijkt dat elk kind zonder veel training zou kunnen oplossen, is het inderdaad een gecompliceerde taak voor de huidige AI-systemen. Het leerprogramma versterking moet de juiste balans vinden tussen het verkennen van de kamers, het vinden van optimale paden naar de bestemming, het kiezen tussen het alleen of in containers vervoeren van objecten en dit alles binnen het gestelde stappenbudget.

"Via de TDW-Transport Challenge stellen we een nieuwe belichaamde AI-uitdaging voor," zei Gan. "Concreet moet een robotagent acties ondernemen om een ​​groot aantal objecten in een foto- en fysiek realistische virtuele omgeving te verplaatsen en de toestand ervan te veranderen, wat een complex doel blijft in robotica."

Uitdagingen voor AI-agenten samenvatten

Boven: in de ThreeDWorld Transport Challenge kan de AI-agent de wereld zien door middel van kleur-, diepte- en segmentatiekaarten.

Hoewel TDW een zeer complexe gesimuleerde omgeving is, hebben de ontwerpers nog steeds enkele van de uitdagingen geabstraheerd waarmee robots in de echte wereld te maken zouden krijgen. De virtuele robotagent, genaamd Magnebot, heeft twee armen met negen vrijheidsgraden met gewrichten bij de schouder, elleboog en pols. De handen van de robot zijn echter magneten en kunnen elk object oppakken zonder het met de vingers te hoeven hanteren, wat op zich een zeer uitdagende taak is.

De agent neemt de omgeving ook op drie verschillende manieren waar: als een RGB-gekleurd frame, een dieptekaart en een segmentatiekaart die elk object afzonderlijk in harde kleuren toont. De diepte- en segmentatiekaarten maken het voor de AI-agent gemakkelijker om de afmetingen van de scène te lezen en de objecten uit elkaar te houden wanneer ze ze vanuit lastige hoeken bekijken.

Om verwarring te voorkomen, worden de problemen gesteld in een eenvoudige structuur (bijv. "Vaas: 2, kom: 2, kan: 1; bed") in plaats van losse taalcommando's (bijv. "Pak twee kommen, een paar vazen, en de kan in de slaapkamer, en leg ze allemaal op het bed ”).

En om de toestands- en actieruimte te vereenvoudigen, hebben de onderzoekers de navigatie van de Magnebot beperkt tot bewegingen van 25 centimeter en rotaties van 15 graden.

Deze vereenvoudigingen stellen ontwikkelaars in staat zich te concentreren op de navigatie- en taakplanningsproblemen die AI-agenten in de TDW-omgeving moeten overwinnen.

Gan vertelde TechTalks dat ondanks de abstractieniveaus die in TDW zijn geïntroduceerd, de robot nog steeds de volgende uitdagingen moet aangaan:

  • De synergie tussen navigatie en interactie: De agent kan niet bewegen om een ​​object te grijpen als dit object niet egocentrisch is, of als het directe pad ernaartoe wordt belemmerd.
  • Fysica-bewuste interactie: Het grijpen kan mislukken als de arm van de agent een object niet kan bereiken.
  • Fysica-bewuste navigatie: Bij een botsing met obstakels kunnen objecten vallen en kan de efficiëntie van het transport aanzienlijk worden belemmerd.

Dit benadrukt de complexiteit van menselijke visie en keuzevrijheid. Bedenk de volgende keer dat u naar een supermarkt gaat hoe gemakkelijk u uw weg door gangpaden kunt vinden, het verschil kunt zien tussen verschillende producten, verschillende items kunt pakken en pakken, plaats ze in uw mandje of kar en kies uw pad op een efficiënte manier. manier. En u doet dit allemaal zonder toegang tot segmentatie- en dieptekaarten en door items te lezen van een verfrommeld handgeschreven briefje in uw zak.

Puur leren van diepe bekrachtiging is niet genoeg

Boven: experimenten tonen aan dat hybride AI-modellen die bekrachtigingsleren combineren met symbolische planners beter geschikt zijn om de ThreeDWorld Transport Challenge op te lossen.

De TDW-Transport Challenge is bezig met het accepteren van inzendingen. Ondertussen hebben de auteurs van de paper de omgeving al getest met verschillende bekende technieken voor het leren van versterking. Hun bevindingen tonen aan dat puur leren van bekrachtiging erg slecht is in het oplossen van uitdagingen op het gebied van taak- en bewegingsplanning. Een pure versterking van de leerbenadering vereist dat de AI-agent zijn gedrag vanaf nul ontwikkelt, beginnend met willekeurige acties en geleidelijk zijn beleid verfijnt om de doelen in het gespecificeerde aantal stappen te bereiken.

Volgens de experimenten van de onderzoekers slaagden de benaderingen van pure reinforcement learning er nauwelijks in om meer dan 10% succes te behalen in de TDW-tests.

"Wij geloven dat dit de complexiteit van fysieke interactie en de grote zoekruimte voor verkenning van onze benchmark weerspiegelt", schreven de onderzoekers. “Vergeleken met de vorige punt-doelnavigatie en semantische navigatietaken, waarbij de agent alleen naar specifieke coördinaten of objecten in de scène hoeft te navigeren, vereist de ThreeDWorld Transport-uitdaging dat agenten de fysieke toestand van de objecten in de omgeving verplaatsen en veranderen (bijv. , taak- en bewegingsplanning), waar de end-to-end-modellen mogelijk tekortschieten. "

Toen de onderzoekers het probeerden hybride AI-modellen, waar een reinforcement learning-agent werd gecombineerd met een regelgebaseerde high-level planner, zagen ze een aanzienlijke boost in de prestaties van het systeem.

"Deze omgeving kan worden gebruikt om RL-modellen te trainen, die tekortschieten voor dit soort taken en expliciet redeneren en planningsvaardigheden vereisen", zei Gan. “Met de TDW-Transport Challenge hopen we aan te tonen dat a neuro-symbolisch, hybride model kan dit probleem verbeteren en een sterkere prestatie laten zien. "

Het probleem blijft echter grotendeels onopgelost en zelfs de best presterende hybride systemen hadden een slagingspercentage van ongeveer 50%. "Onze voorgestelde taak is zeer uitdagend en kan worden gebruikt als een benchmark om de voortgang van belichaamde AI in fysiek realistische scènes te volgen", schreven de onderzoekers.

Mobiele robots worden een heet gebied van onderzoek en toepassingen. Volgens Gan hebben verschillende productie- en slimme fabrieken al interesse getoond in het gebruik van de TDW-omgeving voor hun real-world toepassingen. Het zal interessant zijn om te zien of de TDW Transport Challenge zal helpen om nieuwe innovaties in het veld in te luiden.

"We hopen dat de TDW-Transport Challenge het onderzoek naar assisterende robotagenten in magazijnen en thuissituaties kan helpen bevorderen", aldus Gan.

Dit verhaal is oorspronkelijk verschenen Bdtechtalks.com. Copyright 2021

VentureBeat

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

  • up-to-date informatie over de onderwerpen die u interesseren
  • onze nieuwsbrieven
  • gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transformeer 2021: Kom meer te weten
  • netwerkfuncties en meer

Word lid

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://venturebeat.com/2021/05/01/reinforcement-learning-competition-pushes-the-boundaries-of-embodied-ai/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?