Zephyrnet-logo

De grondbeginselen van diep versterkend leren

Datum:

Diep versterkend leren

Reinforcement Learning (RL), een "niche" Machine leren techniek, is in de afgelopen vijf jaar opgedoken. Bij contextgebaseerde besluitvorming helpt Reinforcement Learning de machine om actie-uitlokkende besluitvorming te nemen door middel van een trial-and-error-benadering om het optimale algoritmische model voor een situatie te bereiken.

Verder wordt de machine getraind via een op beloning/penalty gebaseerd feedbackmechanisme, met als doel het continu verbeteren van de gedragsaspecten van een machine of robot. RL wordt veel gebruikt in industriële sectoren zoals energie, transport, financiën of gezondheidszorg, waar het gaat om automatisering waarbij meerdere digitale agenten betrokken zijn. Reinforcement Learning wordt momenteel gebruikt om systemen te trainen in gaming of robotica, Natuurlijke taalverwerking of computervisie. Deep Reinforcement Learning (DRL) is een subveld van RL, zoals: Ruben Glatt legt uit in Quora. DRL helpt bij het aanpakken van enkele van de beperkingen van traditionele RL.

GEBRUIK ANALYTICS EN MACHINE LEREN OM BEDRIJFSPROBLEMEN OP TE LOSSEN

Leer nieuwe analyse- en machine learning-vaardigheden die u direct kunt toepassen met ons online trainingsprogramma.

Wat is Deep Reinforcement Learning?

Laten we beginnen met de terminologie. Voor degenen die niet bekend zijn met concepten als 'agent', 'staat', 'actie', 'beloningen' en 'omgeving', het artikel De basisprincipes van versterkend leren legt de basismoeren en bouten uit van Reinforcement Learning en Deep Reinforcement Learning. De leidende principes rond deze concepten - die het 'beleid' vormen - worden ook beschreven in een gemakkelijk verteerbaar formaat.

Reinforcement Learning wordt het best begrepen in een omgeving die wordt gekenmerkt door staten, agenten, actie en beloningen. De omgeving kan de "huidige toestand en actie" van een agent als input nemen en de output vervolgens teruggeven in de vorm van "beloningen" of "straffen" om positief gedragsleren aan te moedigen. Deze gids beschrijft hoe de omgeving fungeert als "een systematisch leidend licht" voor het accepteren van "acties" als input en het uitvoeren van "beloningen" of "straffen" om de besluitvorming door machines voortdurend te verbeteren.

In Forrester's Rapport over kunstmatige intelligentie brengt 10 hete technologieën voort de auteur synthetiseert de bevindingen van een Forrester-rapport over kunstmatige-intelligentietechnologieën. In dit bericht vermeldt Andrew Nicholas, hoofd inkoop bij Tungsten Network, dat geavanceerde algoritmen voor machine learning (ML) het potentieel hebben om een ​​revolutie teweeg te brengen in "levenscyclusbeheer" in inkoopbedrijven door de machines in staat te stellen rechtstreeks te leren van de beschikbare gegevens in plaats van afhankelijk te zijn van procedurele regels die zijn opgesteld door menselijke programmeurs. Dit bericht benadrukt de noodzaak van sterke netwerken tussen machines en bedrijfsmensen.

De InfoWorld artikel Wat is Deep Reinforcement Learning: de volgende stap in AI en Deep Learning? vermeldt dat versterkend leren het meest geschikt is om de besluitvorming te ondersteunen in zowel begeleide als niet-gesuperviseerde leermethoden. Een andere fascinerende toepassing van Reinforcement Learning is te vinden in edge-toepassingen, waar robotica wordt gecombineerd met "contextuele autonomie" om de gehumaniseerd machines.

Zijn experts sceptisch over de toekomst van Deep Reinforcement Learning?

De status van onderzoek naar Reinforcement Learning bevindt zich momenteel op het kruispunt van 'theorie' en 'experimentele praktijk'. Onderzoekers hebben geprobeerd te bewijzen dat RL en DRL bijzonder nuttig zijn voor gebruikssituaties waarbij een "model van de wereld" niet beschikbaar is. Het is echter ook bekend dat situatiespecifieke Machine Learning-algoritmen in de meeste gevallen beter werken dan wereldmodellen van RL. Op dit moment is AlphaGo een overtuigende “proof of concept” voor diepe RL.

Het bericht van Himanshu Sahni Versterkend leren heeft nooit gewerkt, en 'diep' hielp maar een beetje, verwijst naar een boek over RL met veel voorbeelden die uniek zijn voor Reinforcement Learning. De auteur geeft aan dat in die problemen waar gesuperviseerd, niet-gesuperviseerd of diep leren faalt, RL of DRL waarschijnlijk kan helpen bij het ontwikkelen van algemene modellen van het gegeven probleem.

De vraag is, kunnen "algemene modellen" werken in zeer domeinspecifieke problemen? Een enorme beperking van algemene modellen is dat gebruikers tijdens de ontwikkeling ervan uitgaan dat "een oneindig aantal agenten met een oneindig aantal toestanden en acties een oneindig aantal keren zijn geprobeerd." In werkelijkheid zijn dergelijke experimenten misschien niet mogelijk.

Neem het voorbeeld van een robotica, waarbij een robot gedurende een langere periode wordt gecoacht over "juiste acties" voordat hij de actie goed uitvoert. Dus impliciet is het idee van verkenning verbonden met 'uitgebreide beloningen'.

Hoe diep versterkend leren te laten werken

De algemene overtuiging is dat, met voldoende tijd, geavanceerde ML-onderzoekers erin zullen slagen om Reinforcement Learning en Deep Reinforcement Learning te laten werken in daadwerkelijke contextuele omgevingen. Het artikel Deep Reinforcement Learning werkt nog niet biedt een aantal zeer introspectieve en goed onderzochte ideeën die van RL en DRL een praktijkwetenschap kunnen maken. De auteur heeft aannemelijke toekomsten aangehaald:

  • Maak beloningen uitgebreider om ze universeel toepasbaar te maken.
  • Werk aan geavanceerde hardwaresystemen, met meer snelheid en verwerkingskracht.
  • Gebruik een modelgebaseerde benadering om machines aan te leren (AlphaGo is een succesvol model).
  • RL moet worden gebruikt om "gesuperviseerd" of "niet-gesuperviseerd" leren af ​​te stemmen in plaats van de traditionele technieken te vervangen.
  • Technieken zoals imitatieleren en inverse versterkingsleren kunnen worden gebruikt om beloningsfuncties te verbeteren.
  • Transfer learning is momenteel onzeker, maar heeft de toekomst.
  • Bouw voort op eerdere ervaringen.

Enkele populaire toepassingen van DRL

Beproefde en geteste use-cases van Deep Reinforcement Learning-technieken omvatten:

  • Digitale assistenten die met klanten communiceren door tekstsamenvattingen en spraakvoorbeelden te gebruiken en die in de loop van de tijd verbeteren;
  • Optimale beleidsontwikkeling door trial and error methodes in verzekeringen of zorg;
  • Online agenten opleiden om aandelenhandel te begeleiden.

De Forbes-post Hoe Deep Reinforcement Learning robots slimmer zal maken geeft een beschrijving van DRL-trainingstechnieken zoals gebruikt in Robotica. De auteur van de post vergelijkt het trainingsproces van een robot met het leerproces van een klein kind. In MVO wordt de robot beloond voor positief gedrag en gestraft voor negatief gedrag, wat erg lijkt op de manier waarop mensen kinderen trainen. Dit bericht biedt een overtuigend verhaal over 'positief leren met versterking', dat al door Google en enkele andere technische giganten in de praktijk is gebracht.

De niet zo bekende feiten over MVO

Hier is een korte introductie tot enkele van de unieke kenmerken van Reinforcement Learning en Deep Reinforcement Learning:

  • RL en DRL zijn in feite geavanceerde ML-technieken, waarmee "agenten" kunnen leren door middel van interactieve trail-and-error "acties" met behulp van feedback die is gegenereerd tijdens eerdere acties.
  • Bij zowel begeleid leren als DRL worden input en output vergeleken voordat de “feedback” wordt gegenereerd.
  • Het meest opvallende verschil tussen het feedbackmechanisme van "gesuperviseerd" leren en dat van RL of DRL is dat in het geval van begeleid leren, feedback komt als de juiste actiestappen, terwijl in het geval van RL of DRL feedback komt in de vorm van "beloningen" of "straffen". In die zin stimuleert MVO gedragsverandering in plaats van basisbegeleiding te bieden.
  • Het einddoel van leren zonder toezicht is om overeenkomsten en verschillen tussen verschillende gegevenspunten te bepalen, terwijl in RL of DRL het einddoel is om een ​​modelactie te bepalen om de beloningen te maximaliseren.

De KD Nugget-post 5 dingen die u moet weten over versterkend leren verklaart enkele minder bekende waarheden over RL of DRL.

Recente doorbraken op het gebied van Deep Reinforcement Learning

Machine Learning-onderzoekers hebben veel tijd en moeite geïnvesteerd om machines het ultieme geschenk te bieden: een 'geest'. Zo zag dat jaar de triomf van machines die mensen verslaan in hun eigen games en machinaal gegenereerde kunst.

Hier is een korte samenvatting van enkele van de beste ontdekkingen in de AI-wereld, die Machine Learning omvat, Diepe leren, Reinforcement Learning en Deep Reinforcement Learning:

  • Een game-ontwikkelingsbedrijf lanceerde een nieuw platform om digitale agenten te trainen via aangepaste omgevingen met DRL.
  • Het Universe-platform kan elke robotagent via meerdere digitale kanalen trainen.

De Op weg naar data science artikel, 14 Deep en Machine Learning-toepassingen die van 2019 een nieuw AI-tijdperk maakten, bespreekt de nieuwste ontwikkelingen in detail. De DATAVERSITY® dit artikel Deep Learning en Analytics: wat is de kruising? onderzoekt in hoeverre AI en aanverwante technologieën recentelijk hebben bijgedragen aan de ontwikkeling van machines met menselijke gedragskwaliteiten.

Geïnteresseerd in Deep Reinforcement Learning?

Werkende Deep Reinforcement Learning-platforms omvatten: RobotschoolDeep Mind Lab en AI-sportschool openen. Voor een overzicht van geavanceerde ML-praktijken die in de branche worden gebruikt, raadpleegt u: Smart Data Webinar: Machine Learning Update – Een overzicht van technologische volwassenheid.

Afbeelding tegoed: Shutterstock.com

spot_img

Laatste intelligentie

spot_img