Zephyrnet-logo

Adaptieve verkenningsstrategieën leren in dynamische omgevingen door middel van geïnformeerde beleidsregelgeving. (arXiv: 2005.02934v1 [cs.LG])

Datum:

[Ingediend op 6 mei 2020]

PDF downloaden

Abstract: We bestuderen het probleem van het leren van exploratie-exploitatiestrategieën die
zich effectief aanpassen aan dynamische omgevingen, waar de taak in de loop van de tijd kan veranderen.
Hoewel op RNN gebaseerd beleid in principe dergelijke strategieën zou kunnen vertegenwoordigen, in
oefenen hun trainingstijd is onbetaalbaar en het leerproces vaak
convergeert naar slechte oplossingen. In dit artikel kijken we naar het geval waarin de
agent heeft toegang tot een beschrijving van de taak (bijvoorbeeld een taak-id of taak
parameters) tijdens trainingstijd, maar niet tijdens testtijd. We stellen een roman voor
algoritme dat de training van een op RNN gebaseerd beleid regulariseert met behulp van informed
beleid dat is getraind om de beloning in elke taak te maximaliseren. Dit vermindert dramatisch
de voorbeeldcomplexiteit van het op RNN gebaseerde trainingsbeleid, zonder hun
representatieve kracht. Daardoor leert onze methode verkenningsstrategieën
die efficiënte balans tussen het verzamelen van informatie over het onbekende en
het veranderen van taak en het maximaliseren van de beloning in de tijd. We testen de prestaties van
ons algoritme in verschillende omgevingen waar taken binnen elk kunnen variëren
episode.

Inzendingsgeschiedenis

Van: Pierre-Alexandre Kamienny Mr [e-mail bekijken]
[V1]
Wo 6 mei 2020 16:14:48 UTC (3,135 KB)

Bron: http://arxiv.org/abs/2005.02934

spot_img

VC Café

LifeSciVC

Laatste intelligentie

spot_img