Adaptieve verkenningsstrategieën leren in dynamische omgevingen door geïnformeerde beleidsregularisatie. (arXiv:2005.02934v1 [cs.LG])

[Ingediend op 6 mei 2020]

Abstract: We bestuderen het probleem van het leren van exploratie-exploitatiestrategieën die
zich effectief aanpassen aan dynamische omgevingen, waar de taak in de loop van de tijd kan veranderen.
Hoewel op RNN gebaseerd beleid in principe dergelijke strategieën zou kunnen vertegenwoordigen, in
oefenen hun trainingstijd is onbetaalbaar en het leerproces vaak
convergeert naar slechte oplossingen. In dit artikel kijken we naar het geval waarin de
agent heeft toegang tot een beschrijving van de taak (bijvoorbeeld een taak-id of taak
parameters) tijdens trainingstijd, maar niet tijdens testtijd. We stellen een roman voor
algoritme dat de training van een op RNN gebaseerd beleid regulariseert met behulp van informed
beleid dat is getraind om de beloning in elke taak te maximaliseren. Dit vermindert dramatisch
de voorbeeldcomplexiteit van het op RNN gebaseerde trainingsbeleid, zonder hun
representatieve kracht. Daardoor leert onze methode verkenningsstrategieën
die efficiënte balans tussen het verzamelen van informatie over het onbekende en
het veranderen van taak en het maximaliseren van de beloning in de tijd. We testen de prestaties van
ons algoritme in verschillende omgevingen waar taken binnen elk kunnen variëren
episode.

Inzendingsgeschiedenis

Van: Pierre-Alexandre Kamienny Mr [e-mail bekijken]
[V1]
Wo 6 mei 2020 16:14:48 UTC (3,135 KB)

Bron: http://arxiv.org/abs/2005.02934

Generatieve data-intelligentie

Adaptieve verkenningsstrategieën leren in dynamische omgevingen door middel van geïnformeerde beleidsregelgeving. (arXiv: 2005.02934v1 [cs.LG])

Inzendingsgeschiedenis

VC Café

LifeSciVC

Laatste intelligentie

Google Play Store kan nu meerdere Android-apps tegelijkertijd downloaden

🔴Ethereum ETF's uitgesteld | Deze week in Crypto – 11 maart 2024

In ziekte en gezondheid: een gids voor zorgverleners om kracht en hoop te vinden – World News Report – Verbinding met het medische marihuanaprogramma

Clean Group kondigt nieuwe kantoorlocatie aan in Sydney CBD en verbeterde commerciële schoonmaakdiensten – World News Report – Verbinding met het medische marihuanaprogramma

Winstmaximalisatie in 2024: een alomvattende blik op ValueZone.AI

Britse minister van Defensie maakt Italiaanse levering van stormschaduwraketten aan Oekraïne bekend