Zephyrnet-logo

Waarde gedreven representatie voor Human-in-the-Loop Reinforcement Learning. (arXiv: 2004.01223v1 [cs.AI])

Datum:

(Verzonden op 2 april 2020)

Abstract: Interactieve adaptieve systemen aangedreven door Reinforcement Learning (RL) hebben er veel
potentiële toepassingen, zoals intelligente tutoring-systemen. In dergelijke systemen
er is typisch een externe menselijke systeemontwerper die aan het creëren is,
het volgen en wijzigen van het interactieve adaptieve systeem, in een poging het te verbeteren
prestaties op de beoogde resultaten. In dit artikel richten we ons op algoritmisch
basis voor het helpen van de systeemontwerper bij het kiezen van de set sensoren of
functies om de observatieruimte te definiëren die wordt gebruikt door het leermiddel voor bekrachtiging.
We presenteren een algoritme, waardegedreven representatie (VDR), dat kan
iteratief en adaptief de observatieruimte van een wapening vergroten
leermiddel zodat dat voldoende is om een ​​(bijna) optimaal beleid vast te leggen. Te doen
daarom introduceren we een nieuwe methode om de waarde van een beleid optimistisch in te schatten
met offline gesimuleerde implementaties van Monte Carlo. We evalueren de prestaties van
onze aanpak op standaard RL benchmarks met gesimuleerde mensen en demonstreren
aanzienlijke verbetering ten opzichte van eerdere basislijnen.

Inzendingsgeschiedenis

Van: Ramtin Keramati [e-mail bekijken]
[V1]
Do 2 apr 2020 18:45:45 UTC (498 KB)

Bron: http://arxiv.org/abs/2004.01223

spot_img

Laatste intelligentie

spot_img