Waardegedreven representatie voor leren van Human-in-the-Loop-versterking. (arXiv:2004.01223v1 [cs.AI])

(Verzonden op 2 april 2020)

Abstract: Interactieve adaptieve systemen aangedreven door Reinforcement Learning (RL) hebben er veel
potentiële toepassingen, zoals intelligente tutoring-systemen. In dergelijke systemen
er is typisch een externe menselijke systeemontwerper die aan het creëren is,
het volgen en wijzigen van het interactieve adaptieve systeem, in een poging het te verbeteren
prestaties op de beoogde resultaten. In dit artikel richten we ons op algoritmisch
basis voor het helpen van de systeemontwerper bij het kiezen van de set sensoren of
functies om de observatieruimte te definiëren die wordt gebruikt door het leermiddel voor bekrachtiging.
We presenteren een algoritme, waardegedreven representatie (VDR), dat kan
iteratief en adaptief de observatieruimte van een wapening vergroten
leermiddel zodat dat voldoende is om een (bijna) optimaal beleid vast te leggen. Te doen
daarom introduceren we een nieuwe methode om de waarde van een beleid optimistisch in te schatten
met offline gesimuleerde implementaties van Monte Carlo. We evalueren de prestaties van
onze aanpak op standaard RL benchmarks met gesimuleerde mensen en demonstreren
aanzienlijke verbetering ten opzichte van eerdere basislijnen.

Inzendingsgeschiedenis

Van: Ramtin Keramati [e-mail bekijken]
[V1]
Do 2 apr 2020 18:45:45 UTC (498 KB)

Bron: http://arxiv.org/abs/2004.01223

Generatieve data-intelligentie

Waarde gedreven representatie voor Human-in-the-Loop Reinforcement Learning. (arXiv: 2004.01223v1 [cs.AI])

Inzendingsgeschiedenis

Winstmaximalisatie in 2024: een alomvattende blik op ValueZone.AI

Britse minister van Defensie maakt Italiaanse levering van stormschaduwraketten aan Oekraïne bekend

Laatste intelligentie

Live verslaggeving: SpaceX lanceert 23 Starlink-satellieten op Falcon 9-vlucht vanaf Cape Canaveral

Drie sleutels voor de eilandbewoners om Game Five te winnen

Lakers behalen felbegeerde overwinning tegen Denver, nu met 3-1 achter in de reeks

Falcon 9 lanceert Galileo-navigatiesatellieten

NEVS Emily GT, ontworpen door ex-Saab-ingenieurs, wordt mogelijk in Italië gebouwd – Autoblog

Dogecoin- en Pepecoin-enthousiastelingen scharen zich achter nieuw AI-token gelanceerd door Wahoo Exchange Platform – CryptoInfoNet