Zephyrnet-logo

Versterking leren met feedbackgrafieken. (arXiv: 2005.03789v1 [cs.LG])

Datum:

[Ingediend op 7 mei 2020]

PDF downloaden

Abstract: We bestuderen wanneer leren van episodische bekrachtiging in Markov-besluitvormingsprocessen
de agent krijgt per stap aanvullende feedback in de vorm van meerdere
overgangswaarnemingen. Dergelijke aanvullende waarnemingen zijn beschikbaar in een reeks
taken door middel van uitgebreide sensoren of voorkennis over de omgeving
(bijvoorbeeld wanneer bepaalde acties een vergelijkbaar resultaat opleveren). We formaliseren deze setting
gebruikmakend van een feedbackgrafiek over status-actieparen en laat dat modelgebaseerd zien
algoritmen kunnen de extra feedback gebruiken voor een efficiëntere steekproef
aan het leren. We geven spijt dat, logaritmische factoren negeren en
lagere-orde termen, hangt alleen af ​​van de grootte van de maximale acyclische subgraaf van
de feedbackgrafiek, in tegenstelling tot een polynoomafhankelijkheid van het aantal
staten en acties bij gebrek aan een feedbackgrafiek. Ten slotte lichten we toe
uitdagingen bij het benutten van een kleine dominante set van de feedbackgrafiek als
vergeleken met de bandietenomgeving en stel een nieuw algoritme voor dat kan gebruiken
kennis van zo'n dominante set voor meer monsterefficiënt leren van een
bijna optimaal beleid.

Inzendingsgeschiedenis

Van: Christoph Dann [e-mail bekijken]
[V1]
Do 7 mei 2020 22:35:37 UTC (388 KB)

Bron: http://arxiv.org/abs/2005.03789

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?