Versterkend leren met feedbackgrafieken. (arXiv:2005.03789v1 [cs.LG])

[Ingediend op 7 mei 2020]

Abstract: We bestuderen wanneer leren van episodische bekrachtiging in Markov-besluitvormingsprocessen
de agent krijgt per stap aanvullende feedback in de vorm van meerdere
overgangswaarnemingen. Dergelijke aanvullende waarnemingen zijn beschikbaar in een reeks
taken door middel van uitgebreide sensoren of voorkennis over de omgeving
(bijvoorbeeld wanneer bepaalde acties een vergelijkbaar resultaat opleveren). We formaliseren deze setting
gebruikmakend van een feedbackgrafiek over status-actieparen en laat dat modelgebaseerd zien
algoritmen kunnen de extra feedback gebruiken voor een efficiëntere steekproef
aan het leren. We geven spijt dat, logaritmische factoren negeren en
lagere-orde termen, hangt alleen af van de grootte van de maximale acyclische subgraaf van
de feedbackgrafiek, in tegenstelling tot een polynoomafhankelijkheid van het aantal
staten en acties bij gebrek aan een feedbackgrafiek. Ten slotte lichten we toe
uitdagingen bij het benutten van een kleine dominante set van de feedbackgrafiek als
vergeleken met de bandietenomgeving en stel een nieuw algoritme voor dat kan gebruiken
kennis van zo'n dominante set voor meer monsterefficiënt leren van een
bijna optimaal beleid.

Inzendingsgeschiedenis

Van: Christoph Dann [e-mail bekijken]
[V1]
Do 7 mei 2020 22:35:37 UTC (388 KB)

Bron: http://arxiv.org/abs/2005.03789

Generatieve data-intelligentie

Versterking leren met feedbackgrafieken. (arXiv: 2005.03789v1 [cs.LG])

Inzendingsgeschiedenis

Dit zijn de auto’s die voor 2024 en daarna worden stopgezet – Autoblog

Het Smart #5-concept voor Beijing laat zien hoe het kleine automerk groot denkt – Autoblog

Laatste intelligentie

Terwijl een Turks schip richting Japan vaart, kijkt de industrie naar de oostelijke export

China ontbindt de Strategic Support Force, gericht op cyber en ruimtevaart

Toptools voor freelancers die graag reizen

Masverse onthult baanbrekend Blockchain-platform

De Britse regering onthult een aanvulling van 620 miljoen dollar op de militaire hulp aan Oekraïne

Ripple stelt een schikking van $10 miljoen voor voor de $2 miljard boete van SEC

Chat met ons