Zephyrnet-logo

Veilig beleid synthetiseren onder probabilistische beperkingen met Reinforcement Learning en Bayesiaanse modelcontrole. (arXiv: 2005.03898v1 [cs.AI])

Datum:

[Ingediend op 8 mei 2020]

PDF downloaden

Abstract: In dit artikel stellen we beleidssynthese voor onder probabilistische beperkingen
(PSyCo), een systematische engineeringmethode voor het synthetiseren van veilig beleid onder
probabilistische beperkingen met versterkingsleren en Bayesiaans model
controleren. Als implementatie van PSyCo introduceren we Safe Neural Evolutionary
Strategieën (SNES). SNES maakt gebruik van Bayesiaanse modelcontrole tijdens het leren
pas de Lagrangiaan aan van een beperkt optimalisatieprobleem afgeleid van a
PSyCo-specificatie. We evalueren empirisch het vermogen van SNES om te synthetiseren
haalbaar beleid in omgevingen met formele veiligheidseisen.

Inzendingsgeschiedenis

Van: Lenz Belzner [e-mail bekijken]
[V1]
Vr 8 mei 2020 08:11:31 UTC (7,547 KB)

Bron: http://arxiv.org/abs/2005.03898

spot_img

Laatste intelligentie

spot_img