Zephyrnet-logo

Actief leren van voorkeuren met maximale spijt. (arXiv: 2005.04067v1 [cs.RO])

Datum:

[Ingediend op 8 mei 2020]

PDF downloaden

Abstract: We bestuderen actief preferentieleren als een raamwerk voor intuïtief specificeren
het gedrag van autonome robots. Bij actief voorkeuren leren, een gebruiker
kiest het voorkeursgedrag uit een reeks alternatieven, waaruit de
robot leert de voorkeuren van de gebruiker, gemodelleerd als een geparametreerde kostenfunctie.
Eerdere benaderingen bieden gebruikers alternatieven die de
onzekerheid over de parameters van de kostenfunctie. Maar anders
parameters kunnen tot hetzelfde optimale gedrag leiden; als gevolg hiervan
oplossingsruimte is meer gestructureerd dan de parameterruimte. We exploiteren dit door
het voorstellen van een queryselectie die gretig de maximale foutverhouding verkleint
de oplossingsruimte. In simulaties laten we zien dat de voorgestelde aanpak
presteert beter dan andere geavanceerde technieken in zowel leerefficiëntie als
gemak van vragen voor de gebruiker. Ten slotte laten we zien dat het evalueren van het leren
gebaseerd op de overeenkomsten van oplossingen in plaats van de overeenkomsten van gewichten
zorgt voor betere voorspellingen voor verschillende scenario's.

Inzendingsgeschiedenis

Van: Nils Wilde [e-mail bekijken]
[V1]
Vr 8 mei 2020 14:31:31 UTC (1,951 KB)

Bron: http://arxiv.org/abs/2005.04067

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?