[Ingediend op 8 mei 2020]
Abstract: We bestuderen actief preferentieleren als een raamwerk voor intuïtief specificeren
het gedrag van autonome robots. Bij actief voorkeuren leren, een gebruiker
kiest het voorkeursgedrag uit een reeks alternatieven, waaruit de
robot leert de voorkeuren van de gebruiker, gemodelleerd als een geparametreerde kostenfunctie.
Eerdere benaderingen bieden gebruikers alternatieven die de
onzekerheid over de parameters van de kostenfunctie. Maar anders
parameters kunnen tot hetzelfde optimale gedrag leiden; als gevolg hiervan
oplossingsruimte is meer gestructureerd dan de parameterruimte. We exploiteren dit door
het voorstellen van een queryselectie die gretig de maximale foutverhouding verkleint
de oplossingsruimte. In simulaties laten we zien dat de voorgestelde aanpak
presteert beter dan andere geavanceerde technieken in zowel leerefficiëntie als
gemak van vragen voor de gebruiker. Ten slotte laten we zien dat het evalueren van het leren
gebaseerd op de overeenkomsten van oplossingen in plaats van de overeenkomsten van gewichten
zorgt voor betere voorspellingen voor verschillende scenario's.
Inzendingsgeschiedenis
Van: Nils Wilde [e-mail bekijken]
[V1]
Vr 8 mei 2020 14:31:31 UTC (1,951 KB)