[6年2020月XNUMX日に提出]
要約: 私たちは、探索・搾取戦略を学習する問題を研究します。
タスクが時間の経過とともに変化する可能性がある動的な環境に効果的に適応します。
RNN ベースのポリシーは原則としてそのような戦略を表すことができますが、
トレーニング時間が法外に長く、学習プロセスが頻繁に行われる
貧弱な解決策に収束します。 この論文では、
エージェントはタスクの説明 (タスク ID やタスクなど) にアクセスできます。
パラメータ) はトレーニング時に使用されますが、テスト時には使用されません。 小説を提案します
情報を使用して RNN ベースのポリシーのトレーニングを正規化するアルゴリズム
各タスクの報酬を最大化するようにトレーニングされたポリシー。 これにより劇的に減少します
RNN ベースのポリシーを失うことなくトレーニングするサンプルの複雑さ
表現力。 その結果、私たちのメソッドは探索戦略を学習します。
未知の情報収集と、
タスクを変更し、時間の経過とともに報酬を最大化します。 のパフォーマンスをテストします
それぞれの環境内でタスクが異なる可能性があるさまざまな環境におけるアルゴリズム
エピソード。
提出履歴
差出人: ピエール=アレクサンドル・カミエニー氏 [メールを表示]
[v1]
6年2020月16日水曜日14:48:3,135 UTC(XNUMX KB)