情報に基づいたポリシーの正則化を通じて、動的環境における適応探索戦略を学習します。 (arXiv:2005.02934v1 [cs.LG])

[6年2020月XNUMX日に提出]

要約：私たちは、探索・搾取戦略を学習する問題を研究します。
タスクが時間の経過とともに変化する可能性がある動的な環境に効果的に適応します。
RNN ベースのポリシーは原則としてそのような戦略を表すことができますが、
トレーニング時間が法外に長く、学習プロセスが頻繁に行われる
貧弱な解決策に収束します。この論文では、
エージェントはタスクの説明 (タスク ID やタスクなど) にアクセスできます。
パラメータ) はトレーニング時に使用されますが、テスト時には使用されません。小説を提案します
情報を使用して RNN ベースのポリシーのトレーニングを正規化するアルゴリズム
各タスクの報酬を最大化するようにトレーニングされたポリシー。これにより劇的に減少します
RNN ベースのポリシーを失うことなくトレーニングするサンプルの複雑さ
表現力。その結果、私たちのメソッドは探索戦略を学習します。
未知の情報収集と、
タスクを変更し、時間の経過とともに報酬を最大化します。のパフォーマンスをテストします
それぞれの環境内でタスクが異なる可能性があるさまざまな環境におけるアルゴリズム
エピソード。

提出履歴

差出人: ピエール＝アレクサンドル・カミエニー氏 [メールを表示]
[v1]
6年2020月16日水曜日14:48:3,135 UTC（XNUMX KB）

出典：http://arxiv.org/abs/2005.02934

生成的データインテリジェンス

情報に基づくポリシーの正則化を通じて動的環境における適応探索戦略を学ぶ。（arXiv：2005.02934v1 [cs.LG]）

提出履歴

北朝鮮の高麗航空に乗る

オーストリアの 2024 年「Yes to Europe」特別タイトル

最新のインテリジェンス

テスラ、米国モデル Y の注文に対して期間限定で年率 0.99% のローン金利を開始

フォード、EV販売100,000台当たりXNUMX万ドル以上の損失のためバッテリーの発注を削減

2025 NFLドラフトプロスペクトウォッチリスト：安全性

KLMオランダ航空ボーイング777型機、貨物火災の兆候を受けてアンカラに緊急着陸

BlockDAG、26億ドルの流動性でネットワークを強化しスケーラビリティを強化する第100回開発リリースを発表

BlockDAG が TON や IMX を上回る 24.9 万ドルのプレセールで YouTube インフルエンサーの支援を受けて暗号通貨チャージをリード

情報に基づくポリシーの正則化を通じて動的環境における適応探索戦略を学ぶ。 （arXiv：2005.02934v1 [cs.LG]）

提出履歴

最新のインテリジェンス

情報に基づくポリシーの正則化を通じて動的環境における適応探索戦略を学ぶ。（arXiv：2005.02934v1 [cs.LG]）