ゼファーネットのロゴ

Procgenベンチマーク

日付:

使いやすい16のProcgenベンチマークをリリースします 手続き的に生成された 強化学習エージェントが一般化可能なスキルを学習する速度を直接測定する環境。

紙素材 環境コード トレーニングコード


始める

人間でもAIでも、環境の使用は簡単です。

$ pip install procgen # install
$ python -m procgen.interactive --env-name starpilot # human
$ python <<EOF # random AI agent
import gym
env = gym.make('procgen:procgen-coinrun-v0')
obs = env.reset()
while True: obs, rew, done, info = env.step(env.action_space.sample()) env.render() if done: break
EOF

新しいレベルに一般化する前に、すべてのProcgen環境で500〜1000の異なるレベルのトレーニングが必要であることがわかりました。これは、標準のRLベンチマークが各環境内ではるかに多様性を必要とすることを示唆しています。 Procgen BenchmarkはOpenAI RLチームが使用する標準の研究プラットフォームになりました。コミュニティがより優れたRLアルゴリズムの作成を加速することを願っています。

環境の多様性が鍵

In いくつかの 環境、エージェントが非常に大きなトレーニングセットにオーバーフィットできることが観察されています。 この証拠は、過剰適合が次のような古典的なベンチマークに浸透する可能性を引き起こします アーケード学習環境、強化学習(RL)のゴールドスタンダードとして長い間使用されてきました。 ALEのさまざまなゲーム間の多様性は、ベンチマークの最大の強みのXNUMXつですが、一般化をあまり重視しないことには大きな欠点があります。 各ゲームで質問をする必要があります。エージェントは関連スキルをしっかりと学習していますか、それとも特定の軌跡をおおよそ記憶していますか?

コインラン プロシージャジェネレーションを使用して、トレーニングレベルとテストレベルの異なるセットを構築することにより、この問題に正確に対処するように設計されました。 CoinRunはRLの一般化の定量化に役立ちましたが、それでも単一の環境にすぎません。 CoinRunは、RLエージェントが直面しなければならない多くの課題を完全には表していない可能性があります。 私たちは、両方の世界のベストを求めています。多くの多様な環境で構成されたベンチマークであり、それぞれが根本的に一般化を必要としています。 このニーズを満たすために、Procgenベンチマークを作成しました。 CoinRunは、Procgen Benchmarkの最初の環境として機能し、その多様性を全体に貢献しています。

前作、 障害物タワーチャレンジ一般的なビデオゲームAIフレームワークは、手続き型生成を使用してRLの一般化をより適切に評価することを奨励しています。 私たちは、同様の精神で環境を設計しました。XNUMXつのProcgen環境は、 GVGAIベースの作業。 DotaやStarCraftなどの他の環境も、環境ごとに多くの複雑さを提供しますが、これらの環境を迅速に反復することは困難です(そのような環境を同時に複数使用することはさらに困難です)。 Procgen Benchmarkでは、実験の利便性、環境内での多様性の高さ、環境全体での多様性の高さのすべてに努めています。

Procgenベンチマーク

Procgenベンチマークは、強化学習におけるサンプル効率と一般化の両方を測定するように設計された16の固有の環境で構成されています。 このベンチマークは、一般化の評価に最適です。これは、各環境で異なるトレーニングとテストセットを生成できるためです。 すべての環境はRLエージェントに多様で説得力のある課題をもたらすため、このベンチマークはサンプル効率の評価にも適しています。 環境の本質的な多様性は、エージェントが堅牢なポリシーを学ぶことを要求します。 州空間の狭い領域に過剰適合させるだけでは不十分です。 言い換えると、エージェントが常に変化するレベルに直面している場合、一般化する能力は成功の不可欠な要素になります。

設計原則

次の基準を満たすように、すべてのProcgen環境を設計しました。

  • 高い多様性:環境生成ロジックは、基本的な設計制約に従い、最大限の自由を与えられます。 結果のレベル分布の多様性は、エージェントに意味のある一般化の課題を提示します。

  • 迅速な評価:環境の難易度は、ベースラインエージェントが200億タイムステップのトレーニング後に大幅に進歩するように調整されています。 さらに、環境は単一のCPUコアで毎秒数千ステップを実行するように最適化されており、高速の実験的パイプラインを実現します。

  • 調整可能な難易度:すべての環境で、よく調整されたXNUMXつの難易度設定(簡単と難しい)がサポートされています。 ハード難易度設定を使用して結果を報告する一方で、計算能力へのアクセスが制限されているユーザーが簡単難易度設定を利用できるようにします。 簡単な環境では、トレーニングに約XNUMX分のXNUMXのリソースが必要です。

  • 視覚認識と運動制御を重視:前例に沿って、環境は多くのAtariおよびGym Retroゲームのスタイルを模倣しています。 うまく機能するかどうかは、主に観察空間で重要な資産を特定し、適切な低レベルの運動反応を実行することに依存します。

汎化の評価

私たちは、RLの一般化が実施中にどれほど難しいかを理解するようになりました。 レトロコンテスト、エージェントはトレーニングセットの限られたデータから一般化に失敗し続けました。 その後、私たちのCoinRun実験は、エージェントが一般化しようとする闘いをさらに明確に描きました。 これらの結果を拡張し、Procgen Benchmarkの16の環境すべてを使用して、これまでにRLの一般化に関する最も徹底的な調査を実施しました。

最初に、トレーニングセットのサイズが一般化にどのように影響するかを測定しました。 各環境で、100から100,000レベルのサイズのトレーニングセットを生成しました。 これらのレベルで200億タイムステップのエージェントをトレーニングしました。 近位ポリシーの最適化、目に見えないテストレベルでパフォーマンスを測定しました。

汎化性能

100万レベルを超えるスコア、ログスケール

ほとんどすべての環境で、エージェントは小規模なトレーニングセットに強く適合していることがわかりました。 場合によっては、一般化のギャップを埋めるために、エージェントは最大10,000レベルにアクセスする必要があります。 また、多くの環境で独特の傾向が見られました。特定のしきい値を超えると、トレーニングセットが成長するにつれてトレーニングパフォーマンスが向上します。 これは、教師あり学習で見られる傾向に反します。教師付き学習では、トレーニングセットのサイズに応じてトレーニングのパフォーマンスが低下します。 このトレーニングパフォーマンスの向上は、さまざまなレベルのセットによって提供される暗黙のカリキュラムによるものと考えています。 エージェントが一般化することを学ぶ場合、トレーニングセットが大きいほどトレーニングのパフォーマンスが向上します。 トレーニングセットのレベル間でも。 以前にCoinRunでこの影響に気づき、多くのProcgen環境でも同様に発生することがわかっています。

確定的レベルのアブレーション

また、手続き型生成の重要性を強調するために、単純なアブレーション研究を実施しました。 すべてのエピソードの開始時に新しいレベルを使用する代わりに、レベルの固定シーケンスでエージェントをトレーニングしました。 エージェントは各エピソードを最初のレベルで開始し、正常にレベルを完了すると、次のレベルに進みます。 エージェントがいずれかの時点で失敗した場合、エピソードは終了します。 エージェントは任意の数のレベルに到達できますが、実際には、どの環境でも20番目のレベルを超えることはめったにありません。

パフォーマンスのトレーニングとテスト

200億タイムステップ以上のスコア

テスト時に、レベルシーケンスをランダムに選択する代わりに、レベルシーケンスの決定性を削除します。 ほとんどのゲームでは、エージェントは最初のいくつかのトレーニングレベルで有能になり、意味のある進歩のような錯覚を与えます。 ただし、テストのパフォーマンスは、エージェントが実際に基になるレベルの分布についてほとんど何も学習していないことを示しています。 トレーニングとテストのパフォーマンスのこの大きなギャップを強調する価値があると私たちは信じています。 レベルの固定シーケンスに従う環境でのトレーニングにおける重大な隠れた欠陥を明らかにします。 これらの結果は、RLエージェントをトレーニングおよび評価するときに、多様な環境の分布を使用することがいかに重要であるかを示しています。

次のステップ

このベンチマークから収集した多くの洞察がより複雑な設定に適用されることが期待されています。これらの新しい環境を使用して、より有能で効率的なエージェントを設計できることを嬉しく思います。

多様な環境の開発を支援することに関心がある場合は、 私たちは雇っています!

出典:https://openai.com/blog/procgen-benchmark/

スポット画像

最新のインテリジェンス

スポット画像