ゼファーネットのロゴ

機械学習への先見の明のあるアプローチ (ビデオ付き)

日付:

23年2022月XNUMX日(Nanowerkニュース) サッカー場で XNUMX つのチームが対決している様子を想像してください。 プレイヤーは目的を達成するために協力し、利害が対立する他のプレイヤーと競争することができます。 それがゲームの仕組みです。 作成 人工知能 人間と同じくらい効果的に競争し、協力することを学習できるエージェントは、依然として厄介な問題です。 主要な課題は、AI エージェントが他のエージェントがすべて同時に学習しているときに、他のエージェントの将来の行動を予測できるようにすることです。 この問題は複雑であるため、現在のアプローチは近視眼的になりがちです。 エージェントは、チームメイトや競合他社の次のいくつかの動きしか推測できないため、長期的にはパフォーマンスの低下につながります。  サッカーの戦術 MIT の研究者は、人工知能エージェントがより遠い未来のことを考えられるようにする技術を開発しました。これにより、協力的または競争的な AI エージェントの長期的なパフォーマンスを向上させることができます。 (画像: Jose-Luis Olivares、MIT) MIT、MIT-IBM ワトソン AI ラボなどの研究者は、AI エージェントに先見の明のある視点を与える新しいアプローチを開発しました。 彼らの機械学習フレームワークにより、協力的または競争的な AI エージェントは、次のいくつかのステップだけでなく、時間が無限に近づいたときに他のエージェントが何をするかを考慮することができます。 その後、エージェントはそれに応じて自分の行動を適応させ、他のエージェントの将来の行動に影響を与え、最適な長期的な解決策に到達します。 このフレームワークは、自律型ドローンのグループが協力してうっそうとした森で行方不明になったハイカーを見つけたり、交通量の多い高速道路を走行する他の車両の将来の動きを予測して乗客の安全を確保しようとする自動運転車で使用できます。 「AI エージェントが協力したり競争したりするとき、最も重要なことは、彼らの行動が将来のある時点で収束するときです。 長い目で見ればあまり重要ではない一時的な行動が途中でたくさんあります。 MIT 情報意思決定システム研究所 (LIDS) の大学院生で論文の筆頭著者である Dong-Ki Kim は、次のように述べています。このフレームワークについて説明します。 上級著者は、航空宇宙学のリチャード C. マクローリン教授であり、MIT-IBM ワトソン AI ラボのメンバーであるジョナサン P. ハウです。 共著者には、MIT-IBM ワトソン AI ラボ、IBM リサーチ、ミラ ケベック人工知能研究所、オックスフォード大学の他の研究者が含まれます。 この研究は、神経情報処理システムに関する会議 (「マルチエージェント強化学習における長期的な行動への影響」).

[埋め込まれたコンテンツ]

このデモビデオでは、研究者の機械学習システムを使用してトレーニングされた赤いロボットが、敵の絶えず変化する戦略を利用するより効果的な行動を学習することで、緑のロボットを打ち負かすことができます。

より多くのエージェント、より多くの問題

研究者は、マルチエージェント強化学習として知られる問題に焦点を当てました。 強化学習は、AI エージェントが試行錯誤によって学習する機械学習の一形態です。 研究者は、エージェントが目標を達成するのに役立つ「良い」行動に対して報酬を与えます。 エージェントは、最終的にタスクのエキスパートになるまで、報酬を最大化するように行動を適応させます。 しかし、多くの協力的または競合するエージェントが同時に学習すると、事態はますます複雑になります。 エージェントが仲間のエージェントの将来のステップをさらに検討し、自分の行動が他のエージェントにどのように影響するかを検討すると、すぐに問題を効率的に解決するには非常に多くの計算能力が必要になります。 これが、他のアプローチが短期的なものだけに焦点を当てている理由です。 「AI は本当にゲームの終わりについて考えたいと思っていますが、ゲームがいつ終わるかはわかりません。 彼らは、将来どこかで勝つことができるように、行動を無限に適応させ続ける方法を考える必要があります。 私たちの論文は本質的に、AI が無限について考えることができるようにする新しい目的を提案しています」と Kim は言います。 しかし、アルゴリズムに無限をプラグインすることは不可能であるため、研究者はエージェントが自分の行動が他のエージェントの行動と収束する将来のポイント、つまり平衡点に焦点を当てるようにシステムを設計しました。 平衡点はエージェントの長期的なパフォーマンスを決定し、複数の平衡点がマルチエージェント シナリオに存在する可能性があります。 したがって、効果的なエージェントは、エージェントの観点から望ましい平衡に達するように、他のエージェントの将来の行動に積極的に影響を与えます。 すべてのエージェントが互いに影響を与える場合、研究者が「アクティブな平衡」と呼ぶ一般的な概念に収束します。 彼らが開発した機械学習フレームワークは、FURTHER (FUlly Reinforcing active impact with withH average Reward の略) として知られ、エージェントが他のエージェントと対話してこのアクティブな均衡を達成する際に、自分の行動を適応させる方法を学習できるようにします。 さらに、XNUMX つの機械学習モジュールを使用してこれを行います。 最初の推論モジュールは、エージェントが以前のアクションのみに基づいて、他のエージェントの将来の行動と、エージェントが使用する学習アルゴリズムを推測できるようにします。 この情報は強化学習モジュールに供給され、エージェントはこれを使用して行動を適応させ、報酬を最大化する方法で他のエージェントに影響を与えます。 「課題は無限について考えることでした。 それを可能にするために、さまざまな数学的ツールを使用し、実際に機能させるためにいくつかの仮定を立てる必要がありました」と Kim 氏は言います。

長期的には勝つ

彼らは、25 組のロボットが相撲スタイルで戦ったり、XNUMX つの XNUMX エージェント チームが互いに戦ったりするなど、いくつかの異なるシナリオで、他のマルチエージェント強化学習フレームワークに対してアプローチをテストしました。 どちらの場合も、FURTHER を使用する AI エージェントはより頻繁にゲームに勝利しました。 彼らのアプローチは分散型であるため、エージェントが独立してゲームに勝つことを学習するため、エージェントを制御するために中央コンピューターを必要とする他の方法よりもスケーラブルです、と Kim は説明します。 研究者はゲームを使用してアプローチをテストしましたが、さらに、あらゆる種類のマルチエージェント問題に取り組むために使用できます。 たとえば、多くの相互作用する権利が時間の経過とともに変化する行動や関心を持っている状況で、健全な政策を開発しようとする経済学者によって適用される可能性があります。 経済学は、Kim が特に熱心に勉強しているアプリケーションの XNUMX つです。 彼はまた、アクティブ均衡の概念をより深く掘り下げ、FURTHER フレームワークを強化し続けたいと考えています。
スポット画像

最新のインテリジェンス

スポット画像