ゼファーネットのロゴ

「複数の自己」を持つ AI エージェントは、変化する世界に素早く適応する方法を学ぶ

日付:

私たちは毎日、さまざまなニーズに対応しています。 お腹は空いていますが、疲れています。 ソファに倒れ込んだほうがいいですか、それとも夕食を作るべきですか? 危険な気温でオーバーヒートしていますが、同時に非常に喉が渇いています。 太陽の下で温められたぬるま湯を一気飲みするべきでしょうか、それとも氷を作る精神的な能力が身につくまで冷凍庫に頭を突っ込むべきでしょうか?

ジレンマに直面したとき、私たちは考えずに基本的な本能に従ってしまうことがよくあります。 しかし内部では、いつでも「最善の」決定を下すために複数のニューラル ネットワークが競合しています。 食べ物を食べながら寝る。 ぬるま湯で冷凍します。 後から考えるとひどい決断かもしれませんが、次回は過去の失敗から学びます。

絶え間なく変化する世界に対する私たちの適応力は、現在ほとんどの AI エージェントから逃れられる超強力な力です。 最も洗練された AI エージェントでも、相反する目標を両立させると故障したり、耐えられないほどのコンピューティング時間が必要になったりします。

プリンストン神経科学研究所のジョナサン・コーエン博士率いるチームによれば、その理由は単純だ。機械学習システムは通常、単一の実体として機能し、一度に XNUMX つの目標を評価、計算、実行する必要があるからだ。 AI は失敗から学ぶことはできますが、複数の相反する目標に同時に挑戦すると、適切なバランスを見つけるのに苦労します。

では、AI を分解してみませんか?

In 新しい研究 に発表され PNAS、チームは認知神経科学からページを取得し、モジュール式 AI エージェントを構築しました。

アイデアは一見シンプルです。 モノリシック AI (「自己」全体を包含する単一のネットワーク) ではなく、チームはモジュール式エージェントを構築しました。各部分は独自の「動機」と目標を持ち、単一の「本体」を指揮します。 民主主義社会と同様に、AI システムは最適な対応を決定するために内部で議論し、最大の勝利結果をもたらす可能性が最も高い行動が次のステップを導きます。

いくつかのシミュレーションでは、モジュール型 AI が従来のモノリシック型 AI を上回るパフォーマンスを示しました。 その適応性は、研究者が同時に維持しなければならない目標の数を人為的に増やしたときに特に輝きました。 レゴ風の AI は急速に適応しましたが、モノリシックな AI は追いつくのに苦労しました。

「エージェンシーに関する最も基本的な問題の XNUMX つは、個人が相反するニーズをどのように管理するかということです」と研究チームは述べています。 AI エージェントを分解することで、この研究は、よりスマートな機械学習エージェントについての洞察を提供するだけではありません。 また、「人間の精神に内在する心理的葛藤を理解する道も開かれる」。 書いた プリンストン大学のロバー・ボシュラ博士はこの研究には関与していませんでした。

人生のビデオゲーム

知的生命体は、複雑で変化する世界で、相反するニーズのバランスを取る方法をどのように学ぶのでしょうか?

この哲学的な問いは、神経科学、心理学、経済学など、人間の本性を掘り下げる複数の分野に悩まされてきました。 まだ明確な答えはありません。 しかし、AI が現実世界に進出するにつれて同様の課題に直面することが増えており、長年の問題に正面から取り組む時期が来ています。

新しい研究では、単純な RPG (ロールプレイング ゲーム) の形でこの課題に取り組みました。 格子状の世界をナビゲートする XNUMX 人のキャラクターがおり、それぞれが生き残るためのリソースを見つけようとしています。

最初の参加者: モノリシック エージェント (別名「セルフ」) は、深層 Q ラーニング (DQL) を使用してトレーニングされました。 DeepMind によって普及されたこのアルゴリズムは、現在の状態に応じて次の最適なステップを見つけるのに特に強力です。 たとえば、ビデオゲームのように、左に行くべきですか、それとも右に行くべきですか? チェスまたは碁のどの駒をどこに移動しますか? ここで、アルゴリズムは単一の報酬シグナル、つまり最終目標に従いながら、環境全体を調査します。 ある意味、モノリシック エージェントは、すべてのリソースを並行して同時に処理した後、最良の結果を最大化しようとする統合された頭脳です。

敵はモジュール型 AI です。 半自律的な手足を持つタコのように、AI エージェントはサブエージェントに分類され、それぞれが独自の目標とフィードバックを持っています。 公平な戦いを実現するために、各モジュールも DQL でトレーニングされています。 別々の「脳」は周囲を観察し、最適な選択肢を選択することを学びますが、それは各自の目標に合わせて調整されたものに限られます。 次に、予測された結果が合計されます。 次に、最適な結果が得られる可能性のあるソリューションが選択され、AI エージェントが次の選択に進みます。

そして競技場は?

このゲームは、サバイバル ゲームを非常にシンプルにしたバージョンです。 各 AI エージェントは、いくつかの領域にさまざまな種類のリソースが隠されている XNUMX 次元グリッドの周りを歩き回ります。 目標は、エージェントの XNUMX つの統計を設定レベルに維持し、それぞれが時間の経過とともに徐々に減少するようにすることです。 複数の統計が低下した場合、どれを優先するかを決定するのは AI 次第です。

ビデオ ゲーマーにとって、テストは新しいゲーム マップに放り込まれ、健康、魔法、スタミナ、攻撃力などを強化するためのリソースを見つけようとするものであると考えてください。 私たちの日常生活では、空腹、体温、睡眠、その他の基本的な生理学的ニーズのバランスをとることが重要です。

「たとえば、エージェントの『空腹』ステータスが低い場合、そのリソースの場所に移動することで『食料』リソースを収集できます」とチームは説明しました。

木の森

最初のテストは、比較的単純な環境から始まりました。 各リソース目標の場所は、ゲームアリーナの隅に固定されました。 このモノリシック エージェントは、30,000 回のトレーニング ステップ後も 5,000 つの統計を容易に維持しましたが、目標に到達するまでにはオーバーシュートとアンダーシュートの時期がありました。 対照的に、モジュール型エージェントははるかに速く学習しました。 XNUMX 学習ステップまでに、エージェントはすでに「世界の状態」を理解していました。

モジュール型 AI の優れた能力の一部は、本質的な自由探索の感覚から来ている、と著者らは述べています。 最終目標に向かって分割統治するモジュール型システムのこれまでの手法とは異なり、ここでは AI はより全体的な社会関係、つまり一定の内部競争状態を通じて一部のモジュールが利益を得たり、一部のモジュールが損失したりする社会関係を表します。

AI エージェントの「体」は勝者のモジュールによってのみ導かれるため、敗者は同意しない決定に従わなければならず、新たな現実に追い込まれることになります。 その後、次のステップに向けて迅速に適応し、最適なソリューションを再計算する必要があります。 言い換えれば、モジュールはしばしば自分自身が快適ゾーンから外れていることに気づきます。 厳しい恋愛ではありますが、予期せぬ結果により、彼らは新たな解決策を熟考することを余儀なくされ、一人で問題に取り組んでいた場合には考えられなかったより良い結果が得られることもあります。

研究著者のザック・ダルバーグ氏は、全体として、モジュール式システムはAIの動作をさらに改善するための「探索による好循環」を形成していると述べた。

この適応性は、チームが変化する環境で両方の AI エージェントに挑戦したときにさらに輝きました。 あるテストでは、リソースの目標位置が散発的な時間スケールでランダムなグリッドの位置に移動しました。 モジュール型 AI は変化をすぐに認識して適応しましたが、モノリシック エージェントのパフォーマンスははるかに悪かったです。

別のテストでは、チームはダイヤルを上げ、AI エージェントが元の XNUMX つではなく XNUMX つの要素を同時に維持することを要求しました。 このテストでは、変数の数が増加するにつれて、時間とエネルギーの消費という点で計算がますます不可能になるという、「次元の呪い」と呼ばれる問題に取り組みました。

モジュール式エージェントは、目標を維持するためにリソースを探索するように急速に適応しました。 対照的に、モノリシック エージェントは再び苦戦し、各ステータスが望ましいレベルに戻るまでにはるかに長い時間がかかりました。

XNUMX 対多数

モジュール式アプローチは、AI の開発に神経科学を利用するもう XNUMX つの例であり、同時に私たちの脳がどのように機能するかについての洞察を提供します。

以前の研究と同様に、モジュール式モジュールは、データ処理の点で比較的分散された方法で、単一の AI エージェントに個別の簡単なサブ問題を並行して学習させることが可能であることを示しています。 階層制御システムを備えたモデルを追加すると、AI が強化される可能性があると著者らは述べています。なぜなら、両方の構造が自然界に存在するからです。

今のところ、各モジュールは独自のゲイン、つまり自己の倍数を得るようにプログラムされています。 しかし、私たちの人生の目標はしばしば相互に関連しています。 たとえば、喉の渇きを軽減することと暑さと戦うことは相互に排他的ではありません。 チームは、今後のテストでこれらのクロスオーバーを統合し、それらが継承されるのか学習されるのかを学習する必要性を強調しています。

ダルバーグへ、未知は興奮の一部です。 「モジュールはどのように開発されるのでしょうか? 開発環境のどのような機能がさまざまなソリューションに圧力を与えていますか?」 彼は尋ねた。 「そして、モジュール化の利点は、なぜ内部の心理的葛藤が人間の状態の中心にあるように見えるのかを説明するのでしょうか?」

画像のクレジット: アネスティエフ/Pixabay

スポット画像

最新のインテリジェンス

スポット画像