ゼファーネットのロゴ

進化、報酬、人工知能

日付:


でエンタープライズデータテクノロジーと戦略を向上させます 変換2021.


先週、私は 報酬の分析は十分です、DeepMindの科学者による論文。 タイトルが示唆するように、研究者たちは正しい報酬は インテリジェンスに関連する能力を作成するために必要なすべて、知覚、運動機能、言語など。

これは、複製しようとするAIシステムとは対照的です 自然な知性の特定の機能 画像の分類、物理的環境のナビゲート、文章の完成など。

研究者たちは、明確に定義された報酬、複雑な環境、適切な強化学習アルゴリズムを使用することで、人間に見られるような問題解決能力や認知能力である人工知能に到達できることを示唆しています。動物では、程度は低いです。

この記事と論文はソーシャルメディアで激しい議論を引き起こし、その反応はアイデアの完全な支持から完全な拒絶へと変化しました。 もちろん、双方は有効な主張をします。 しかし、真実は真ん中のどこかにあります。 自然進化は、報酬仮説が科学的に有効であることの証拠です。 しかし、人間レベルのインテリジェンスに到達するために純粋な報酬アプローチを実装するには、非常に大きな要件がいくつかあります。

この投稿では、理論と実践の境界線が立っている場所を簡単に明確にしようと思います。

自然な選択

彼らの論文の中で、DeepMindの科学者は、次の仮説を提示しています。「インテリジェンスとそれに関連する能力は、その環境で行動するエージェントによる報酬の最大化を支援するものとして理解できます。」

科学的証拠がこの主張を裏付けています。

人間と動物は、自然淘汰という非常に単純な法則に彼らの知性を負っています。 私はこのトピックの専門家ではありませんが、読むことをお勧めします ブラインド時計職人 生物学者のリチャード・ドーキンスによるもので、進化が地球上のあらゆる形態の生命と知性にどのようにつながったかについての非常にアクセスしやすい説明を提供します。

一言で言えば、自然は彼らの環境で生き残るためにより適している生命体を優先します。 環境(天候、食糧不足など)やその他の生物(捕食者、ウイルスなど)がもたらす課題に耐えることができる人々は、生き残り、繁殖し、遺伝子を次世代に引き継ぐでしょう。 排除されないもの。

ドーキンスによれば、「自然界では、通常の淘汰剤は直接的で、厳しく、単純です。 死神です。 もちろん、 理由は 自然淘汰がそのような手ごわい複雑さの動植物を作り上げることができるのはそのためです。 しかし、死そのものについては非常に粗雑で単純なことがあります。 そして、自然界では、表現型、つまり表現型に含まれる遺伝子を選択するために必要なのは、ランダムでない死だけです。」

しかし、どのようにしてさまざまな生命体が出現するのでしょうか? すべての新しく生まれた生物は、その親の遺伝子を継承します。 しかし、デジタルの世界とは異なり、有機的な生活の中でコピーすることは正確な​​ことではありません。 したがって、子孫はしばしば突然変異、世代を超えて大きな影響を与える可能性のある遺伝子への小さな変化を経験します。 これらの変異は、筋肉の質感や肌の色の小さな変化など、単純な影響を与える可能性があります。 しかし、それらはまた、新しい器官(例えば、肺、腎臓、目)を開発したり、古い器官(例えば、尾、鰓)を流したりするためのコアになることもできます。

これらの突然変異が生物の生存の可能性を改善するのに役立つ場合(例えば、より良いカモフラージュまたはより速い速度)、それらは保存され、将来の世代に受け継がれ、そこでさらなる突然変異がそれらを強化する可能性があります。 たとえば、光の情報を解析する能力を開発した最初の生物は、今日の動物や人間の能力に匹敵するものではありませんでしたが、そうでない他のすべての生物よりも大きな利点がありました。 この利点により、生き残り、繁殖しやすくなりました。 その子孫が再現するにつれて、その突然変異が彼らの視力を改善した人々は彼らの仲間を凌駕し、長生きしました。 何千(または何百万)世代にわたって、これらの変化は目のような複雑な器官をもたらしました。

突然変異と自然淘汰の単純なメカニズムは、バクテリアから植物、魚、鳥、両生類、哺乳類に至るまで、地球上で見られるさまざまな生物を生み出すのに十分でした。

同じ自己強化メカニズムはまた、脳とそれに関連する驚異を生み出しました。 彼女の本の中で 良心:道徳的直観の起源、科学者パトリシアチャーチランドはどのように探求します 自然淘汰 哺乳類に彼らの環境から学ぶ能力を与える脳の主要部分である皮質の発達につながりました。 皮質の進化により、哺乳類は社会的行動を発達させ、群れ、誇り、軍隊、および部族での生活を学ぶことができました。 人間では、皮質の進化は、複雑な認知能力、豊かな言語を開発する能力、および社会的規範を確立する能力を生み出しました。

したがって、生存を究極の報酬と見なす場合、DeepMindの科学者が立てる主な仮説は科学的に正しいものです。 ただし、このルールの実装に関しては、事態は非常に複雑になります。

強化学習と人工知能

人工知能を学ぶ強化

彼らの論文では、DeepMindの科学者は、報酬仮説は次の方法で実装できると主張しています。 強化学習アルゴリズム、エージェントが環境と相互作用することによって徐々に行動を発達させるAIのブランチ。 強化学習エージェントは、ランダムなアクションを実行することから始めます。 これらのアクションが達成しようとしている目標とどのように一致しているかに基づいて、エージェントは報酬を受け取ります。 多くのエピソードにわたって、エージェントはその環境で報酬を最大化する一連のアクションを開発することを学びます。

DeepMindの科学者によると、「十分に強力で一般的な強化学習エージェントは、最終的に知能とそれに関連する能力を生み出す可能性があります。 言い換えれば、エージェントがその累積報酬を改善するためにその行動を継続的に調整できる場合、その環境によって繰り返し要求される能力は、最終的にはエージェントの行動で生み出されなければなりません。」

で XNUMX月のオンライン討論、論文の共著者のXNUMX人であるコンピューター科学者のリチャードサットンは、「強化学習は知能の最初の計算理論です…強化学習では、目標は任意の報酬信号を最大化することです。」

DeepMindには、この主張を証明するための多くの経験があります。 彼らはすでに強化学習エージェントを開発しました。 人間を凌駕する in 囲碁、チェス、アタリ、スタークラフト、その他のゲーム。 彼らはまた、進歩を遂げるための強化学習モデルを開発しました 科学の最も複雑な問題のいくつか.

科学者たちはさらに彼らの論文に次のように書いています。「私たちの仮説によれば、一般的な知性は代わりに最大化することによって理解され、実行されることができます。 単一の複雑な環境での単一の報酬 [強調する]。」

これは、仮説が実践から分離するところです。 ここでのキーワードは「複雑」です。 DeepMind(およびその準ライバル)が OpenAI)これまで強化学習で探求してきたことは、物理的な世界ほど複雑ではありません。 そして、彼らはまだ財政的支援と膨大な計算資源を必要としていました 非常に裕福なテクノロジー企業。 場合によっては、強化学習モデルのトレーニングをスピードアップし、コストを削減するために、環境を弱体化させる必要がありました。 また、RLエージェントが間違った局所最適点でスタックしないように、報酬を再設計する必要があった場合もあります。

(科学者が論文で「強化学習エージェントのサンプル効率に関する理論的保証」を提供できないことを認めていることは注目に値します。)

ここで、強化学習を使用して進化を再現し、人間レベルのインテリジェンスに到達するために必要なことを想像してみてください。 まず、世界のシミュレーションが必要になります。 しかし、どのレベルで世界をシミュレートしますか? 私の推測では、量子スケールに満たないものは不正確になるでしょう。 そして、世界の量子スケールのシミュレーションを作成するために必要な計算能力の一部がありません。

そのようなシミュレーションを作成するための計算能力があったとしましょう。 最初の生命体が出現した約4億年前から始めることができました。 当時の地球の状態を正確に表現する必要があります。 その時の環境の初期状態を知る必要があります。 そして、それについての明確な理論はまだありません。

別の方法は、ショートカットを作成して、たとえば8万年前、サルの祖先がまだ地球に住んでいたときから始めることです。 これにより、トレーニングの時間が短縮されますが、最初ははるかに複雑な初期状態になります。 当時、地球上には何百万もの異なる生物が存在し、それらは密接に関連していた。 彼らは一緒に進化しました。 それらのいずれかを方程式から外すと、シミュレーションの過程に大きな影響を与える可能性があります。

したがって、基本的にXNUMXつの重要な問題があります。計算能力と初期状態です。 時間をさかのぼるほど、シミュレーションを実行するために必要な計算能力が高くなります。 一方、前進すればするほど、初期状態は複雑になります。 そして進化論はあらゆる種類の知的なそして非知的な生命体を作り出しました、そして私達が何の指導もなしにそして報酬を通してのみ人間の知性につながった正確なステップを再現できることを確実にすることは難しい賭けです。

キッチンで働くロボット

上:画像クレジット:〈

多くの人は、世界の正確なシミュレーションは必要なく、強化学習エージェントが操作したい問題空間を概算するだけでよいと言うでしょう。

たとえば、科学者たちは論文の中で、家の掃除ロボットの例について次のように述べています。「キッチンロボットが清潔さを最大化するには、おそらく知覚能力(清潔な道具と汚れた道具を区別する)、知識(理解する能力)が必要です。道具)、運動制御(道具を操作するため)、記憶(道具の場所を思い出すため)、言語(対話から将来の混乱を予測するため)、および社会的知能(幼児が混乱を減らすように促すため)。 したがって、清潔さを最大化する行動は、その唯一の目標を達成するためにこれらすべての能力を生み出さなければなりません。」

この声明は真実ですが、環境の複雑さを軽視しています。 キッチンは人間によって作られました。 たとえば、引き出しの取っ手、ドアノブ、床、食器棚、壁、テーブルなど、キッチンにあるものすべての形状は、人間の感覚運動機能に合わせて最適化されています。 したがって、そのような環境で働きたいロボットは、人間と同様の感覚運動スキルを開発する必要があります。 二足歩行や指や関節を使った手の複雑さを回避するなど、ショートカットを作成できます。 しかし、そうすると、ロボットとキッチンを使用する人間との間に不一致が生じるでしょう。 人間にとって扱いやすいシナリオ(ひっくり返った椅子の上を歩く)の多くは、ロボットにとって法外なものになります。

また、言語などの他のスキルでは、ロボットと環境を共有する人間との間にさらに類似したインフラストラクチャが必要になります。 知的エージェントは、共有環境で協力または競争するために、互いの抽象的なメンタルモデルを開発できなければなりません。 言語は、感覚の経験、目標、ニーズなど、多くの重要な詳細を省略しています。 私たちは、対話者の精神状態に関する直感的で意識的な知識でギャップを埋めます。 私たちは間違った仮定をするかもしれませんが、それらは例外であり、規範ではありません。

そして最後に、報酬としての「清潔さ」の概念の開発は、人間の知識、人生、および目標と非常に密接に関連しているため、非常に複雑です。 たとえば、キッチンからすべての食品を取り除くと確かにきれいになりますが、キッチンを使用する人間はそれについて満足しますか?

「清潔さ」のために最適化されたロボットは、生存のために最適化された生物と共存し、協力するのに苦労するでしょう。

ここでは、階層的な目標を作成し、ロボットとその強化学習モデルに事前の知識を装備し、人間のフィードバックを使用してロボットを正しい方向に導くことで、再びショートカットを作成できます。 これは、ロボットが人間や人間が設計した環境を理解し、対話するのを容易にするのに大いに役立ちます。 しかし、それならあなたは報酬のみのアプローチをだましているでしょう。 そして、ロボットエージェントが事前に設計された手足と画像キャプチャおよび音声放出デバイスから始まるという単なる事実は、それ自体が事前知識の統合です。

理論的には、報酬はあらゆる種類の知性に対してのみ十分です。 しかし実際には、環境の複雑さ、報酬の設計、およびエージェントの設計の間にはトレードオフがあります。

将来的には、純粋な報酬と強化学習を通じて一般的な知性に到達することを可能にするレベルの計算能力を達成できる可能性があります。 しかし、当面は、報酬とAIエージェントアーキテクチャの学習と複雑なエンジニアリングを含むハイブリッドアプローチが機能します。

Ben Dicksonは、ソフトウェアエンジニアであり、TechTalksの創設者です。 彼はテクノロジー、ビジネス、そして政治について書いています。

この話はもともと Bdtechtalks.com。 著作権2021

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://venturebeat.com/2021/06/20/evolution-rewards-and-artificial-intelligence/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?