ゼファーネットのロゴ

チャットボットがテキストを理解できることを示唆する新理論 |クアンタマガジン

日付:

概要

Bard や ChatGPT のようなチャットボットは、不気味なほど人間らしいテキストを生成できるため、人工知能はかつてないほど強力になっているようです。しかし、これらのボットは、その才能にもかかわらず、依然として研究者に疑問を残しています。「そのようなモデルを行うのか」 実際に理解する 彼らは何を言っているのですか? 「明らかに、一部の人々はそう信じている」と AI の先駆者は語った ジェフヒントン 最近の会話 アンドリュー・ン氏とともに、「そして一部の人々は、彼らが単なる確率論的なオウムであると信じています。」

この刺激的なフレーズは 2021 年に由来しています。 共著 エミリーベンダー、ワシントン大学の計算言語学者。この研究は、現代のチャットボットの基礎を形成する大規模言語モデル (LLM) が、「意味を考慮せずに」すでに見た情報を組み合わせてのみテキストを生成することを示唆しており、そのため LLM は「確率論的なオウム」になっていると著者らは書いています。

これらのモデルは、今日の最大かつ最高のチャットボットの多くを強化しているため、ヒントン氏は、チャットボットがどの程度理解しているのかを判断する時期が来たと主張しました。彼にとって、この質問は単なる学術的なものではない。 「こうした意見の相違がある限り、危険について合意に達することはできないだろう」と同氏はン氏に語った。

新しい研究により、答えが見つかるかもしれません。によって開発された理論 Sanjeevアローラ プリンストン大学と アニルド・ゴヤルGoogle DeepMind の研究科学者は、今日の最大の LLM は確率論的なオウムではないと示唆しています。著者らは、これらのモデルが大きくなり、より多くのデータでトレーニングされるにつれて、個々の言語関連能力が向上し、また、トレーニングデータには存在しそうになかった組み合わせの理解を示唆する方法でスキルを組み合わせることで、新しい能力も開発できると主張しています。 。

この理論的アプローチは、LLM が非常に多くの能力を開発できる方法と理由について数学的に証明可能な議論を提供し、ヒントンなどの専門家を納得させました。そして、アローラ氏と彼のチームがその予測の一部をテストしたところ、これらのモデルがほぼ予想どおりに動作することがわかりました。あらゆる記録から見て、彼らは、最大手の LLM がこれまでに見てきたものを単にオウム返ししているだけではないことを強く主張しています。

「[彼らは] 訓練データに見られたものを単に模倣することはできません」と彼は言いました セバスチャン・ブベック、Microsoft Research の数学者およびコンピューター科学者ですが、研究には参加していませんでした。 「それが基本的な洞察です。」

より多くのデータ、より多くの電力

の出現 思いがけない多彩な能力 LLM では、驚きだったと言ってよいでしょう。これらの能力は、システムの構築方法とトレーニング方法の明らかな結果ではありません。 LLM は、個々の人工ニューロンを接続する大規模な人工ニューラル ネットワークです。これらの接続はモデルのパラメーターとして知られており、その数は LLM のサイズを示します。トレーニングでは、LLM に最後の単語を隠した文を与えることが含まれます。たとえば、「燃料には腕と ___ がかかります。」などです。 LLM は語彙全体にわたる確率分布を予測するため、たとえば 1,000 個の単語を知っている場合は、1,000 個の確率を予測します。次に、文を完成させる可能性が最も高い単語、おそらく「脚」を選択します。

最初は、LLM の単語の選択が適切でない可能性があります。次に、トレーニング アルゴリズムは損失 (LLM の答えと元の文の実際の単語の間の、高次元の数学的空間における距離) を計算し、この損失を使用してパラメータを微調整します。ここで、同じ文が与えられた場合、LLM はより適切な確率分布を計算し、その損失はわずかに小さくなります。このアルゴリズムは、LLM の全体的な損失が許容レベルに下がるまで、トレーニング データ内のすべての文 (おそらく数十億の文) に対してこれを実行します。同様のプロセスを使用して、トレーニング データの一部ではない文に対して LLM をテストします。

訓練され、テストされた LLM は、新しいテキスト プロンプトが提示されると、最も可能性の高い次の単語を生成し、それをプロンプトに追加し、別の次の単語を生成し、この方法を継続して、一見一貫した応答を生成します。トレーニング プロセスには、より多くのパラメーターとトレーニング データを使用して構築された大規模な LLM が、回答に推論を必要とするタスクでも向上するはずであることを示唆するものはありません。

しかし、彼らはそうします。十分な規模の LLM は、すべて同じような方法でトレーニングされているにもかかわらず、初歩的な数学の問題を解くことから、他人の心の中で起こっていることについての質問に答えるまで、小規模なモデルにはない能力を示します。

「その[能力]はどこから出てきたのですか?」アローラは不思議に思った。 「そして、それは次の単語の予測だけから明らかになるのでしょうか?」

スキルをテキストに結び付ける

アローラはゴヤルと協力して、そのような質問に分析的に答えました。 「私たちは、羽化がどのように起こるかを理解するための理論的枠組みを考え出そうとしていました」とアローラ氏は語った。

二人はランダム グラフと呼ばれる数学的オブジェクトに目を向けました。グラフは線 (またはエッジ) で接続された点 (またはノード) の集合であり、ランダム グラフでは、2 つのノード間のエッジの存在は、たとえばコイン投げによってランダムに決定されます。コインには偏りがあるため、ある程度の確率で表が出る可能性があります p。コインが特定のノードのペアに向かう場合、それらの 2 つのノード間にエッジが形成されます。それ以外の場合は接続されないままになります。の値としては p 変化すると、グラフの特性が突然変化することがあります。. 例えば、 p 特定のしきい値を超えると、孤立したノード (他のノードに接続されていないノード) が突然消えます。

Arora と Goyal は、特定のしきい値に達した後に予期しない動作を引き起こすランダム グラフが、LLM の動作をモデル化する方法になる可能性があることに気づきました。ニューラル ネットワークは分析するにはあまりにも複雑になりましたが、数学者はランダム グラフを長い間研究し、ランダム グラフを分析するためのさまざまなツールを開発してきました。おそらく、ランダム グラフ理論は、大規模な LLM の明らかに予期せぬ動作を理解し、予測する方法を研究者に提供する可能性があります。

研究者らは、2 種類のノードを含む「二部」グラフに焦点を当てることにしました。彼らのモデルでは、1 つのタイプのノードがテキストの部分を表します。個々の単語ではなく、段落から数ページの長さになる可能性のあるチャンクです。これらのノードは直線上に配置されます。その下の別の行には、他のノードのセットがあります。これらは、特定のテキストを理解するために必要なスキルを表します。それぞれのスキルはほぼ何でも可能です。おそらく 1 つのノードは、何らかの因果関係の概念を組み込んだ「 because 」という単語を理解する LLM の能力を表します。もう 1 つは、2 つの数値を割り算できることを表すこともあります。さらに別の意味は、皮肉を察知する能力を表している可能性があります。 「その文章が皮肉であると理解すれば、多くのことがひっくり返ります」とアローラ氏は言う。 「それは単語の予測に関係します。」

明確にしておきますが、LLM はスキルを念頭に置いてトレーニングやテストを受けていません。これらは、次の単語の予測を改善するためだけに構築されています。しかし、Arora と Goyal は、単一のテキストを理解するために必要とされるスキルの観点から LLM を理解したいと考えました。スキル ノードとテキスト ノードの間、または複数のスキル ノードとテキスト ノードの間の接続は、LLM がそのノード内のテキストを理解するためにそれらのスキルを必要とすることを意味します。また、複数のテキストが同じスキルまたはスキルのセットに基づいている場合があります。たとえば、皮肉を理解する能力を表す一連のスキル ノードは、皮肉が発生する多数のテキスト ノードに接続されます。

ここでの課題は、これらの 2 部グラフを実際の LLM に接続し、そのグラフから強力な能力の出現について何かが明らかになるかどうかを確認することでした。しかし、研究者らは実際の LLM のトレーニングやテストに関する情報に頼ることができませんでした。OpenAI や DeepMind などの企業はトレーニング データやテスト データを公開していません。また、Arora と Goyal は、LLM がさらに大きくなるにつれてどのように動作するかを予測したいと考えていましたが、今後のチャットボットに関して利用できるそのような情報はありません。ただし、研究者がアクセスできる重要な情報が 1 つありました。

2021 年以降、LLM やその他のニューラル ネットワークのパフォーマンスを研究している研究者たちは、普遍的な特性が出現するのを目にしてきました。彼らは、サイズやトレーニング データの量に関係なく、モデルが大きくなるにつれて、テスト データでの損失 (トレーニング後の新しいテキストの予測された答えと正解の差) が非常に特殊な方法で減少することに気づきました。これらの観察は、ニューラル スケーリング則と呼ばれる方程式に体系化されています。そこで、Arora と Goyal は、個々の LLM、チャットボット、または一連のトレーニングおよびテスト データからのデータではなく、これらのシステムすべてが従うことが期待される普遍的な法則、つまりスケーリング法則によって予測される損失に依存するように理論​​を設計しました。

おそらく、神経スケーリングの法則によって測定されるパフォーマンスの向上は、スキルの向上に関係しているのではないかと彼らは推論しました。そして、これらの向上したスキルは、スキル ノードをテキスト ノードに接続することによって、2 部グラフで定義できます。ニューラル スケーリング則と 2 部グラフの間のこのリンクを確立することが、研究を進めるための鍵でした。

スキルのスケールアップ

研究者らは、テスト データに対する LLM の動作に対応する仮想の 2 部グラフが存在すると仮定することから始めました。テスト データでの LLM の損失の変化を活用するために、彼らはグラフを使用して LLM がどのようにスキルを獲得するかを説明する方法を想像しました。

たとえば、「皮肉を理解する」というスキルを考えてみましょう。このアイデアはスキル ノードで表現されているため、研究者はこのスキル ノードがどのテキスト ノードに接続されているかを調べています。これらの接続されたテキスト ノードのほぼすべてが成功した場合、つまり、これらのノードによって表されるテキストに対する LLM の予測が非常に正確であることを意味し、LLM はこの特定のスキルに優れています。ただし、スキル ノードの接続の一定部分以上が失敗したテキスト ノードに送信される場合、LLM はこのスキルで失敗します。

これらの 2 部グラフと LLM 間のこの接続により、Arora と Goyal はランダム グラフ理論のツールを使用して、代理で LLM の動作を分析できるようになりました。これらのグラフを調査すると、ノード間の特定の関係が明らかになりました。これらの関係は、大規模なモデルが予期せぬ能力を達成するために必要なスキルをどのように獲得したかを説明する論理的かつテスト可能な方法に変換されました。

Arora 氏と Goyal 氏はまず、重要な行動の 1 つについて説明しました。それは、なぜ大規模な LLM が小規模な LLM よりも個々のスキルにおいてより熟練するのかということです。彼らは、ニューラル スケーリングの法則によって予測されるより低いテスト損失から開始しました。グラフでは、この低いテスト損失は、失敗したテスト ノードの割合の低下によって表されます。したがって、全体的に失敗したテスト ノードが少なくなります。また、失敗したテスト ノードが少なくなると、失敗したテスト ノードとスキル ノード間の接続も少なくなります。したがって、より多くのスキル ノードが成功したテスト ノードに接続されており、モデルのスキルの能力が高まっていることを示唆しています。 「損失がほんのわずかに減少するだけで、マシンはこれらのスキルの能力を獲得できるようになります」とゴヤル氏は語った。

次に、二人は、より大きなモデルの予期せぬ能力を説明する方法を見つけました。 LLM のサイズが大きくなり、テスト損失が減少するにつれて、スキル ノードのランダムな組み合わせによって個々のテキスト ノードへの接続が確立されます。これは、LLM が一度に複数のスキルをより上手に使用できるようになり、複数のスキルを使用してテキストを生成し始めることを示唆しています。たとえば、皮肉を使用する能力と「なぜなら」という単語の理解とを組み合わせたものです。スキルはトレーニング データ内のどのテキストにも存在しませんでした。

たとえば、テキストを生成するためにすでに 1 つのスキルを使用できる LLM を想像してください。 LLM のパラメータまたはトレーニング データの数を一桁増やすと、2 つのスキルを必要とするテキストを生成できるようになります。さらにレベルが上がり、LLM は一度に 4 つのスキルを必要とするタスクを同じレベルの能力で実行できるようになります。より大きな LLM はスキルを組み合わせる方法がより多く、組み合わせによる能力の爆発につながります。

そして、LLM がスケールアップされると、トレーニング データ内のスキルのこれらすべての組み合わせに遭遇する可能性はますます低くなります。ランダム グラフ理論のルールによれば、すべての組み合わせは可能なスキルのランダム サンプリングから生じます。したがって、グラフ内に基礎となる個々のスキル ノードが約 1,000 あり、1,000 つのスキルを組み合わせたい場合、それらを組み合わせる方法は約 1 の XNUMX 乗、つまり XNUMX 兆通りになります。

Arora 氏と Goyal 氏は、これは最大手の LLM がトレーニング データに含まれるスキルの組み合わせだけに依存していないことの証拠であると考えています。ビューベック氏も同意する。 「もし LLM がそれらの千のスキルのうちの 4 つを組み合わせてそれらのタスクを本当に実行できるのであれば、それは一般化を行っているに違いありません。」と彼は言いました。つまり、確率論的なオウムではない可能性が非常に高いということです。

真の創造性?

しかし、Arora 氏と Goyal 氏は、理論を超えて、LLM のサイズとトレーニング データが増加するにつれて、より多くのスキルを組み合わせることでより一般化がうまくなるという主張を検証したいと考えました。彼らは他の同僚と一緒に、 方法を設計した これは「スキルミックス」と呼ばれ、複数のスキルを使用してテキストを生成する LLM の能力を評価します。

LLM をテストするために、チームは、ランダムに選択されたいくつかのスキルを示す、ランダムに選択されたトピックに関する 4 つの文を生成するよう LLM に依頼しました。たとえば、彼らは GPT-XNUMX (ChatGPT の最も強力なバージョンを強化する LLM) に、決闘 (基本的には剣の戦い) について書くよう依頼しました。さらに、利己的な偏見、比喩、統計三段論法、一般知識の物理学の XNUMX つの分野のスキルを発揮するよう求めました。. GPT-4は次のように答えた。「この鋼鉄とのダンス[比喩]における私の勝利は、物体が地面に落ちるのと同じくらい確実である[物理学]。有名なデュエリストとして、私は本質的に機敏であり、私の評判の他のほとんどの[統計的三段論法]と同じです。敗北?それが可能なのは戦場が不均一だからであり、私の力不足(利己的偏見)のせいではありません。」出力を確認するように求められたとき、GPT-4 は出力を XNUMX つの文に短縮しました。

概要

「それはヘミングウェイやシェイクスピアではありません」とアローラ氏は言いましたが、チームはそれが彼らの主張を証明していると自信を持っています。モデルはトレーニングデータではおそらく見られなかったテキストを生成し、一部の人々が主張するものを合計するスキルを示します。理解しています。同氏によると、GPT-4は10つのスキルを必要とするスキルミックステストにも約15%からXNUMX%の確率で合格しており、トレーニングデータに存在することは統計的に不可能なテキストを生成しているという。

チームはまた、GPT-4 に自身の出力と他の LLM の出力を評価させることでプロセスを自動化しました。アローラ氏は、モデルにはメモリがないため、モデル自体が評価するのは公平であるとし、評価を求められているテキストそのものを生成するよう求められたことをモデルは覚えていない、と述べた。 Google DeepMind の研究者であり、AI の基礎に取り組んでいる Yasaman Bahri 氏は、自動化されたアプローチが「非常にシンプルでエレガント」であると感じています。

この理論に関しては、いくつかの仮定があるのは事実だが、「これらの仮定は決しておかしなものではない」とビューベック氏は述べた。彼もその実験に感銘を受けました。 「[チームが]理論的に証明し、経験的にも確認しているのは、構成的な一般化が存在するということです。これは、[LLM]がこれまで組み立てられたことのない構成要素を組み立てることができることを意味します」と彼は述べた。 「私にとって、これが創造性の本質です。」

Arora 氏は、この研究では LLM が書いた内容の正確さについては何も述べていないと付け加えました。 「実際、それは独創性を主張しているのです」と彼は言う。 「これらのことは、世界のトレーニング コーパスには存在しませんでした。誰もこれを書いたことはありません。それは幻覚に違いない。」

それにもかかわらず、ヒントンは、この研究はLLMが確率論的なオウムであるかどうかという問題を解決することにあると考えている。 「これは、GPT-4 が単なる確率論的なオウム以上のものであることを示すために、私がこれまでに見た中で最も厳密な方法です」と彼は言いました。 「彼らは、GPT-4 がトレーニング データではほぼ確実に発生しなかった方法でスキルとトピックを組み合わせたテキストを生成できることを説得力を持って実証しました。」 (私たちはベンダーに新作についての見解を尋ねましたが、彼女は時間がないことを理由にコメントを拒否しました。)

そして実際、数学的に予測できるように、GPT-4 のパフォーマンスは、その小型の前モデルである GPT-3.5 のパフォーマンスをはるかに上回っており、アローラを驚かせたほどです。 「それはおそらく私だけではないでしょう」と彼は言いました。 「多くの人は、GPT-4 が GPT-3.5 よりどれだけ優れているかを少し不気味に感じましたが、それは XNUMX 年以内に起こりました。ということは、もうXNUMX年も同じような規模の変化が起こるということなのでしょうか?わからない。 OpenAI だけが知っています。」

スポット画像

最新のインテリジェンス

スポット画像