ゼファーネットのロゴ

思考連鎖推論がニューラル ネットワークの計算にどのように役立つか |クアンタマガジン

日付:

概要

小学校の先生はおそらく 20 桁の数字の足し算の仕方を教えてくれなかったでしょう。しかし、より小さな数字を足す方法を知っていれば、必要なのは紙と鉛筆、そして少しの忍耐だけです。 XNUMX の位から始めて、左に向かって少しずつ作業していけば、すぐに XNUMX 億を簡単に積み上げることができるでしょう。

このような問題は人間にとって簡単ですが、それは正しい方法で対処した場合に限ります。 「私たち人間がこれらの問題を解決する方法は、『問題を見つめて答えを書き留める』ことではありません」と彼は言いました。 エラン・マラック、ハーバード大学の機械学習研究者。 「実際に手順を踏んでいきます。」

この洞察は、ChatGPT のようなチャットボットを強化する大規模な言語モデルを研究する研究者にインスピレーションを与えました。これらのシステムは、数ステップの算術を含む問題には合格するかもしれませんが、2022 つの大きな数値の合計を計算するなど、多くのステップを含む問題では失敗することがよくあります。しかし XNUMX 年に、Google 研究者チームは 示されました 言語モデルに段階的な解決策を生成するように依頼することで、以前は手の届かないように思われていた問題をモデルが解決できるようになったということです。思考連鎖プロンプティングと呼ばれる彼らの手法は、研究者たちがそれが機能する仕組みを理解するのに苦労しながらも、すぐに普及しました。

現在、いくつかのチームが、計算複雑性理論と呼ばれる理論コンピューターサイエンスの難解な分野のテクニックを使用して、思考連鎖推論の力を研究しています。これは、複雑性理論を使用して言語モデルの固有の機能と制限を研究する一連の研究の最新章です。これらの取り組みにより、モデルがどこで失敗すると予想すべきかが明確になり、モデルを構築するための新しいアプローチが示される可能性があります。

「彼らは魔法の一部を取り除きます」と言いました ディミトリス・パパイリオプロス、ウィスコンシン大学マディソン校の機械学習研究者。 "それはいい。"

トレーニングトランスフォーマー

大規模な言語モデルは、人工ニューラル ネットワークと呼ばれる数学的構造を中心に構築されています。これらのネットワーク内の多くの「ニューロン」は、個々の単語を表す長い数値列に対して単純な数学的演算を実行し、ネットワークを通過する各単語を別の単語に変換します。この数学的錬金術の詳細は、ニューロン間の接続の強さを定量化する、ネットワークのパラメーターと呼ばれる別の数値セットに依存します。

一貫した出力を生成するように言語モデルをトレーニングするために、研究者は通常、パラメータがすべてランダムな値を持つニューラル ネットワークから開始し、次にインターネット上から大量のデータをそれに供給します。モデルは新しいテキスト ブロックを見つけるたびに、各単語を順番に予測しようとします。最初の単語に基づいて 2 番目の単語を推測し、最初の 2 つに基づいて 3 番目の単語を推測します。各予測を実際のテキストと比較し、その差を減らすためにパラメータを微調整します。それぞれの微調整はモデルの予測をほんの少し変えるだけですが、どういうわけかその集合的な効果により、モデルはこれまでに見たことのない入力に一貫して応答できるようになります。

研究者は 20 年間、言語を処理するニューラル ネットワークをトレーニングしてきました。しかし、この取り組みが本格的に始まったのは、Google の研究者が 2017 年に導入したときでした。 新しい種類のネットワーク トランスと呼ばれます。

「これは7年前に提案されたものだが、まるで先史時代のことのようだ」と述べた。 パブロ・バルセロ、チリの教皇庁カトリック大学の機械学習研究者。

トランスフォーマーがこれほど変革的である理由は、トレーニングに法外なコストをかけることなく、トランスフォーマーを簡単にスケールアップして、パラメーターの数とトレーニング データの量を増やすことができるためです。トランスフォーマーが登場する以前、ニューラル ネットワークには最大でも数億のパラメータがありました。現在、最大の変圧器ベースのモデルには 1 兆を超えるものがあります。過去 5 年間の言語モデルのパフォーマンス向上の多くは、単純なスケールアップによるものです。

トランスフォーマーは、アテンション ヘッドと呼ばれる特別な数学的構造を使用することでこれを可能にし、読んでいるテキストの一種の鳥瞰図を提供します。トランスフォーマーがテキストの新しいブロックを読み取ると、そのアテンションヘッドは全体をすばやくスキャンし、単語間の関連するつながりを特定します。おそらく、10 番目と XNUMX 番目の単語が XNUMX 番目の単語を予測するのに最も役立つ可能性が高いことに注目します。次に、アテンションヘッドはフィードフォワード ネットワークと呼ばれる巨大なニューロンの網に単語を渡します。フィードフォワード ネットワークは、学習に役立つ予測を生成するために必要な大量の計算処理を実行します。

実際のトランスフォーマーには、フィードフォワード ネットワークによって分離された複数のアテンション ヘッド層があり、最後の層の後にのみ予測を吐き出します。ただし、各レイヤーでは、アテンションヘッドが各単語に最も関連性の高いコンテキストをすでに特定しているため、計算負荷の高いフィードフォワード ステップがテキスト内のすべての単語に対して同時に発生する可能性があります。これによりトレーニング プロセスが高速化され、ますます大規模なデータ セットでトランスフォーマーをトレーニングできるようになります。さらに重要なことは、研究者が大規模なニューラル ネットワークのトレーニングに伴う膨大な計算負荷を、連携して動作する多くのプロセッサーに分散できることです。

膨大なデータセットを最大限に活用するには、「モデルを非常に大きくする必要があります」と彼は言いました。 デビッド・チェン、ノートルダム大学の機械学習研究者。 「並列化しない限り、それらをトレーニングするのは現実的ではありません。」

ただし、トランスフォーマーのトレーニングを非常に簡単にする並列構造は、トレーニング後には役に立ちません。その時点では、すでに存在する単語を予測する必要はありません。通常の動作中、トランスフォーマーは一度に 1 ワードを出力し、次のワードを生成する前に各出力を入力に戻しますが、依然として並列処理に最適化されたアーキテクチャに固執しています。

トランスフォーマーベースのモデルが成長し、特定のタスクで問題が発生し続けるにつれて、一部の研究者は、より並列化可能なモデルへの推進が犠牲になったのではないかと考え始めました。変圧器の動作を理論的に理解する方法はあったのでしょうか?

トランスフォーマーの複雑さ

ニューラル ネットワークの理論的研究は、特にトレーニングを考慮しようとする場合、多くの困難に直面します。ニューラル ネットワークは、よく知られた手順を使用して、トレーニング プロセスの各ステップでパラメーターを微調整します。しかし、この単純な手順が適切なパラメータのセットに収束する理由を理解するのは難しい場合があります。

研究者の中には、トレーニング中に何が起こるかを考えるのではなく、変圧器のパラメータを任意の値に調整できると想像することで、変圧器の固有の機能を研究する人もいます。これは、変圧器を特別なタイプのプログラマブル コンピュータとして扱うことになります。

「あなたはコンピューティング デバイスを持っていて、『それでは何ができるのか』を知りたいと思うでしょう。どのような種類の関数を計算できるのでしょうか?」と Chiang 氏は言いました。

これらは、計算の正式な研究における中心的な質問です。この分野の歴史は 1936 年に遡ります。当時、アラン チューリングは初めて 空想的な装置、現在はチューリングマシンと呼ばれており、無限のテープ上のシンボルを読み書きすることであらゆる計算を実行できます。計算複雑性理論家は、後にチューリングの研究を基礎にして、計算問題が自然にさまざまなタイプに分類されることを証明することになります。 複雑さのクラス それらを解決するために必要なリソースによって定義されます。

2019年、バルセロと他のXNUMX人の研究者 証明 固定数のパラメータを備えた理想的な変換器は、チューリング マシンと同じくらい強力になる可能性があるということです。出力を入力として繰り返しフィードバックするようにトランスフォーマーを設定し、解決したい特定の問題に合わせてパラメーターを適切な値に設定すると、最終的には正しい答えが出力されます。

この結果は出発点ではありましたが、変圧器の電力を過大評価する可能性があるいくつかの非現実的な仮定に依存していました。それ以来、研究者たちは、より現実的な理論的枠組みの開発に取り組んできました。

そのような取り組みの 2021 つが XNUMX 年に始まりました。 ウィリアムメリル現在ニューヨーク大学の大学院生である彼は、シアトルのアレン人工知能研究所での2年間のフェローシップを辞めようとしていた。そこにいる間、彼はトランスフォーマーの並列アーキテクチャにはあまり適合しないと思われる手法を使用して、他の種類のニューラル ネットワークを分析していました。出発直前に、彼はアレンAI研究所の研究者と会話を始めた。 アシシュ・サバーワルAI 研究に進む前に複雑性理論を学んでいました。彼らは、複雑さの理論が変圧器の限界を理解するのに役立つのではないかと疑い始めました。

「単純なモデルのように思えました。簡単に特定できる制限がいくつかあるはずです」とサバワル氏は語った。

二人は、並列計算の研究によく使用される、回路複雑性と呼ばれる計算複雑性理論の分野を使用して変圧器を分析しました。 最近適用された トランスの簡易版に。翌年にかけて、彼らは以前の研究における非現実的な仮定のいくつかを洗練させました。トランスの並列構造がトランスの能力をどのように制限するかを研究するために、二人はトランスが出力を入力にフィードバックしない場合を検討しました。代わりに、最初の出力が最終的な答えになる必要があります。彼らは 証明 この理論的枠組みの変換器は、特定の複雑さのクラスの外側にある計算問題を解決できないということです。そして、一次方程式を解くような比較的単純なものを含む多くの数学の問題は、このクラスの外にあると考えられています。

基本的に、彼らは、少なくとも変換器がすぐに答えを吐き出さなければならない場合には、並列処理には代償が伴うことを示しました。 「トランスフォーマーは、入力を与えてすぐに答えが返ってくることを期待するような使い方をすると、非常に弱いものになります」とメリル氏は言う。

思考実験

Merrill と Sabharwal の結果は、当然の疑問を引き起こしました。出力をリサイクルできるようになると、変圧器はどのくらい強力になるのでしょうか?バルセロと彼の共著者らは、理想化された変圧器の 2019 年の分析でこのケースを研究していましたが、より現実的な仮定があったため、疑問は未解決のままでした。そしてそれから数年の間に、研究者たちは思考の連鎖が促すことを発見し、この質問に新たな関連性を見出しました。

Merrill と Sabharwal は、純粋に数学的なアプローチでは、実際の言語モデルにおける思考連鎖推論のすべての側面を捉えることはできないことを認識していました。 非常に重要な場合があります。しかし、プロンプトがどのように表現されていても、言語モデルが段階的な解決策を出力する限り、モデルは原則として、トランスフォーマーを通過する後続のパスで中間ステップの結果を再利用できます。これにより、並列計算の制限を回避する方法が提供される可能性があります。

一方、北京大学のチームも同様の方針に沿って検討しており、暫定的な結果は肯定的なものでした。 2023 年 XNUMX 月の論文で、彼らはメリルとサバルワルのフレームワークでは通常の変圧器では不可能であるはずのいくつかの数学的問題を特定しました。 示されました その中間ステップにより、変圧器がこれらの問題を解決できるようになりました。

10月、メリルとサバワルは以前の研究に続き、 詳細な理論的研究 思考の連鎖の計算能力。彼らは、追加の計算能力が、最終的な答えを吐き出す前に変換器が使用できる中間ステップの数にどのように依存するかを定量化しました。一般に、研究者は、問題を解決するための適切な中間ステップの数は、問題への入力のサイズに依存すると予想します。たとえば、20 つの 10 桁の数値を加算する最も単純な方法では、XNUMX つの XNUMX 桁の数値を加算する同じ方法の XNUMX 倍の中間加算ステップが必要です。

このような例は、トランスフォーマーがいくつかの中間ステップを使用するだけではあまりメリットがないことを示唆しています。実際、メリルとサバワルは、中間ステップの数が入力のサイズに比例して増加する場合にのみ思考の連鎖が実際に役に立ち始めること、そして多くの問題では中間ステップの数がさらに大きくなる必要があることを証明しました。

結果の徹底的さは研究者らを感心させた。 「彼らは本当にこれを突き止めた」と彼は言った ダニエル・スー、コロンビア大学の機械学習研究者。

Merrill と Sabharwal の最近の研究は、思考の連鎖が万能薬ではないことを示しています。原則として、思考の連鎖は変換器がより困難な問題を解決するのに役立ちますが、その場合は多大な計算量が必要になります。

「私たちは変圧器の制限をワンステップで回避するさまざまな方法に興味があります」とメリル氏は語った。 「思考の連鎖は 1 つの方法ですが、この論文は、それが最も経済的な方法ではない可能性があることを示しています。」

現実に戻れ

それでも研究者らは、この種の理論的分析では実際の言語モデルについて明らかにできることは限られていると警告している。肯定的な結果 (トランスフォーマーが原理的に特定の問題を解決できることの証明) は、言語モデルがトレーニング中に実際にそれらの解決策を学習することを意味するものではありません。

そして、変圧器の限界に対処する結果であっても、注意が必要です。これらは、あらゆる場合に特定の問題を完全に解決できる変圧器はないことを示しています。もちろん、それはかなり高いハードルです。 「問題の特殊なケースでは、問題なく処理できる可能性があります」と Hsu 氏は言います。

これらの注意点にもかかわらず、新しい研究は、最終的にトランスフォーマーに代わる可能性のあるさまざまな種類のニューラル ネットワーク アーキテクチャを分析するためのテンプレートを提供します。複雑性理論の分析により、特定の種類のネットワークが他の種類のネットワークよりも強力であることが示唆された場合、それは、それらのネットワークが現実世界でもよりうまく機能する可能性があるという証拠になります。

また、Chiang 氏は、言語モデルが現実世界の幅広いアプリケーションで使用されることが増え、その能力を過大評価しやすくなっているため、トランスフォーマーの限界に関する研究の価値がますます高まっていると強調しました。

「実際には、彼らがそれほどうまくやっていないことがたくさんあります。そして、私たちは限界が何であるかを非常によく認識する必要があります」とチェン氏は述べた。 「だからこそ、この種の仕事は本当に重要なのです。」

スポット画像

最新のインテリジェンス

スポット画像