ゼファーネットのロゴ

大規模な言語モデルは予期せぬスキルをどれくらい早く学習するのでしょうか? |クアンタマガジン

日付:

概要

2年前、 イミテーション ゲームのベンチマークを超えて、または BIG ベンチでは、450 人の研究者が、ChatGPT のようなチャットボットを強化する大規模な言語モデルの機能をテストするために設計された 204 のタスクのリストを作成しました。ほとんどのタスクでは、モデルがスケールアップするにつれて、パフォーマンスが予測どおりかつスムーズに向上しました。モデルが大きくなるほど、パフォーマンスは向上しました。しかし、他のタスクでは、能力の向上はスムーズではありませんでした。パフォーマンスはしばらくゼロ近くにとどまりましたが、その後パフォーマンスが急上昇しました。他の研究でも同様の能力の飛躍が見られました。

著者らはこれを「画期的な」行動と表現しました。他の研究者は、液体の水が凍って氷になるときのような、物理学における相転移に例えています。で 2022年XNUMX月に発表された論文では、研究者らは、これらの行動は驚くべきものであるだけでなく、予測不可能であり、AIの安全性、可能性、リスクをめぐる進化する議論に情報を提供する必要があると指摘した。彼らはその能力を「創発的なこれは、システムが高いレベルの複雑さに達した場合にのみ現れる集団的な動作を表す言葉です。

しかし、物事はそれほど単純ではないかもしれません。 新しい新聞 スタンフォード大学の3人の研究者らは、これらの能力の突然の出現は、研究者がLLMのパフォーマンスを測定する方法の結果にすぎないと主張しています。彼らの主張によれば、その能力は予測不可能でも突然でもありません。 「この移行は人々が信じているよりもはるかに予測可能です」と彼は言いました 恋城三美、スタンフォード大学のコンピューター科学者であり、この論文の上級著者です。 「創発の強い主張は、モデルが行っていることと同じくらい、私たちが選択した測定方法にも関係しています。」

これらのモデルが非常に大きくなったため、私たちは現在この動作を確認し、研究しているところです。大規模な言語モデルは、膨大な量の分析によってトレーニングされます。 テキストのデータセット —書籍、ウェブ検索、ウィキペディアなどのオンライン ソースからの単語 — 一緒に出現することが多い単語間のリンクを見つけます。サイズはパラメータの観点から測定され、単語の接続方法とほぼ同様です。パラメータが多いほど、LLM が検出できる接続も多くなります。 GPT-2 には 1.5 億のパラメーターがありましたが、ChatGPT を強化する LLM である GPT-3.5 は 350 億を使用します。 4 年 2023 月にデビューし、現在 Microsoft Copilot の基盤となっている GPT-1.75 は、XNUMX 兆 XNUMX 億を使用していると報告されています。

この急速な成長により、パフォーマンスと効率性は驚くほど向上しており、十分な規模の LLM が、トレーニングされていないタスクも含め、小規模なモデルでは実行できないタスクを完了できることに異論を唱える人はいません。スタンフォード大学の 3 人は、新興を「蜃気楼」と見なし、LLM は規模が拡大するにつれてより効果的になることを認識しています。実際には、 追加された複雑さ より大きなモデルを使用することで、より困難で多様な問題をより良く処理できるようになります。しかし彼らは、この改善がスムーズで予測可能に見えるか、それともギザギザでシャープに見えるかは、モデルの内部動作ではなく、メトリクスの選択、あるいはテスト例の不足に起因すると主張しています。

2022 桁の加算がその例です。 3年のBIGベンチ研究では、パラメーターが少ないため、GPT-3とLAMDAという名前の別のLLMの両方が加算問題を正確に完了できなかったと研究者が報告しました。しかし、GPT-13が68億個のパラメータを使って訓練すると、まるでスイッチが入ったかのように能力が変化した。突然、追加される可能性があり、LAMDA も XNUMX 億のパラメータを追加する可能性があります。これは、追加する能力が特定のしきい値で現れることを示唆しています。

しかし、スタンフォード大学の研究者らは、LLM は精度だけで評価され、完璧に実行できるか、できないかのどちらかであると指摘しています。したがって、LLM がほとんどの桁を正しく予測したとしても、失敗します。それは正しくないようでした。 100 プラス 278 を計算する場合、376 は、たとえば -9.34 よりもはるかに正確な答えのように思えます。

そこで代わりに、Koyejo 氏と彼の共同研究者は、部分的な評価を与える指標を使用して同じタスクをテストしました。 「最初の桁をどの程度正確に予測できるのか、ということが考えられます。じゃあ二番目は?じゃあ3人目は?」彼は言った。

コエジョ氏は、この新しい研究のアイデアは大学院生のライラン・シェイファー氏の功績だと考えており、彼はLLMのパフォーマンスがその能力の測定方法によって変化するようだと気づいたと述べた。同じくスタンフォード大学の大学院生であるブランド・ミランダ氏とともに、彼らは、パラメータが増加するにつれて、LLM が加算問題における数字の順序をますます正確に予測することを示す新しい指標を選択しました。これは、足し算の能力が突然現れるものではなく、突然予測不可能な飛躍を遂げるものではなく、徐々に予測可能であることを示唆しています。彼らは、別の物差しを使うと羽化が消えることに気づきました。

概要

しかし、他の科学者は、この研究は創発の概念を完全に払拭するものではないと指摘する。たとえば、このトリオの論文では、いつ、またはどの指標が LLM で急激な改善を示すかを予測する方法が説明されていない、と同氏は述べた。 李天史、ノースイースタン大学のコンピューター科学者。 「その意味では、これらの能力はまだ予測不可​​能です」と彼女は言いました。他には、現在 OpenAI に所属するコンピューター科学者であり、新たな能力のリストをまとめ、BIG ベンチ論文の著者でもあるジェイソン・ウェイなど、 主張してきました 算数のような能力にとって本当に重要なのは正しい答えだけであるため、出現に関する初期の報告は妥当なものであったと考えられます。

「ここでは間違いなく興味深い会話ができるでしょう」と彼は言った アレックス・タムキン、AIスタートアップAnthropicの研究科学者。新しい論文では、複数段階のタスクを巧みに分解して、個々のコンポーネントの貢献を認識している、と同氏は述べた。 「しかし、これがすべてではありません。これらのジャンプのすべてが蜃気楼であるとは言えません。ワンステップ予測を行ったり、連続メトリクスを使用したりした場合でも、依然として不連続性があり、モデルのサイズが大きくなるにつれて、ジャンプのような形で改善されていくことが文献で示されていると私は今でも思っています。」

そして、たとえ今日の LLM の出現がさまざまな測定ツールによって説明できたとしても、将来のより大規模で複雑な LLM には当てはまらない可能性があります。 「LLM を次のレベルに成長させると、必然的に他のタスクや他のモデルから知識を借用することになります。」と彼は言いました。 シア・“ベン”・フー、ライス大学のコンピューター科学者。

創発に関するこの進化する考察は、研究者が検討すべき単なる抽象的な問題ではありません。 Tamkin にとって、これは LLM がどのように行動するかを予測するための継続的な取り組みを直接物語っています。 「これらのテクノロジーは非常に幅広く、応用可能です」と彼は言いました。 「コミュニティがこれを出発点として利用し、これらのことを予測する科学を構築することがいかに重要であるかを継続的に強調してくれることを願っています。次世代モデルに驚かれないようにするにはどうすればよいでしょうか?」

スポット画像

最新のインテリジェンス

スポット画像