ゼファーネットのロゴ

選択的忘却が AI の学習をどのように助けるのか |クアンタマガジン

日付:

概要

コンピューター科学者のチームが作成した より軽快で柔軟なタイプ 機械学習モデルの。コツ: 知っていることを定期的に忘れる必要があります。そして、この新しいアプローチは、最大のアプリを支える巨大なモデルに取って代わるものではありませんが、これらのプログラムが言語をどのように理解するのかについてより多くのことを明らかにする可能性があります。

新しい研究は「この分野における大きな進歩」を示すものであると同氏は述べた。 ジェ・クォン, 韓国基礎科学研究所のAIエンジニア。

現在使用されている AI 言語エンジンは主に次のようなものを利用しています。 人工神経回路網。ネットワーク内の各「ニューロン」は、他の同様のニューロンから信号を受信し、いくつかの計算を実行し、複数のニューロン層を介して信号を送信する数学関数です。最初は情報の流れは多かれ少なかれランダムですが、トレーニングを通じて、ネットワークがトレーニング データに適応するにつれてニューロン間の情報の流れが改善されます。たとえば、AI 研究者がバイリンガル モデルを作成したい場合、両方の言語の大量のテキストを使用してモデルをトレーニングします。これにより、1 つの言語のテキストを同等の言語に関連付けるようにニューロン間の接続が調整されます。他の言葉。

ただし、このトレーニング プロセスには多くのコンピューティング能力が必要です。モデルがあまりうまく機能しない場合、または後でユーザーのニーズが変化した場合、それを適応させるのは困難です。 「100 の言語を備えたモデルがあるとしますが、必要な XNUMX つの言語がカバーされていないと想像してください。」 ミケル・アルテクス、新しい研究の共著者であり、AI スタートアップ Reka の創設者です。 「最初からやり直すこともできますが、それは理想的ではありません。」

Artetxe と彼の同僚は、これらの制限を回避しようと試みました。 数年前, Artetxeらは、ニューラルネットワークを1つの言語で訓練し、トークンと呼ばれる単語の構成要素について知っている情報を消去した。これらは、埋め込み層と呼ばれるニューラル ネットワークの最初の層に保存されます。モデルの他のレイヤーはすべてそのまま残しました。最初の言語のトークンを消去した後、2 番目の言語でモデルを再トレーニングし、その言語からの新しいトークンで埋め込み層を埋め込みました。

モデルに不一致の情報が含まれていたとしても、再トレーニングは機能し、モデルは新しい言語を学習して処理できました。研究者らは、埋め込み層にはその言語で使用される単語に特有の情報が保存されている一方、ネットワークのより深いレベルには人間の言語の背後にある概念に関するより抽象的な情報が保存されており、それがモデルによる第二言語の学習に役立っているのではないかと推測した。

「私たちは同じ世界に住んでいます。私たちは同じものを異なる言葉で概念化します」と異なる言語で述べた チェン・イーホン、最近の論文の筆頭著者。 「だからこそ、これと同じ高度な推論がモデルに組み込まれているのです。リンゴとは単なる言葉ではなく、甘くてジューシーなものです。」

概要

この忘却アプローチは、すでにトレーニングされたモデルに新しい言語を追加する効果的な方法でしたが、再トレーニングには依然として要求が厳しく、大量の言語データと処理能力が必要でした。 Chen 氏は微調整を提案しました。トレーニングして埋め込み層を消去してから再トレーニングするのではなく、トレーニングの最初のラウンド中に埋め込み層を定期的にリセットする必要があります。 「これを行うことで、モデル全体がリセットに慣れてきます」と Artetxe 氏は言います。 「つまり、モデルを別の言語に拡張したい場合、それがあなたがやってきたことなので、簡単になるということです。」

研究者らは、と呼ばれる一般的に使用されている言語モデルを採用しました。 ロベルタらは、周期的忘却手法を使用してモデルをトレーニングし、標準的な非忘却アプローチでトレーニングした場合の同じモデルのパフォーマンスと比較しました。忘却モデルの成績は従来のモデルよりわずかに悪く、言語精度の一般的な尺度の 85.1 つで 86.1 と比較して 5 のスコアを獲得しました。次に、最初のトレーニングで使用した 70 億トークンではなく、わずか 53.3 万トークンのはるかに小さいデータセットを使用して、他の言語でモデルを再トレーニングしました。標準モデルの精度は平均 62.7 まで低下しましたが、忘却モデルは XNUMX までしか低下しませんでした。

また、チームが再トレーニング中に計算制限を課した場合、忘却モデルのパフォーマンスは大幅に向上しました。研究者らがトレーニングの長さを 125,000 ステップからわずか 5,000 ステップに削減したところ、忘却モデルの精度は平均 57.8 に低下しました。一方、標準モデルは 37.2 に急落しました。これはランダムな推測と同等でした。

概要

研究チームは、定期的な忘却により、モデルの言語学習が全般的に向上するようだと結論付けました。 「彼らはトレーニング中に忘れたり再学習したりするので、後からネットワークに新しいことを教えるのが容易になります」と氏は述べた。 エフゲニー・ニキシン、ケベック州のディープラーニング研究センター、Mila の研究者。これは、言語モデルが言語を理解する際、個々の単語の意味だけではなく、より深いレベルで理解していることを示唆しています。

このアプローチは、私たち自身の脳の仕組みと似ています。 「人間の記憶は一般に、大量の詳細な情報を正確に保存するのがあまり得意ではありません。その代わりに、人間は自分の経験の要点を抽象化して外挿して記憶する傾向があります」と述べた。 ベンジャミン・レヴィ、サンフランシスコ大学の神経科学者。 「適応的忘却のような、より人間らしいプロセスを AI に実現することは、より柔軟なパフォーマンスを実現する 1 つの方法です。」

Artetxe は、理解がどのように機能するかについて述べていることに加えて、より柔軟な忘却言語モデルが、最新の AI のブレークスルーをより多くの言語にもたらすのに役立つことを期待しています。 AI モデルは、トレーニング資料が豊富にあるスペイン語と英語という 2 つの言語の処理には優れていますが、彼の母国語であるスペイン北東部特有の現地言語であるバスク語についてはあまり得意ではありません。 「大手ハイテク企業のほとんどのモデルはうまく機能しません」と彼は言う。 「既存のモデルをバスク語に適応させることが最善策です。」

チェン氏も、AIの花がさらに咲く世界を楽しみにしている。 「私は、世界が 1 つの大きな言語モデルを必要としない状況を考えています。たくさんあります」と彼女は言いました。 「言語モデルを製造する工場がある場合、この種のテクノロジーが必要です。新しいドメインにすぐに適応できる 1 つの基本モデルがあります。」

スポット画像

最新のインテリジェンス

スポット画像