10 年の NLP の 2022 つの主要な言語モデル

転移学習の導入と事前トレーニング済みの言語モデル自然言語処理（NLP）において、言語の理解と生成の限界を押し進めました。転移学習と適用トランスフォーマーさまざまなダウンストリームNLPタスクへの最新の研究の進歩の主な傾向となっています。

同時に、NLPコミュニティでは、リーダーボードを占有する事前トレーニング済みの巨大な言語モデルの研究価値に関して論争があります。多くのAI専門家が同意するアンナ・ロジャースの声明より多くのデータと計算能力を使用するだけで最先端の結果を得るのは研究ニュースではないこと、他のNLPオピニオンリーダーは、たとえば可能性など、現在のトレンドのいくつかのポジティブな瞬間を指摘します基本的な制限を見ることの現在のパラダイムの。

とにかく、NLP言語モデルの最新の改善は、計算能力の大幅な向上だけでなく、高性能を維持しながらモデルを軽量化する独創的な方法の発見によっても推進されているようです。

言語モデリングの最新のブレークスルーを最新の状態に保つために、過去数年間に導入された主要な言語モデルを特集した研究論文をまとめました。

AI Researchメーリングリストを購読するこの記事の下部に、新しい要約がリリースされたときに警告が表示されます。

読み飛ばしたい場合は、以下の特集記事をご覧ください。

重要な事前トレーニング済み言語モデル

1. BERT：言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova

元の要約

トランスフォーマーからの双方向エンコーダー表現を表すBERTと呼ばれる新しい言語表現モデルを紹介します。最近の言語表現モデルとは異なり、BERTは、すべてのレイヤーで左と右の両方のコンテキストを共同で調整することにより、深い双方向表現を事前トレーニングするように設計されています。その結果、事前トレーニング済みのBERT表現をXNUMXつの追加出力レイヤーで微調整して、実質的なタスクなしで、質問応答や言語推論などの幅広いタスクに対応する最先端のモデルを作成できます。特定のアーキテクチャの変更。

BERTは概念的に単純で、経験的に強力です。 GLUEベンチマークを80.4％（7.6％の絶対改善）、MultiNLI精度を86.7（5.6％の絶対改善）、SQuAD v1.1の質問にプッシュすることを含む、1の自然言語処理タスクに関する新しい最先端の結果を取得します。テストF93.2に1.5（2.0％の絶対的な改善）で答え、人間のパフォーマンスをXNUMX％上回る。

私たちの要約

Google AIチームが自然言語処理（NLP）の新しい最先端モデルを提示– ベルトまたは Bidirection Eエンコーダー Rからの表現 T悪党。その設計により、モデルは各単語の左側と右側の両方からコンテキストを考慮することができます。 BERTは概念的には単純ですが、質問応答、名前付きエンティティの認識、その他の一般的な言語理解に関連するタスクを含む、XNUMXのNLPタスクに関する新しい最先端の結果を取得します。

2018年のトップNLPリサーチペーパー（Maya Yao TOPBOTSにより要約）

この論文の核となる考えは何ですか？

入力トークンのパーセンテージをランダムにマスクすることにより、深い双方向モデルをトレーニングします。したがって、言葉は間接的に「自分自身を見る」ことができます.
また、単純なバイナリ分類タスクを作成して文の関係モデルを事前トレーニングし、文Bが文Aの直後に続くかどうかを予測することで、BERTが文間の関係をよりよく理解できるようにします。
大量のデータ（24億語のコーパス）で非常に大きなモデル（1024個のTransformerブロック、340個の非表示、3.3M個のパラメーター）をトレーニングします。

重要な成果は何ですか？

以下を含む、11のNLPタスクのための最新技術の進歩：
- 前回の最良の結果からの絶対的な改善の80.4％である7.6％のGLUEスコアを取得します。
- SQuAD 93.2で1.1％の精度を達成し、人間のパフォーマンスを2％上回る。
特定のNLPタスクに適用するために大幅なアーキテクチャの変更を必要としない、事前トレーニング済みのモデルを提案します。

AIコミュニティはどう思いますか？

今後の研究分野とは？

より幅広いタスクでメソッドをテストする。
BERTによってキャプチャされる場合とされない場合がある言語現象の調査。

可能なビジネスアプリケーションは何ですか？

BERTは、次のような幅広いNLP問題を抱える企業を支援する可能性があります。
- より良い顧客体験のためのチャットボット;
- 顧客レビューの分析;
- 関連情報等の検索

実装コードはどこで入手できますか？

2. 言語モデルは教師なしマルチタスク学習者です、Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever

元の要約

自然言語処理タスク (q など)
質問への回答、機械翻訳、読解、要約は通常、タスク固有のデータセットに対する教師あり学習によってアプローチされます。 WebText と呼ばれる数百万の Web ページの新しいデータセットでトレーニングされた場合、言語モデルが明示的な監視なしでこれらのタスクを学習し始めることを示します。ドキュメントと質問を条件にすると、言語モデルによって生成される回答は CoQA データセットで 55 F1 に達します。これは、3 を超えるトレーニングサンプルを使用せずに、ベースラインシステムの 4 つのうち 127,000 つのパフォーマンスと同等またはそれを上回ります。言語モデルの容量はゼロショットタスク転送の成功に不可欠であり、それを増やすとタスク全体で対数線形的にパフォーマンスが向上します。私たちの最大のモデルである GPT-2 は、ゼロショット設定でテストされた 1.5 つの言語モデリングデータセットのうち 7 つで最先端の結果を達成する 8B パラメーターの Transformer ですが、それでも WebText には適合しません。モデルのサンプルにはこれらの改善が反映されており、一貫したテキストの段落が含まれています。これらの発見は、自然に発生するデモンストレーションからタスクの実行を学習する言語処理システムの構築に向けた有望な道を示唆しています。

私たちの要約

このホワイトペーパーでは、OpenAIチームは、事前トレーニング済みの言語モデルを使用して、パラメーターやアーキテクチャを変更せずにダウンストリームタスクを解決できることを示しています。彼らは、1.5万のWebページから削り取られたテキストを含む大規模で多様なデータセットに対して、非常に大きなモデルである45Bパラメータのトランスフォーマをトレーニングしました。モデルはテキストの一貫した段落を生成し、さまざまなタスクで有望で競争力のある、または最先端の結果を達成します。

この論文の核となる考えは何ですか？

大規模で多様なデータセットで言語モデルをトレーニングする：
- 人間によってキュレーション/フィルタリングされたWebページを選択する。
- テキストのクリーニングと重複排除、およびすべてのWikipediaドキュメントの削除により、トレーニングとテストセットの重複を最小限に抑えます。
- 結果の ウェブテキスト 8万を少し超えるドキュメントを含むデータセットで、合計40 GBのテキスト。
入力表現にバイトペアエンコーディング（BPE）のバイトレベルバージョンを使用する。
非常に大きなTransformerベースのモデルを構築し、 GPT-2:
- 最大のモデルには、1542Mのパラメーターと48のレイヤーが含まれます。
- モデルは主に OpenAIGPT 変更の少ないモデル（語彙とコンテキストのサイズの拡大、初期化の変更など）。

重要な成果は何ですか？

7つのテスト済み言語モデリングデータセットのうち8つで最新の結果を取得します。
常識的な推論、質問応答、読解、および翻訳で非常に有望な結果を示す。
首尾一貫したテキストの生成、たとえば、話すユニコーンの発見.

AIコミュニティはどう思いますか？

「研究者たちは興味深いデータセットを構築し、現在の標準的なツールを適用して印象的なモデルを生み出しました。」 – ザカリー・C・リプトン、カーネギーメロン大学の助教授。

今後の研究分野とは？

次のようなベンチマークの微調整の調査 デカNLP & GLUE GPT-2の巨大なデータセットと容量がBERTの単方向表現の非効率性を克服できるかどうかを確認します。

可能なビジネスアプリケーションは何ですか？

実用的なアプリケーションの点では、微調整なしのGPT-2モデルのパフォーマンスは実用的とはほど遠いですが、非常に有望な研究方向を示しています。

実装コードはどこで入手できますか？

OpenAIは当初、2Mパラメータを持つGPT-117のより小さなバージョンのみをリリースすることを決定しました。のより大きなモデルをリリースしないという決定「大規模な言語モデルが大規模な欺瞞的、偏見のある、または虐待的な言語を生成するために使用されているという懸念のため」と見なされました。
XNUMX月、ついにOpenAI リリースその最大の1.5Bパラメータモデル。コードが利用可能ですここ.
ハグ顔 導入した PyTorch実装最初にリリースされたGPT-2モデルの。

3. XLNet：言語理解のための一般化された自己回帰事前トレーニング、Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov、Quoc V. Le

元の要約

双方向コンテキストのモデリング機能により、BERTのような自動エンコーディングベースの事前トレーニングをノイズ除去すると、自己回帰言語モデリングに基づく事前トレーニングアプローチよりも優れたパフォーマンスが実現します。ただし、マスクを使用して入力を破損することに依存しているため、BERTはマスクされた位置間の依存関係を無視し、トレーニング前の微調整の不一致の影響を受けます。これらの長所と短所に照らして、XLNetを提案します。これは、（1）因数分解順序のすべての順列に対して期待される可能性を最大化することで双方向コンテキストの学習を可能にし、（2）その自己回帰のおかげでBERTの制限を克服する一般化された自己回帰事前トレーニング方法です処方。さらに、XLNetは、最先端の自己回帰モデルであるTransformer-XLのアイデアを事前トレーニングに統合します。経験的に、XLNetは20のタスクでBERTを上回り、多くの場合、マージンが大きく、質問への回答、自然言語の推論、感情分析、ドキュメントのランキングなど、18のタスクで最先端の結果を達成しています。

私たちの要約

カーネギーメロン大学とGoogleの研究者は、読解、テキスト分類、感情分析などの自然言語処理（NLP）タスク用の新しいモデルXLNetを開発しました。 XLNetは、自己回帰言語モデリング（例：Transformer-XL）と自動エンコード（例：BERT）の両方の制限を回避しながら、それらの最良の部分を活用する一般化された自己回帰事前トレーニング手法です。実験は、新しいモデルがBERTとTransformer-XLの両方を上回り、18のNLPタスクで最先端のパフォーマンスを実現することを示しています。

この論文の核となる考えは何ですか？

XLNetは、 BERTの双方向機能 Transformer-XLの自己回帰テクノロジー:
- BERTと同様に、XLNetは双方向のコンテキストを使用します。つまり、特定のトークンの前後の単語を調べて、それが何であるかを予測します。この目的のために、XLNetは、シーケンスの期待される対数尤度を最大化します。 可能なすべての順列 因数分解の順序の。
- 自己回帰言語モデルとして、XLNetはデータの破損に依存しないため、マスキングによるBERTの制限を回避できます。
事前トレーニングのアーキテクチャ設計をさらに改善するために、XLNetは、Transformer-XLのセグメント反復メカニズムと相対エンコーディングスキームを統合しています。

重要な成果は何ですか？

XLnetは20のタスクでBERTよりも、多くの場合マージンが優れています。
新しいモデルは、質問応答、自然言語推論、感情分析、ドキュメントランキングなど、18のNLPタスクで最先端のパフォーマンスを実現します。

AIコミュニティはどう思いますか？

論文は、人工知能の主要な会議であるNeurIPS 2019での口頭発表に採択されました。
「王は死んだ。王様万歳。 BERTの統治は終わりを迎えるかもしれません。 CMUとGoogleの人々による新しいモデルであるXLNetは、20のタスクでBERTよりも優れています。」 – ディープマインドの研究科学者、セバスチャンルーダー.
「XLNetはおそらくしばらくの間、どのNLP開業医にとっても重要なツールになるでしょう…[それは] NLPにおける最新の最先端技術です。」 – 栗田敬太、カーネギーメロン大学.

今後の研究分野とは？

XLNetをコンピュータービジョンや強化学習などの新しい領域に拡張する。

可能なビジネスアプリケーションは何ですか？

XLNetは、次のような幅広いNLP問題を抱える企業を支援します。
- 第一線のカスタマーサポートまたは製品のお問い合わせへの回答のためのチャットボット。
- 顧客のレビューとソーシャルメディアに基づいてブランドの認知度と認知度を評価するための感情分析。
- 文書ベースまたはオンラインなどで関連情報を検索します。

実装コードはどこで入手できますか？

4. RoBERTa：ロバストに最適化されたBERT事前トレーニングアプローチ、Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov

元の要約

言語モデルの事前トレーニングによりパフォーマンスが大幅に向上しましたが、異なるアプローチを注意深く比較することは困難です。トレーニングは計算コストが高く、サイズの異なるプライベートデータセットで行われることが多く、これから説明するように、ハイパーパラメータの選択は最終結果に大きな影響を与えます。多くの主要なハイパーパラメーターとトレーニングデータサイズの影響を注意深く測定するBERT事前トレーニング（Devlin et al。、2019）のレプリケーション研究を紹介します。 BERTは大幅に訓練されておらず、それ以降に公開されたすべてのモデルのパフォーマンスと同等またはそれを超える可能性があることがわかりました。私たちの最高のモデルは、GLUE、RACE、SQuADで最先端の結果を実現します。これらの結果は、以前に見過ごされていた設計選択の重要性を強調し、最近報告された改善の原因について疑問を投げかけています。モデルとコードをリリースします。

私たちの要約

自然言語処理モデルは、事前トレーニング方法の導入により大幅な進歩を遂げましたが、トレーニングの計算コストにより、複製とパラメーターの微調整が困難になりました。この研究では、Facebook AIとワシントン大学の研究者が、トランスフォーマー（BERT）モデルからのGoogleの双方向エンコーダー表現のトレーニングを分析し、パフォーマンスを向上させるトレーニング手順に対するいくつかの変更を特定しました。具体的には、研究者はトレーニングに新しいより大きなデータセットを使用し、はるかに多くの反復でモデルをトレーニングし、次のシーケンス予測トレーニング目標を削除しました。結果として得られた最適化モデルであるRoBERTa（Robustly Optimized BERTアプローチ）は、GLUEベンチマークで最近導入されたXLNetモデルのスコアと一致しました。

この論文の核となる考えは何ですか？

Facebook AI研究チームは、BERTが大幅に訓練されていないことを発見し、RoBERTaと呼ばれるトレーニングの改善されたレシピを提案しました。
- 追加データ：BERTのトレーニングに最初に使用された160GBデータセットの代わりに16GBのテキスト。
- より長いトレーニング：反復回数を100Kから300Kに増やし、さらに500Kに増やします。
- 大きなバッチ：元のBERTベースモデルでは8ではなく256K。
- サイズが50Kの文字レベルのBPEボキャブラリーの代わりに、30Kのサブワード単位を持つより大きなバイトレベルのBPEボキャブラリー。
- トレーニング手順から次のシーケンス予測目的を削除します。
- トレーニングデータに適用されるマスキングパターンを動的に変更する。

重要な成果は何ですか？

RoBERTaは、一般的な言語理解評価（GLUE）ベンチマークの個々のすべてのタスクでBERTよりも優れています。
新しいモデルは、GLUEベンチマークで最近導入されたXLNetモデルと一致し、XNUMXつの個別タスクのうちXNUMXつに新しい最先端技術を設定します。

今後の研究分野とは？

より洗練されたマルチタスク微調整手順を組み込みます。

可能なビジネスアプリケーションは何ですか？

RoBERTaのような大きな事前トレーニング済みの言語フレームワークは、対話システム、質問応答、ドキュメント分類などを含む幅広い下流タスクのビジネス環境で活用できます。

実装コードはどこで入手できますか？

この調査で使用されたモデルとコードは、 GitHubの.

5. ALBERT：言語表現の自己教師あり学習のためのライトBERT、Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Pyyush Sharma、Radu Soricut

元の要約

自然言語表現を事前トレーニングするときにモデルサイズを大きくすると、多くの場合、ダウンストリームタスクのパフォーマンスが向上します。ただし、ある時点で、GPU / TPUのメモリ制限、トレーニング時間が長くなり、モデルが予期せず劣化するため、さらなるモデルの増加が難しくなります。これらの問題に対処するために、メモリ消費量を削減し、BERTのトレーニング速度を向上させるXNUMXつのパラメーター削減手法を紹介します。包括的な経験的証拠は、提案された方法が元のBERTに比べてはるかに優れたスケールのモデルにつながることを示しています。また、文間のコヒーレンスのモデリングに焦点を当てた自己監視損失を使用し、それが一貫して、複数の文の入力による下流のタスクに役立つことを示しています。その結果、私たちの最高のモデルは、GLT、RACE、およびSQuADベンチマークで新しい最先端の結果を確立し、BERT-largeに比べてパラメーターを少なくしています。

私たちの要約

Googleリサーチチームは、事前トレーニング済みの言語モデルのサイズが継続的に増大するという問題に対処します。これにより、メモリの制限、トレーニング時間が長くなり、予期せずパフォーマンスが低下することがあります。具体的には、 A Lite BERT（アルバート） XNUMXつのパラメータ削減手法を組み込んだアーキテクチャ： 因数分解埋め込みパラメーター化 & クロスレイヤーパラメータの共有. さらに、提案されたアプローチには、 文順予測 文間の一貫性を改善するため。実験は、ALBERTの最適なバージョンがGLUE、RACE、およびSQuADベンチマークに新しい最先端の結果を設定する一方で、BERT-largeよりもパラメーターが少ないことを示しています。

この論文の核となる考えは何ですか？

利用可能なハードウェアのメモリ制限、長いトレーニング時間、パラメータ数の増加によるモデルパフォーマンスの予期しない低下のため、言語モデルをさらに大きくして改善することは合理的ではありません。
この問題に対処するために、研究者は ALBERT XNUMXつのパラメータ削減手法を組み込んだアーキテクチャ：
- 因数分解埋め込みパラメーター化、隠れ層のサイズはデコによって語彙埋め込みのサイズから分離されています。
  大きな語彙埋め込み行列を XNUMX つの小さな行列に変換します。
- クロスレイヤーパラメータの共有 ネットワークの深さとともにパラメーターの数が増えるのを防ぐため。
ALBERTのパフォーマンスは、自己監視損失を導入することでさらに向上します。 文順予測 文間の一貫性に関するBERTの制限に対処するため。

重要な成果は何ですか？

導入されたパラメーター削減手法を使用すると、元のBERTの大規模モデルに比べてパラメーターが18倍少なく、トレーニングが1.7倍速いALBERT構成では、パフォーマンスがわずかに低下します。
非常に大きなALBERT構成は、BERT-largeよりもパラメーターが少ないにもかかわらず、次のようにして、現在のすべての最先端の言語モードよりも優れています。
- RACEベンチマークで89.4％の精度。
- GLUEベンチマークで89.4スコア。そして
- SQuAD 1ベンチマークでのF92.2スコアは2.0。

AIコミュニティはどう思いますか？

この論文はICLR 2020に提出されており、 OpenReviewフォーラム、NLPエキスパートのレビューやコメントを見ることができます。査読者は、主に提示された論文を高く評価しています。

今後の研究分野とは？

スパースな注意やブロックの注意などの方法により、トレーニングと推論を高速化します。
ハードサンプルマイニング、より効率的なモデルトレーニング、およびその他のアプローチにより、モデルのパフォーマンスをさらに向上させます。

可能なビジネスアプリケーションは何ですか？

ALBERT言語モデルをビジネス環境で活用して、チャットボットのパフォーマンス、感情分析、ドキュメントマイニング、テキスト分類など、さまざまなダウンストリームタスクのパフォーマンスを向上させることができます。

実装コードはどこで入手できますか？

ALBERTの元の実装は、 GitHubの.
ALBERTのTensorFlow実装も利用可能ですここ.
ALBERTのPyTorch実装が見つかりますここ & ここ.

6. 統合されたテキスト間トランスフォーマーを使用した転移学習の限界の調査、Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu

元の要約

トランスファーラーニングは、下流のタスクで微調整される前に、データが豊富なタスクでモデルが最初に事前トレーニングされる、自然言語処理（NLP）の強力な手法として登場しました。転移学習の効果により、多様なアプローチ、方法論、実践が生まれました。このホワイトペーパーでは、すべての言語の問題をテキスト間形式に変換する統合フレームワークを導入することで、NLPの転移学習手法の全体像を探ります。私たちの体系的な研究は、事前トレーニングの目的、アーキテクチャ、ラベルのないデータセット、転送アプローチ、および数十の言語理解タスクの他の要因を比較します。私たちの調査から得られた洞察をスケールと新しい「巨大なクリーンクロールコーパス」と組み合わせることで、要約、質問応答、テキスト分類などをカバーする多くのベンチマークで最先端の結果を達成しています。 NLPの転移学習に関する将来の作業を容易にするために、データセット、事前トレーニング済みモデル、およびコードをリリースします。

私たちの要約

Googleの研究チームは、NLPで学習を移転するための統一されたアプローチを提案し、新しい最先端の技術をフィールドに設定することを目標としています。この目的のために、彼らは各NLP問題を「テキスト対テキスト」の問題として扱うことを提案しています。このようなフレームワークにより、要約、感情分析、質問応答、機械翻訳など、さまざまなタスクに同じモデル、目的、トレーニング手順、およびデコードプロセスを使用できます。研究者たちはモデルを テキスト間転送トランスフォーマー（T5） そして、Webスクレイピングデータの大規模なコーパスでそれをトレーニングして、いくつかのNLPタスクに関する最先端の結果を取得します。

この論文の核となる考えは何ですか？

この論文にはいくつかの重要な貢献があります。
- 既存の手法を調査および比較することにより、NLPフィールドがどこにあるのかについて包括的な視点を提供します。
- すべてのNLP問題を問題として扱うことを提案することにより、NLPにおける転移学習への新しいアプローチを紹介します テキストからテキストへ 仕事：
  - モデルは、元の入力文に追加されたタスク固有のプレフィックスのおかげで、どのタスクを実行する必要があるかを理解します（たとえば、「英語をドイツ語に翻訳：」、「要約：」）。
- 数百ギガバイトのクリーンなWeb削り出しの英語のテキストで構成される新しいデータセット、 巨大なクリーンクロールコーパス（C4）.
- 呼び出される大きな（最大11Bパラメーター）モデルのトレーニング テキスト間転送トランスフォーマー（T5） C4データセット。

重要な成果は何ですか？

5億のパラメーターを持つT11モデルは、以下を含む、検討された17のタスクのうち24のタスクで最先端のパフォーマンスを達成しました。
- a GLUE CoLA、RTE、およびWNLIタスクのパフォーマンスが大幅に向上した89.7のスコア。
- の完全一致スコア90.06 スクワッドデータセット;
- a 強力接着剤スコアは88.9で、これは以前の最先端の結果（84.6）よりも大幅に改善されており、人間のパフォーマンス（89.8）に非常に近いものです。
- 上のROUGE-2-Fスコア21.55 CNN /デイリーメール抽象的要約タスク。

今後の研究分野とは？

より安価なモデルでより強力なパフォーマンスを達成する方法を研究します。
より効率的な知識抽出技術の探求。
言語に依存しないモデルをさらに調査します。

可能なビジネスアプリケーションは何ですか？

導入されたモデルには数十億のパラメーターがあり、ビジネス環境に適用するには重すぎる可能性がありますが、提示されたアイデアは、要約、質問応答、感情分析など、さまざまなNLPタスクのパフォーマンスを向上させるために使用できます。

実装コードはどこで入手できますか？

事前トレーニング済みモデルとデータセットおよびコードがリリースされます GitHubの.

7. 言語モデルはほとんどショットの学習者ではありません、トム・B・ブラウン、ベンジャミン・マン、ニック・ライダー、メラニー・サブビア、ジャレッド・カプラン、プラフラ・ダリワル、アルビンド・ニーラカンタン、プラナフ・シャム、ギリッシュ・サストリー、アマンダ・アスケル、サンディニ・アガルワル、アリエル・ハーバート・ヴォス、グレッチェン・クルーガー、トム・ヘニハン、レウォン・チャイルド著、アディティア・ラメシュ、ダニエル・M・ジーグラー、ジェフリー・ウー、
クレメンス・ウィンター、クリストファー・ヘッセ、マーク・チェン、エリック・シグラー、マテウシュ・リトウィン、スコット・グレイ、ベンジャミン・チェス、ジャック・クラーク、クリストファー・バーナー、サム・マッキャンドリッシュ、アレック・ラドフォード、イリヤ・サツケヴァー、ダリオ・アモデイ

元の要約

最近の作業では、テキストの大規模なコーパスを事前にトレーニングした後、特定のタスクを微調整することで、多くのNLPタスクとベンチマークが大幅に向上することが示されています。通常、アーキテクチャではタスクに依存しませんが、この方法では、数千または数万の例のタスク固有の微調整データセットが必要です。対照的に、人間は一般に、ほんの数例または簡単な指示から新しい言語タスクを実行できます。これは、現在のNLPシステムではまだほとんど実行に苦労しています。ここでは、言語モデルをスケールアップすると、タスクにとらわれない数ショットのパフォーマンスが大幅に向上し、場合によっては、以前の最先端の微調整アプローチで競争力に達することさえあることを示します。具体的には、3億のパラメーターを持つ自己回帰言語モデルであるGPT-175をトレーニングし、以前の非スパース言語モデルの10倍にし、数ショットの設定でそのパフォーマンスをテストします。すべてのタスクについて、GPT-3は勾配の更新や微調整なしで適用され、タスクと数ショットのデモンストレーションは、モデルとのテキストの相互作用によって純粋に指定されます。 GPT-3は、翻訳、質問応答、クローズタスクなど、多くのNLPデータセットで強力なパフォーマンスを実現します。また、単語のスクランブル解除など、オンザフライの推論やドメイン適応を必要とするいくつかのタスクで、文、または3桁の算術を実行します。同時に、GPT-3の数ショットの学習がまだ苦労しているデータセットや、GPT-3が大規模なWebコーパスのトレーニングに関連する方法論の問題に直面しているデータセットも特定します。最後に、GPT-3は、人間の評価者が人間によって書かれた記事と区別するのが難しいニュース記事のサンプルを生成できることを発見しました。この発見と一般的なGPT-3のより広範な社会的影響について議論します。

私たちの要約

OpenAIの研究チームは、新しい言語タスクごとにラベル付きデータセットが必要なため、言語モデルの適用性が制限されるという事実に注目しています。考えられるタスクは多岐にわたり、ラベルの付いた大規模なトレーニングデータセットを収集するのは難しい場合が多いことを考慮して、研究者は、タスクにとらわれない数ショットのパフォーマンスを向上させるために言語モデルをスケールアップする代替ソリューションを提案します。彼らは、175Bパラメーターの自己回帰言語モデルをトレーニングすることによってソリューションをテストします。 GPT-3、および3を超えるNLPタスクでのパフォーマンスを評価します。数ショット学習、ワンショット学習、およびゼロショット学習での評価は、GPT-XNUMXが有望な結果を達成し、場合によっては微調整されたモデルによって達成される最先端技術を上回ることを示しています。

この論文の核となる考えは何ですか？

　 GPT-3 モデルは、変更された初期化、事前正規化、および可逆トークン化を含め、GPT-2と同じモデルとアーキテクチャを使用します。
ただし、GPT-2とは対照的に、トランスフォーマーのレイヤーでは、次のように、密な注意パターンと局所的にバンド化されたまばらな注意パターンが交互に使用されます。スパーストランスフォーマー.
モデルは、次のXNUMXつの異なる設定で評価されます。
- 数ショットの学習、モデルに推論時にタスクのいくつかのデモンストレーション（通常は10から100）が与えられているが、重みの更新が許可されていない場合。
- ワンショット学習、タスクの自然言語の説明とともに、XNUMXつのデモンストレーションのみが許可されている場合。
- ゼロショット学習、デモンストレーションが許可されておらず、モデルがタスクの自然言語記述にのみアクセスできる場合。

重要な成果は何ですか？

微調整なしのGPT-3モデルは、多くのNLPタスクで有望な結果を達成し、その特定のタスク用に微調整された最先端のモデルを時折上回ります。
- ソフトウェア設定ページで、下図のように CoQA ベンチマーク、微調整されたSOTAによって達成された81.5 F1スコアと比較して、ゼロショット設定で84.0 F1、ワンショット設定で85.0 F1、および数ショット設定で90.7F1。
- ソフトウェア設定ページで、下図のように トリビアQA ベンチマーク、ゼロショット設定で64.3％の精度、ワンショット設定で68.0％、および数ショット設定で71.2％であり、最先端技術（68％）を3.2％上回っています。
- ソフトウェア設定ページで、下図のように ランバダ データセット、ゼロショット設定で76.2％の精度、ワンショット設定で72.5％、および数ショット設定で86.4％であり、最先端技術（68％）を18％上回っています。
人間の評価によると、175BパラメータGPT-3モデルによって生成されたニュース記事は、実際のニュース記事と区別するのが困難です（精度は約52％のチャンスレベルをわずかに上回っています）。

今後の研究分野とは？

トレーニング前のサンプル効率の改善。
数ショット学習がどのように機能するかを探る。
実世界のアプリケーション向けに管理可能なサイズまでの大規模モデルの蒸留。

AIコミュニティはどう思いますか？

「GPT-3の誇大宣伝はあまりにも多すぎます。それは印象的です（素晴らしい褒め言葉に感謝します！）が、それでも深刻な弱点があり、時には非常にばかげた間違いを犯します。 AIは世界を変えようとしていますが、GPT-3はごく初期の垣間見ることができます。まだ理解していないことがたくさんあります。」 – OpenAIのCEO兼共同創設者であるSamAltman.
「GPT-3からイスラム教徒に関するテキストを生成するのがどれほど難しいかということにショックを受けました。暴力や殺害とは何の関係もありません…」– GradioのCEO兼創設者であるAbubakarAbid.
"番号。 GPT-3 は、それが話している世界を根本的に理解していません。コーパスをさらに増やすと、より信頼できるパスティーシュを生成できますが、世界の理解の根本的な欠如を修正することはできません。 GPT-4 のデモでは、引き続き人間によるチェリーピッキングが必要です。」 – Robust.aiのCEO兼創設者であるGaryMarcus.
「GPT3の壮大なパフォーマンスを未来に外挿すると、生命、宇宙、そしてすべてに対する答えは、わずか4.398兆のパラメーターであることがわかります。」 – チューリング賞受賞者、ジェフリーヒントン.

可能なビジネスアプリケーションは何ですか？

175B パラメーターのモデルは、リソース要件が非現実的であるため、実際のビジネスの問題に適用するのは困難ですが、研究者がこのモデルを実行可能なサイズに絞り込むことができれば、質問応答を含む幅広い言語タスクに適用できます。そして広告コピーの生成。

実装コードはどこで入手できますか？

コード自体は利用できませんが、GPT-2048からの無条件のフィルタリングされていない3トークンのサンプルと一緒にいくつかのデータセット統計がリリースされています GitHubの.

8. ELECTRA：ジェネレーターではなくディスクリミネーターとしての事前トレーニングテキストエンコーダー、Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning

元の要約

BERT などのマスク言語モデリング (MLM) 事前トレーニングメソッドは、一部のトークンを [MASK] に置き換えることによって入力を破損し、モデルをトレーニングして元のトークンを再構築します。 W
ダウンストリームの NLP タスクに転送すると良好な結果が得られますが、通常、効果を発揮するには大量のコンピューティングが必要です。代わりに、置き換えられたトークンの検出と呼ばれる、よりサンプル効率の高い事前トレーニングタスクを提案します。私たちのアプローチでは、入力をマスクするのではなく、いくつかのトークンを小規模な生成ネットワークからサンプリングされたもっともらしい代替値に置き換えることによって入力を破壊します。次に、破損したトークンの元の ID を予測するモデルをトレーニングする代わりに、破損した入力内の各トークンがジェネレーターサンプルで置き換えられたかどうかを予測する識別モデルをトレーニングします。徹底的な実験により、この新しい事前トレーニングタスクは、マスクされた小さなサブセットだけではなく、すべての入力トークンに対して定義されるため、MLM よりも効率的であることが実証されました。結果として、私たちのアプローチによって学習されたコンテキスト表現は、同じモデルサイズ、データ、コンピューティングを前提として BERT によって学習されたものよりも大幅に優れています。この利益は、小型モデルで特に大きくなります。たとえば、4 つの GPU でモデルを 30 日間トレーニングすると、GLUE 自然言語理解ベンチマークで GPT (1 倍のコンピューティングを使用してトレーニング) を上回るパフォーマンスが得られます。私たちのアプローチは大規模でもうまく機能し、RoBERTa や XLNet のコンピューティングの 4/XNUMX 未満を使用しながら同等のパフォーマンスを発揮し、同じ量のコンピューティングを使用した場合にはそれらを上回るパフォーマンスを発揮します。

私たちの要約

BERTやXLNetなどの一般的な言語モデルの事前トレーニングタスクには、ラベルのない入力の小さなサブセットをマスキングし、ネットワークをトレーニングしてこの元の入力を復元することが含まれます。このアプローチは非常にうまく機能しますが、トークンのごく一部（通常は約15％）からしか学習しないため、この方法は特にデータ効率がよくありません。別の方法として、スタンフォード大学とGoogle Brainの研究者は、 置き換えられたトークンの検出。マスキングの代わりに、彼らはいくつかのトークンを小さな言語モデルによって生成されたもっともらしい代替物で置き換えることを提案します。次に、事前訓練された弁別器を使用して、各トークンがオリジナルであるか置換であるかを予測します。その結果、モデルは小さなマスクされた部分ではなく、すべての入力トークンから学習するため、計算効率が大幅に向上します。実験により、導入されたアプローチにより、ダウンストリームNLPタスクのトレーニングが大幅に高速化され、精度が向上することが確認されています。

この論文の核となる考えは何ですか？

マスクされた言語モデリングに基づく事前トレーニング方法は、学習のためにトークンのごく一部しか使用しないため、計算上非効率的です。
研究者は、と呼ばれる新しい事前トレーニングタスクを提案します 置き換えられたトークンの検出、どこ：
- 一部のトークンは、小規模なサンプルから置き換えられます ジェネレータ 通信網;
- モデルは、 弁別器 元のトークンと置き換えられたトークンを区別します。
導入されたアプローチは、 エレクトロニクス (E効率的に L稼ぐ Encoderその C身をかがめる Tおけん R配置 A正確に）：
- マスクされた小さなサブセットではなく、すべての入力トークンからモデルが学習できるようにします。
- 置換のためのトークンを生成するジェネレータは最尤でトレーニングされるため、GANとの類似性にもかかわらず、は敵対的ではありません。

重要な成果は何ですか？

実際のデータと否定的なサンプルに挑戦するという差別的なタスクは、言語表現学習のための既存の生成方法よりも効率的であることを示しています。
事前トレーニングコンピューティングをあまり必要とせずに、最先端のアプローチを大幅に上回るモデルを導入します。
- ELECTRA-Smallは79.9のGLUEスコアを取得し、75.1のスコアを持つ比較的小さなBERTモデルと78.8のスコアを持つはるかに大きいGPTモデルよりも優れています。
- XLNetおよびRoBERTaに匹敵するパフォーマンスを発揮するELECTRAモデルは、事前トレーニングコンピューティングの25％のみを使用します。
- ELECTRA-Largeは、GLUEおよびSQuADベンチマークで最新の代替モデルより優れており、事前のトレーニングコンピューティングをほとんど必要としません。

AIコミュニティはどう思いますか？

論文が選ばれたプレゼンテーション ICLR 2020では、ディープラーニングの主要な会議です。

可能なビジネスアプリケーションは何ですか？

計算効率が高いため、ELECTRAアプローチは、事前に訓練されたテキストエンコーダーのアプリケーションをビジネスの実践者がより利用しやすくすることができます。

実装コードはどこで入手できますか？

オリジナルのTensorFlow実装と事前トレーニング済みの重みがリリースされます GitHubの.

9. DeBERTa：注意を解きほぐしたデコード強化BERT、Pengcheng He、Xiaodong Liu、Jianfeng Gao、WeizhuChenによる

元の要約

事前にトレーニングされたニューラル言語モデルの最近の進歩により、多くの自然言語処理（NLP）タスクのパフォーマンスが大幅に向上しました。この論文では、0.9つの新しい技術を使用してBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTa（注意を解きほぐしたデコード強化BERT）を提案します。 90.2つ目は、解きほぐされた注意メカニズムです。各単語は、その内容と位置をそれぞれエンコードする91.1つのベクトルを使用して表され、単語間の注意の重みは、それぞれの内容と相対位置の解きほぐされた行列を使用して計算されます。次に、拡張マスクデコーダーを使用して、デコードレイヤーに絶対位置を組み込み、モデルの事前トレーニングでマスクされたトークンを予測します。さらに、モデルの一般化を改善するための微調整には、新しい仮想敵対訓練方法が使用されます。これらの手法により、モデルの事前トレーニングの効率と、自然言語理解（NLU）と自然言語生成（NLG）の両方のダウンストリームタスクのパフォーマンスが大幅に向上することを示します。 RoBERTa-Largeと比較して、トレーニングデータの半分でトレーニングされたDeBERTaモデルは、幅広いNLPタスクで一貫してパフォーマンスが向上し、SQuADv2.0でMNLIが+ 2.3％（88.4％対90.7％）向上しました。 + 3.6％（83.2％vs。86.8％）およびRACE + 48％（1.5％vs。2019％）。特に、89.9億のパラメーターを持つ89.8の変換レイヤーで構成されるより大きなバージョンをトレーニングすることでDeBERTaをスケールアップします。大幅なパフォーマンスの向上により、単一のDeBERTaモデルがSuperGLUEベンチマーク（Wang et al。、6a）で初めてマクロ平均スコア（2021対90.3）で人間のパフォーマンスを上回り、アンサンブルDeBERTaモデルがその上に位置します。 89.8年XNUMX月XNUMX日現在のSuperGLUEリーダーボードは、人間のベースラインをかなりの差で上回っています（XNUMX対XNUMX）。

私たちの要約

Microsoft Researchの著者は、BERTに比べてXNUMXつの主な改善点、つまりDeBERTaを提案しています。 解きほぐされた注意 と 強化されたマスクデコーダ。 DeBERTa には、コンテンツと相対位置をそれぞれエンコードすることによってトークン/単語を表す XNUMX つのベクトルがあります。 DeBERTa のセルフアテンションメカニズムは、コンテンツからコンテンツ、コンテンツから位置、さらに位置からコンテンツのセルフアテンションを処理しますが、BERT のセルフアテンションは最初の XNUMX つのコンポーネントのみを持つことに相当します。著者らは、一連のトークンにおける相対的な位置を包括的にモデル化するためには、位置からコンテンツへの自己注意も必要であると仮説を立てています。さらに、DeBERTa には強化されたマスクデコーダが装備されており、トークン/ワードの絶対位置が
も相対情報とともにデコーダに与えられます。 DeBERTa のスケールアップされた XNUMX つの亜種が、SuperGLUE ベンチマークで初めて人間のベースラインを超えました。アンサンブル DeBERTa は、この出版時点で SuperGLUE で最高のパフォーマンスを発揮するメソッドです。

この論文の核となる考えは何ですか？

解きほぐされた注意：元のBERTでは、コンテンツの埋め込みと位置の埋め込みは自己注意の前に追加され、自己注意はコンテンツと位置ベクトルの出力にのみ適用されます。著者は、これはコンテンツからコンテンツへの自己注意とコンテンツから位置への自己注意のみを説明し、位置情報を完全にモデル化するには位置からコンテンツへの自己注意も必要であると仮定しています。 DeBERTaには、コンテンツと位置を表す1つの別個のベクトルがあり、すべての可能なペア、つまり、コンテンツとコンテンツ、コンテンツと位置、位置とコンテンツ、および位置と位置の間で自己注意が計算されます。位置間の自己注意は常に些細なことXNUMXであり、情報がないため、計算されません。
強化されたマスクデコーダ：著者は、主語-目的語の特徴付けなどの構文上のニュアンスを理解するために、モデルには絶対位置情報が必要であると仮定しています。そのため、DeBERTaには、相対位置情報とともに絶対位置情報が提供されます。絶対位置の埋め込みは、softmax層の直前の最後のデコーダー層に提供され、出力を提供します。

スケール不変の微調整：と呼ばれる仮想敵対訓練アルゴリズム スケール不変の微調整 一般化を高めるための正則化方法として使用されます。単語の埋め込みは、わずかに摂動され、摂動されていない単語の埋め込みと同じ出力を生成するようにトレーニングされます。単語埋め込みベクトルは、確率的ベクトル（ベクトル内の要素の合計が1）に正規化され、モデル内のパラメーターの数に対して不変になります。

重要な成果は何ですか？

現在の最先端の方法であるRoBERTa-Largeと比較すると、トレーニングデータの半分でトレーニングされたDeBERTAモデルは次のことを実現します。
- MNLIの精度が+ 0.9％向上（91.1％対90.2％）、
- SQuADv2.3の精度が+ 2.0％向上（90.7％対88.4％）、
- RACEの精度が+ 3.6％向上（86.8％対83.2％）
DeBERTaの単一のスケールアップされたバリアントは、SuperGLUEベンチマークで初めて人間のベースラインを超えました（89.9対89.8）。アンサンブルDeBERTaは、本書の発行時点でSuperGLUEで最高のパフォーマンスを発揮する方法であり、人間のベースラインを適切なマージンで上回っています（90.3対89.8）。

AIコミュニティはどう思いますか？

この論文は、深層学習の主要会議の 2021 つである ICLR XNUMX に採択されました。

今後の研究分野とは？

Enhanced Mask Decoder（EMD）フレームワークを使用して、位置に加えて他の有用な情報を導入することにより、事前トレーニングを改善します。
スケール不変の微調整（SiFT）のより包括的な研究。

可能なビジネスアプリケーションは何ですか？

事前にトレーニングされた言語モデリングのコンテキスト表現は、検索、質問応答、要約、仮想アシスタント、チャットボットなどのタスクで使用できます。

実装コードはどこで入手できますか？

DeBERTaの実装はで利用可能です GitHubの.

10. PaLM：パスウェイを使用した言語モデリングのスケーリング、Aakanksha Chowdhery、Sharan Narang、Jacob Devlin、Maarten Bosma、Gaurav Mishra、Adam Roberts、Paul Barham、Hyung Won Chung、Charles Sutton、Sebastian Gehrmann、Parker Schuh、Kensen Shi、Sasha Tsvyashchenko、Joshua Maynez、Abhishek Rao 、Yi Tay、Noam Shazeer、Vinodkumar Prabhakaran、Emily Reif、Nan Du、Ben Hutchinson、Reiner Pope、James Bradbury、Jacob Austin、Michael Isard、Guy Gur-Ari、Pengcheng Yin、Toju Duke、Anselm Levskaya、Sanjay Ghemawat、Sunipa Dev 、Henryk Michalewski、Xavier Garcia、Vedant Misra、Kevin Robinson、Liam Fedus、Denny Zhou、Daphne Ippolito、David Luan、Hyeontaek Lim、Barret Zoph、Alexander Spiridonov、Ryan Sepassi、David Dohan、Shivani Agrawal、Mark Omernick、Andrew M.Dai 、Thanumalayan Sankaranarayana Pillai、Marie Pellat、Aitor Lewkowycz、Erica Moreira、Rewon Child、Oleksandr Polozov、Katherine Lee、Zongwei Zhou、Xuezhi Wang、Brennan Saeta、Mark Diaz、Orhan Firat、Michele Catasta、Jason Wei、Kathy Eck、Jeff Dean、Slav P エトロフ、ノア・フィーデル

元の要約

大規模な言語モデルは、数ショットの学習を使用してさまざまな自然言語タスクで優れたパフォーマンスを実現することが示されています。これにより、モデルを特定のアプリケーションに適合させるために必要なタスク固有のトレーニング例の数が大幅に削減されます。スケールが数ショットの学習に与える影響についての理解を深めるために、540億のパラメーター、高密度にアクティブ化されたTransformer言語モデルをトレーニングしました。これをPathways LanguageModelPaLMと呼びます。複数のTPUポッド間で非常に効率的なトレーニングを可能にする新しいMLシステムであるPathwaysを使用して、6144TPUv4チップでPaLMをトレーニングしました。何百もの言語理解と生成ベンチマークで最先端の数ショットの学習結果を達成することにより、スケーリングの継続的な利点を示します。これらのタスクの多くで、PaLM 540Bは画期的なパフォーマンスを実現し、一連のマルチステップ推論タスクで微調整された最先端のパフォーマンスを上回り、最近リリースされたBIGベンチベンチマークで平均的な人間のパフォーマンスを上回ります。かなりの数のBIGベンチタスクがモデルスケールからの不連続な改善を示しました。これは、最大のモデルにスケールするにつれてパフォーマンスが急激に向上したことを意味します。 PaLMには、多言語タスクとソースコード生成の強力な機能もあります。これは、さまざまなベンチマークで実証されています。さらに、バイアスと毒性に関する包括的な分析を提供し、モデルのスケールに関してトレーニングデータの記憶の程度を研究します。最後に、大規模な言語モデルに関連する倫理的な考慮事項について説明し、潜在的な緩和戦略について説明します。

私たちの要約

Google Researchチームは、BERT、ALBERT、およびT5モデルを使用して、事前にトレーニングされた言語モデルの分野で多大な貢献をしました。彼らの最新の貢献のXNUMXつは経路言語モデル（PaLM）、540億のパラメーター、Pathwaysシステムでトレーニングされた高密度デコーダーのみのTransformerモデル。 Pathwaysシステムの目標は、アクセラレータの分散計算を調整することです。その助けを借りて、チームは複数のTPUv4ポッドにわたって単一のモデルを効率的にトレーニングすることができました。何百もの言語理解および生成タスクに関する実験により、PaLMは、言語理解、言語生成、推論、およびコード関連タスクで実証された画期的な機能を使用して、ほとんどのタスクで最先端の数ショットのパフォーマンスを達成することが実証されました。

この論文の核となる考えは何ですか？

この論文の主なアイデアは、Pathwaysシステムを使用して540億のパラメーター言語モデルのトレーニングをスケーリングすることです。
- チームは、標準データとモデルの並列処理を使用しながら、4 つの Cloud TPU vXNUMX ポッドにわたるデータ並列処理をポッドレベルで使用していました。
  各ポッド内の主義。
- 彼らは、トレーニングを6144 TPU v4チップに拡張することができました。これは、これまでのトレーニングに使用された最大のTPUベースのシステム構成です。
- このモデルは、57.8％のハードウェアFLOP使用率のトレーニング効率を達成しました。これは、著者が主張するように、この規模の大規模言語モデルでこれまでに達成されたトレーニング効率の中で最も高いものです。
PaLMモデルのトレーニングデータには、高品質のWebドキュメント、書籍、ウィキペディア、会話、GitHubコードを含む英語と多言語のデータセットの組み合わせが含まれていました。

重要な成果は何ですか？

多くの実験は、チームが最大のモデルにスケーリングするにつれて、モデルのパフォーマンスが急激に向上することを示しています。
PaLM 540Bは、複数の非常に困難なタスクで画期的なパフォーマンスを達成しました。
- 言語の理解と生成。導入されたモデルは、質問応答タスク、クローズおよび文補完タスク、文脈内読解タスク、常識的な推論タスク、瞬間接着剤タスクを含む28のタスクのうち29で、以前の大規模モデルの数ショットのパフォーマンスを上回りました。もっと。 BIGベンチタスクでのPaLMのパフォーマンスは、原因と結果を区別できるだけでなく、適切なコンテキストでの概念的な組み合わせを理解できることを示しました。
- 推論。 PaLMは、8ショットのプロンプトを使用して、GSM58Kの問題の8％を解決します。これは、数千の難しい小学校レベルの数学の質問のベンチマークであり、GPT-55 3Bモデルを微調整することで達成された以前の最高スコア175％を上回ります。 PaLMは、多段階の論理的推論、世界の知識、および深い言語理解の複雑な組み合わせを必要とする状況で、明示的な説明を生成する機能も示しています。
- コード生成。 PaLMは、トレーニングに使用するPythonコードを12分の50に抑えながら、微調整されたCodex XNUMXBと同等のパフォーマンスを発揮し、大規模な言語モデルが他のプログラミング言語と自然言語データの両方からの学習をより効果的に転送することを確認します。

今後の研究分野とは？

Pathwaysシステムのスケーリング機能を、斬新なアーキテクチャの選択とトレーニングスキームと組み合わせます。

可能なビジネスアプリケーションは何ですか？

最近導入された他の事前トレーニング済み言語モデルと同様に、PaLMは、会話型AI、質問応答、機械翻訳、ドキュメント分類、広告コピーの生成、コードのバグ修正など、さまざまなダウンストリームタスクに適用できます。

実装コードはどこで入手できますか？

これまでのところ、PaLMの公式のコード実装リリースはありませんでしたが、実際には、いくつかのカスタマイズを加えた標準のTransformerモデルアーキテクチャを使用しています。
PaLMからの特定のTransformerアーキテクチャのPytorch実装には、次のURLからアクセスできます。 GitHubの.

これらの研究概要が気に入った場合は、次の記事もご覧ください。

このような要約記事がさらにリリースされたらお知らせします。

10年のNLP向け2022つの主要言語モデル

重要な事前トレーニング済み言語モデル

1. BERT：言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

2. 言語モデルは教師なしマルチタスク学習者です、Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

3. XLNet：言語理解のための一般化された自己回帰事前トレーニング、Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov、Quoc V. Le

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

4. RoBERTa：ロバストに最適化されたBERT事前トレーニングアプローチ、Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

5. ALBERT：言語表現の自己教師あり学習のためのライトBERT、Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Pyyush Sharma、Radu Soricut

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

6. 統合されたテキスト間トランスフォーマーを使用した転移学習の限界の調査、Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

今後の研究分野とは？

AIコミュニティはどう思いますか？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

8. ELECTRA：ジェネレーターではなくディスクリミネーターとしての事前トレーニングテキストエンコーダー、Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

9. DeBERTa：注意を解きほぐしたデコード強化BERT、Pengcheng He、Xiaodong Liu、Jianfeng Gao、WeizhuChenによる

元の要約

私たちの要約

この論文の核となる考えは何ですか？

重要な成果は何ですか？

AIコミュニティはどう思いますか？

今後の研究分野とは？

可能なビジネスアプリケーションは何ですか？

実装コードはどこで入手できますか？

元の要約