ゼファーネットのロゴ

アレンインスティテュートは、ヒューマンインザループ言語モデルベンチマークのリーダーボードであるGENIEを発表しました

日付:

近年、さまざまなAI機能のテストを目的とした自然言語処理(NLP)データセットが爆発的に増加しています。 これらのデータセットの多くには、モデルのランク付けと比較の手段を提供するリーダーボードが付属しています。 しかし、リーダーボードの採用は、これまで、分類や知識検索などの自動評価を備えたセットアップに限定されていました。 言語翻訳などの自然言語生成を必要とするオープンエンドのタスクには、多くの場合正しい解決策があり、モデルの品質を確実に自動的に評価できる手法が欠けています。

これを改善するために、アレン人工知能研究所、ヘブライ大学エルサレム校、ワシントン大学の研究者が作成しました 精霊 リーダー テキスト生成のヒューマンインザループ評価用。 GENIEは、モデル予測をクラウドソーシングプラットフォーム(Amazon Mechanical Turk)に投稿します。そこでは、人間のアノテーターが、流暢さ、正確さ、簡潔さなどに関する事前定義されたデータセット固有のガイドラインに従ってモデル予測を評価します。 さらに、GENIEには、さまざまな自動機械翻訳、質問応答、要約、およびBLEUやROUGEなどの常識的な推論の指標が組み込まれており、人間の評価スコアとの相関性を示しています。

研究者が指摘しているように、人間評価のリーダーボードは、いくつかの新しい課題を提起します。何よりもまず、潜在的に高いクラウドソーシング料金です。 限られたリソースを持つ研究者からの提出を阻止することを避けるために、GENIEは提出コストを約100ドルに維持することを目指しており、最初の提出は学術グループによって支払われます。 将来的には、共著者は、小規模な組織の費用を助成しながら、テクノロジー企業からの支払いを要求するなど、他の支払いモデルを検討する予定です。

別の潜在的な問題(さまざまなアノテーター間での時間の経過に伴う人間の注釈の再現性)を軽減するために、研究者は、アノテーターの分散の推定や数日間にわたる注釈の拡散などの手法を使用します。 実験によると、GENIEは含まれているタスクで「信頼できるスコア」を達成していると彼らは主張しています。

「[GENIE]は、生成タスクの高品質な人間による評価を標準化します。これは、現在、比較が難しいアプローチを使用してモデル開発者とケースバイケースで行われています」と、GENIEプロジェクトの主任開発者であるDanielKhashabiは説明しました。で ミディアムポスト。 「これにより、モデル開発者は、クラウドソーシングによる人間のモデル評価を設計、構築、実行する負担から解放されます。 [また]人間の評価のための人間とコンピューターの相互作用、またはモデル提出と関連する人間の注釈付き評価の中央の更新ハブによる自動メトリック作成のいずれかに関心のある研究者を提供します。」

アレンインスティテュートGENIE

共著者は、GENIEインフラストラクチャが広く採用されれば、以前のモデルとの高品質で標準化された比較を保証しながら、研究者の評価負担を軽減できると考えています。 さらに、GENIEが人間の評価アプローチの研究を促進し、アノテータートレーニング、アノテーター間合意、再現性などの課題に対処することを期待しています。これらはすべてGENIEに統合して、過去および将来の提出に関する他の評価指標と比較できます。

アレンインスティテュートGENIEリーダーボード

「私たちはGENIEを公開し、言語生成モデルとその自動および手動評価の進歩に拍車をかけることを願っています」と共著者は彼らの研究を説明する論文に書いています。 「これは、テキスト生成が現在評価されている方法からの新しい逸脱であり、GENIEが自然言語生成技術のさらなる開発に貢献することを願っています。」

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、Transformなどの貴重なイベントへの割引アクセス
  • ネットワーク機能など

会員になる

出典:https://venturebeat.com/2021/01/20/allen-institute-launches-genie-a-leaderboard-for-human-in-the-loop-language-model-benchmarking/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?