ゼファーネットのロゴ

会話型AIのテスト

日付:

従来の指標やソフトウェアテスト方法を超えたチャットボットのパフォーマンスの測定

どのようにテストしますか 会話型AI 解決? チャットボットが顧客と向き合うために展開するのに適しているかどうかをどのように評価しますか? すべてのタイプのうち 自然言語処理システム 機械翻訳、質問応答システム、音声認識、音声合成、情報検索などのように、 会話型AI 測定するのが最も難しいものです。 会話は一回限りの作業ではありません。 それらはマルチターンであり、会話が成功したか失敗したかは簡単にはわかりません。 では、会話型AI設計者として、構築するシステムの品質をどのように測定できるでしょうか。

による写真 ウィリアム・ウォービー on Unsplash

従来のソフトウェアテストアプローチは、展開されたソリューションが堅牢で復元力があるかどうかをテストするのに役立ちます。 ただし、顧客の意見や チャットボットの 応答、ソフトウェアテストアプローチは、可能なシナリオの幅を適切にテストできません。

次のような指標 精度, リコール, 正確y スコアは、で使用される統計モデルとMLモデルを評価するために使用されます チャットボット 次のようなさまざまなタスクを実行します 感情分析, 意図分類, 感情検出, エンティティの認識これらのメトリックは、システムのさまざまな部分を測定するのに最適ですが、システムを全体的に測定するわけではありません。 言い換えれば、非常に正確な意図分類モデルは、会話全体の品質を保証するものではありません。

モデルベースのメトリックに加えて、タスクの完了率、タスクの完了にかかる時間などの全体的なメトリックがあります。ただし、これらのテストでは、実際の会話の離脱につながる可能性のあるいくつかの重要な望ましくない動作をキャプチャできません。 この質問を自問してください—短い会話は魅力的または生産的な会話を意味しますか? 本当に言えません。 会話の目的に基づいて適切な指標を特定する必要があるようです。 タスクベースのシステム(チケットの予約など)は短い会話を目的としている場合がありますが、オープンドメインのコンパニオンはその逆を行う場合があります。

従来の指標に加えて、会話型AIソリューションの品質は、次の数に基づいて測定できます。 ユーザー体験 (UX) 使いやすさ、ユーザーの理解度、応答の正確性と適切性、一貫性、応答の信頼性と信頼性などの要素。 最近、この分野で働く研究者や設計者によって、多くの新しい定量的および定性的指標が提案されています。

チャットボットテスト チャットボットをテストするためのオープンソースの評価フレームワークです。 チャットボットデザインの7つのカテゴリを次のように識別します。

性格—会話に合った明確な声のトーンはありますか?

オンボーディング—ユーザーはチャットボットエクスペリエンスをどのように始めていますか?

理解—ユーザーの入力を理解するチャットボットの機能はどのくらい広いですか?

回答—ユーザーに対するチャットボットの応答は正確で適切ですか?

ナビゲーション—迷うことなく会話をナビゲートするのはどれほど簡単ですか?

エラー管理—チャットボットは会話のエラーを修復および回復するのにどの程度優れていますか?

インテリジェンス—会話をインテリジェントに処理するためにコンテキスト情報をどの程度うまく使用していますか?

これらのカテゴリにまたがるChatbotTestガイドは、チャットボットを定性的に調査および評価するための多数のテストケースを提供します。 フレームワークは、チャットボットの設計に関して多くの質問をするように促します。 質問のリストは非常に網羅的で包括的なものです。 これが例です—省略記号テスト。

1.ヨーロッパのFacebookページのメッセンジャールールが変更されています。 知っておくべきことは次のとおりです

2.これがチャットボットビジネスが死にかけている理由です

3. FacebookがKustomerを買収:チャットボットビジネスの終焉?

4.成功したチャットボットのXNUMXつのP

ChatbotTest —チャットボットはコンテキストに基づいて理解するのに十分インテリジェントですか?

そして、私はエラー管理の下でこれが好きです—チャネルの認識 問題.

ChatbotTest —チャネルの問題を認識して役立つことができますか?

ガイドにはいくつかのシナリオと質問がリストされていますが、それらは正しい答えを提供していません。 私たちが期待する答えは、デザイナーとしての私たちが決めることです。 ある意味で、これらの質問をリストにまとめると、優れた会話体験を構築するための要件のリストが得られる可能性があります。

チャットボットユーザビリティアンケート(CUQ) チャットボットの使いやすさに関する16の質問からなるアンケートです。 回答者は、リッカート尺度の回答を使用して、チャットボットに関する各ステートメントへの同意を評価するよう求められます。 記載されているステートメントは、チャットボットの性格、目的、使いやすさ、その他の定性的な機能にまで及びます。 質問はXNUMXつの極性に均等に分けられます— ポジティブな質問とネガティブな質問 —バイアスを減らすため。

上記のChatbotTestフレームワークに似ていますが、アンケートはそれほど網羅的ではありません。 ただし、各回答を評価し、各回答者がチャットボットに与えるスコア(100点満点)を計算する方法を提供します。

チェックリスト は、特定のタスクと動作でモデルをテストするNLPモデルの包括的なテストフレームワークです。 これは、一般的な言語機能のマトリックスと、それぞれのテストタイプで構成されています。 これは、テストケースの包括的なリストを考えて生成するのに役立ちます。 さまざまな種類のテストがあります— 最小機能テスト (ソフトウェアテストの単体テストと同様)、 不変性テスト (モデルの出力を変更してはならない摂動、 方向性期待テスト (既知の期待される結果を伴う摂動)。 これらのテストタイプを機能(語彙、名前付きエンティティ、否定など)と組み合わせて、モデルで実行できるテストケースの数を特定し、モデルが期待どおりに機能しているかどうかを確認します。 機能とテストタイプの組み合わせは、簡単に見落とされていた可能性のある包括的なテストケースを生成するのに役立ちます。

これらのテストは通常​​、次のような質問に答えます—名前付きエンティティが変更されるとどうなりますか? 名詞を同義語に置き換えて同じ結果を得ることができますか? タイプミスがあるとどうなりますか? 文を否定する単語を追加すると、モデルの結果にどのような影響がありますか? フレームワークには、可能なテスト入力文を列挙して、テストのタイプと機能を提供するのに役立つツールが付属しています。

上の画像は、感情モデルに対して生成されたテストケースを示しています。 各機能(例:語彙+ POS、ロバストネス、NERなど)およびテストのタイプ(例:MFT、INV、およびDIR)について、テストの説明のリスト(例:中立的な形容詞と名詞を含む短い発話など)が特定されています。 。 次に、テストの説明ごとに、テストケースの発話と期待される出力が生成されます。 次に、テスト発話をモデルに入力し、出力を予想される出力と比較して、故障率を測定できます。

感度と特異度の平均(SSA) はGoogleによって提案された指標であり、他の同様のシステムに対するGoogleMeenaチャットボットのパフォーマンスを測定するために使用されました。 このメトリックは、ユーザーの発話に対する賢明な応答であるという点でチャットボットの応答がどれだけ優れているか、およびそれがどれほど具体的であるかを測定します。 ここで説明する他のメトリックやフレームワークと比較すると、非常に基本的ですが、SSAメトリックは、ユーザーが発話を入力すると、チャットボットが応答できる方法が多数あるという事実に光を当てます。 そして、そのような応答の質をどのように測定しますか?

ACUTE-評価 は、チャットボットの会話を別の会話と比較することによってチャットボットの品質を測定する新しいメトリックです。 XNUMX回の複数ターンの会話が必要であり、評価者に、ある会話の話者のXNUMX人(たとえば話者A)を別の会話の話者のXNUMX人(たとえば話者B)と比較するように依頼します。 次に、人間の評価者は、スピーカーAとスピーカーBのどちらかを選択するように求める特定の質問をされます。どちらがより魅力的で、知識が豊富で、興味深いなどです。このメトリックは、Facebookがオープンドメインチャットボットを評価するために最近使用しました。 ブレンダー。 彼らは評価者に次の質問をしました。

  1. 長い会話のために誰と話したいですか?
  2. どのスピーカーがより人間味がありますか?

並べて配置されたXNUMXつの会話でXNUMX人の話者を比較することにより、会話を次々に見ることによる固定効果が回避されます。

凝集と分離 インテント分類モデルに入力されたトレーニング例の品質を測定します。 文の埋め込みを使用して、発話間の意味的類似性を測定できます。 インテント内の発話例間の類似性は 凝集。 凝集力の値が高いほど良いです。 一方、 分離 は、任意のXNUMXつのインテントに属する発話例間の類似性の尺度です。 分離値が高いほど良いです。 この測定値は、チャットボットの全体的なパフォーマンスまたはその意図分類モデルのパフォーマンスを直接測定するものではありませんが、モデルに入力されたトレーニング例の品質を測定することは有用です。

そして最後に、私が最近読んだもうXNUMXつの興味深いアプローチは、チャットボットが互いに話し合うようにし、聴衆に決定させることでした。 ボットバトル。 これは、XNUMX人のスピーカーがさまざまなパラメーターで比較されるという意味でACUTE-Evalと非常に似ていますが、ACUTE-Evalとは異なり、XNUMX人のスピーカーは互いに会話しています。 タスクの性質を考えると、このアプローチは、評価にバイアスをかける可能性のある話者の役割が明確に決定されるタスクベースの会話とは対照的に、オープンドメインチャットに使用できます。

このアプローチは、人気のローブナー賞を受賞したチャットボットであるKukiをFacebookのBlenderBotと比較するために使用されました。 チャットは、両方のボットが独自のアバターを持っているバーチャルリアリティ環境で行われました。 勝者は、聴衆の投票によって決定され、そこで誰が最高かを決定します。

による写真 スコットグラハム on Unsplash

それでは、会話型AIモデルとシステムを評価するための最近の指標とフレームワークのリストをご覧ください。 これは完全なリストではないと確信しています。 そして、会話型AIのドメインが進化し、会話型エクスペリエンスへの期待が変化するにつれて、より多くのメトリックが発明されます。 さまざまな種類の会話を処理するためにシステムが広く採用されるにつれて、目的に基づいてメトリックを開発する必要もあります。 この記事が、システムを適切にテストする方法についてさらに質問し、回答を探すことを促してくれることを願っています。 以下のコメントセクションで、これらまたは他の新しいメトリックを使用した経験を共有してください。

Source: https://chatbotslife.com/testing-conversational-ai-7e5ecbae12cb?source=rss—-a49517e4c30b—4

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?