ゼファーネットのロゴ

LLM の幻覚を軽減するための 7 つの戦略

日付:

大規模言語モデルの導入 (LLM)は、世界に大きなパラダイムシフトをもたらしました。 人工知能 (AI)と 機械学習(ML) 田畑。目覚ましい進歩により、LLM はさまざまなトピックに関するコンテンツを生成し、複雑な問い合わせに対応し、ユーザーの満足度を大幅に向上できるようになりました。しかし、彼らの進歩とともに、幻覚という新たな課題が表面化しました。この現象は、LLM が誤ったテキスト、無意味なテキスト、または支離滅裂なテキストを生成するときに発生します。このような事態が発生すると、これらのモデルを活用している組織に潜在的なリスクと課題が生じます。特に懸念されるのは、誤った情報の流布や攻撃的な内容の作成に関わる状況です。 

2024 年 3 月の時点で、一般に入手可能なモデルの幻覚発生率は約 16% ~ 1% の範囲です [XNUMX]。この記事では、このリスクを効果的に軽減するためのさまざまな戦略について説明します。

目次

コンテキストに応じたプロンプトエンジニアリング/チューニング

プロンプト エンジニアリングとは、大規模な言語モデルに供給される命令を設計および改良して、可能な限り最良の結果を引き出すプロセスです。 LLM から特定の反応や行動を引き出すための最適なプロンプトを作成するには、専門知識と創造性の融合が必要です。明示的な指示、コンテキスト上の手がかり、または特定のフレーミング手法を含むプロンプトをデザインすることは、LLM 生成プロセスのガイドに役立ちます。 GPT プロンプトエンジニアリングは、明確なガイダンスとコンテキストを提供することで曖昧さを軽減し、モデルがより信頼性の高い一貫した応答を生成できるようにします。

プロンプトエンジニアリングチートシート

プロンプトの要素

以下は、適切に作成されたプロンプトを構成する要素のリストです。

  • コンテキスト: 背景の詳細​​を紹介したり、簡単に紹介したりすると、LLM が主題を理解するのに役立ち、議論の出発点として役立ちます。
  • 指示: 明確で簡潔な質問を作成すると、モデルの応答が目的のトピックに焦点を当てたままになります。たとえば、モデルに「簡単な英語を使用して 100 単語未満で章を要約する」ように依頼することができます。
  • 入力例: モデルに具体的な例を提供すると、カスタマイズされた応答を生成するのに役立ちます。たとえば、顧客が「受け取った製品が破損していた」と苦情を言った場合、モデルは適切な返答を提案し、潜在的な払い戻しの選択肢を提案できます。
  • 出力フォーマット: 応答に必要な形式 (箇条書きリスト、段落、コード スニペットなど) を指定すると、LLM がそれに応じて出力を構造化することができます。たとえば、「番号付きリストを使用した段階的な説明」を要求する場合があります。
  • 推論: モデルの応答に基づいてプロンプトを繰り返し調整および改良すると、出力の品質を大幅に向上させることができます。たとえば、思考連鎖プロンプトは複数ステップの問題を中間ステップに分解し、標準的なプロンプト手法を超えた複雑な推論機能を可能にします。
  • 迅速な微調整: 特定のユースケースまたはドメインに基づいてプロンプトを調整すると、特定のタスクまたはデータセットでのモデルのパフォーマンスが向上します。
  • インタラクティブなクエリによる絞り込み: モデルの応答に基づいてプロンプトを繰り返し調整および改良することで、出力の品質が向上し、LLM が推論を使用して最終的な答えを導き出すことができるようになり、幻覚が大幅に減少します。

ポジティブプロンプトフレーミング

否定的な指示の代わりに肯定的な指示を使用すると、より良い結果が得られることが観察されています (つまり、「しない」ではなく「行う」)。ネガティブフレーミングの例:

ユーザーに一度に複数の質問をしないでください。ポジティブなフレーミングの例: ユーザーに情報を求めるときは、一度に最大 1 つの質問をします。

また読む: LLM は説得力のある誤った情報を作成する点で人間を上回っているのでしょうか?

検索拡張生成 (RAG)

検索拡張生成 (RAG) は、モデル応答の精度と監査可能性を高めるために、ドメイン固有の最新の知識を LLM モデルに提供するプロセスです。これは、プロンプト エンジニアリングと外部データ ソースからのコンテキスト取得を組み合わせて、LLM のパフォーマンスと関連性を向上させる強力な手法です。追加情報に基づいてモデルを構築することで、より正確でコンテキストを認識した応答が可能になります。

このアプローチは、質問応答チャットボット、検索エンジン、ナレッジ エンジンなどのさまざまなアプリケーションに有益です。 RAG を使用することで、LLM はソースの帰属を伴う正確な情報を提示できるため、ユーザーの信頼が強化され、新しいデータに対する継続的なモデル トレーニングの必要性が軽減されます。

モデルパラメータの調整

温度、周波数ペナルティ、top-p などのさまざまなモデル パラメーターは、LLM によって作成される出力に大きな影響を与えます。温度設定を高くするとランダム性と創造性が高まり、温度を低く設定すると出力がより予測可能になります。頻度ペナルティ値を上げると、モデルは繰り返される単語をより控えめに使用するようになります。同様に、プレゼンス ペナルティ値を増やすと、出力内でまだ使用されていない単語が生成される可能性が高くなります。

top-p パラメーターは、単語選択の累積確率しきい値を設定することにより、応答の多様性を調整します。全体として、これらのパラメーターにより微調整が可能になり、さまざまな応答の生成と精度の維持の間でバランスをとることができます。したがって、これらのパラメーターを調整すると、モデルが答えを想像する可能性が低くなります。

モデルの開発/強化

  • 事前トレーニングされた LLM を微調整します。 微調整は、より小さなタスク固有のラベル付きデータセットを使用して事前トレーニングされたモデルをトレーニングするプロセスです。タスク固有のデータセットを微調整することで、LLM はそのドメインのニュアンスを把握できます。これは、法律文書、医学文書、財務報告書など、専門用語、概念、構造を含む分野では特に重要です。その結果、特定のドメインまたはタスクからの未知の例に直面した場合、モデルはより高い精度と関連性で予測を行ったり、出力を生成したりする可能性が高くなります。 
  • 完全にカスタムの LLM: LLM モデルは、正確でそのドメインに関連する知識に基づいてのみゼロから開発できます。そうすることで、モデルが特定の主題内の関係やパターンをより深く理解できるようになります。これにより、幻覚が完全になくなるわけではありませんが、幻覚の可能性が減ります。ただし、独自の LLM を構築するには計算コストがかかり、多大な専門知識が必要です。

人間の監視

言語モデルによって生成された出力を検証するために、できれば堅牢なレビュープロセスを備えた対象分野の専門家による人間の監視を組み込むことは、特に幻覚が重大な結果をもたらす可能性がある機密性の高いアプリケーションや高リスクのアプリケーションにおいては、誤った情報に対処するのに大いに役立ちます。人間の査読者は、幻覚テキストが広まったり、批判的な文脈で使用されたりする前に、それを特定して修正できます。

一般ユーザーの教育と意識向上

誤解を招くテキストを生成する可能性を含め、言語モデルの制限とリスクについてユーザーと関係者を教育することが重要です。特に正確さが重要な場合には、出力を慎重に評価して検証することをユーザーに奨励する必要があります。特に誤解を招く情報が害を及ぼす可能性がある分野では、言語モデルの使用を管理する倫理的なガイドラインとポリシーを策定し、従うことが重要です。コンテンツの管理、誤った情報の検出、攻撃的なコンテンツの防止など、責任ある AI の使用に関する明確なガイドラインを確立する必要があります。

LLM幻覚を軽減するための継続的な研究により、完全に排除するのは難しいかもしれないが、予防措置を講じることでその頻度を大幅に減らすことができることが認められています。 AI システムに責任を持って思慮深く取り組むことの重要性を強調し、害を及ぼさずにテクノロジーを効果的に利用する際に必要な均衡を維持するための意識を高めることが重要です。

まとめ

大規模言語モデル (LLM) における幻覚の蔓延は、幻覚を緩和するためのさまざまな経験的努力にもかかわらず、重大な課題を引き起こしています。これらの戦略は貴重な洞察を提供しますが、完全な排除という基本的な問題は未解決のままです。

この記事が LLM の幻覚に光を当て、それに対処するための戦略を提供できれば幸いです。以下のコメント欄であなたのご意見をお聞かせください。

参照:

[1] https://huggingface.co/spaces/vectara/leaderboard

スポット画像

最新のインテリジェンス

スポット画像