ゼファーネットのロゴ

LLM を利用した生物学的脅威の生成に対する早期警告システムの構築

日付:

注: 当社のサービスの一環として 準備の枠組み、私たちはAIを活用した安全性リスクの改善された評価方法の開発に投資しています。私たちは、これらの取り組みはより広範なインプットから恩恵を受けるだろうし、手法の共有は AI リスク研究コミュニティにとっても価値があると信じています。この目的を達成するために、今日は生物学的リスクに焦点を当てた初期の研究の一部を紹介します。私たちはコミュニティからのフィードバックや、進行中の研究をさらに共有することを楽しみにしています。 

バックグラウンド。 OpenAI や他のモデル開発者がより高性能な AI システムを構築するにつれて、AI の有益な使用と有害な使用の両方の可能性が増大します。研究者や政策立案者によって強調されている潜在的に有害な使用法の 1 つは、悪意のある攻撃者が生物学的脅威を生み出すのを支援する AI システムの機能です (例: ホワイトハウス 2023, ラブレース 2022, サンドブリンク 2023)。議論されている仮説の例では、悪意のある攻撃者は、高度な機能を備えたモデルを使用して、ステップバイステップのプロトコルを開発したり、ウェットラボ手順のトラブルシューティングを行ったり、次のようなツールへのアクセスを許可された場合に、生物脅威作成プロセスのステップを自律的に実行したりする可能性があります。 クラウドラボ (参照してください カーター他、2023)。しかし、そのような仮説的な例の実行可能性を評価することは、評価とデータが不十分であるために制限されました。

最近共有されたものに従ってください 準備の枠組み、私たちは、現在の状況と将来の状況の両方を理解するのに役立つ、この種のリスクを経験的に評価する方法論を開発しています。ここでは、生物学的誤用の可能性についての注意とさらなるテストの必要性を示す、潜在的な「トリップワイヤー」の 1 つとして役立つ可能性のある新しい評価について詳しく説明します。この評価は、既存のリソース (インターネットなど) のベースラインと比較して、モデルが生物学的脅威の作成に関する危険な情報への悪意のある攻撃者のアクセスを有意に増加させることができるかどうかを測定することを目的としています。

これを評価するために、我々は人間の参加者 100 名を対象に研究を実施しました。この参加者は、(a) 博士号を取得しウェットラボの専門的な経験を持つ生物学の専門家 50 名、(b) 大学レベルの生物学コースを少なくとも 50 つ受講している学生レベルの参加者 4 名で構成されます。参加者の各グループは、インターネットのみにアクセスできる対照グループ、またはインターネットに加えて GPT-XNUMX にアクセスできる治療グループのいずれかにランダムに割り当てられました。次に、各参加者は、生物学的脅威を生み出すためのエンドツーエンドのプロセスの側面をカバーする一連のタスクを完了するように求められました。[^ 1] 私たちの知る限り、これはバイオリスク情報に対する AI の影響に関する人間による評価としてはこれまでで最大のものです。

調査結果。 私たちの研究では、GPT-4 にアクセスできる参加者のパフォーマンスの向上を 10 つの指標 (精度、完全性、革新性、所要時間、自己評価の難易度) と生物学的脅威作成プロセスの 0.88 つの段階 (発想、獲得、倍率、定式化) にわたって評価しました。 、放します)。言語モデルにアクセスできるユーザーの精度と完全性が若干向上していることがわかりました。具体的には、回答の正確さを測定する 0.25 ポイント スケールで、インターネットのみのベースラインと比較して、平均スコアが専門家で 0.82、学生で 0.41 増加し、完全性についても同様の上昇 (専門家で XNUMX、学生で XNUMX) が観察されました。しかし、得られた効果量は統計的に有意と言えるほど大きくなく、私たちの研究は、どのようなパフォーマンス閾値がリスクの有意な増加を示すのかについてさらなる研究の必要性を浮き彫りにしました。さらに、情報へのアクセスだけでは生物学的脅威を生み出すには不十分であり、この評価は脅威の物理的構築の成功をテストするものではないことに注意します。

以下では、評価手順とその結果について詳しく説明します。また、フロンティア モデルを使用してこの種の評価を大規模に実行するために必要な機能の引き出しとセキュリティの考慮事項に関連するいくつかの方法論的な洞察についても説明します。また、モデルのリスクを測定する効果的な方法としての統計的有意性の限界と、モデルの評価結果の有意性を評価する際の新しい研究の重要性についても説明します。

スポット画像

最新のインテリジェンス

スポット画像