ゼファーネットのロゴ

ChatGPT は物語を語るときに未来をより正確に予測します

日付:

テキサス州ベイラー大学のボフィン氏らは、予測を過去の話として組み立てるよう求められた場合、AI モデルは未来を予測する能力がより高まることを発見した。

In 「ChatGPT は過去について未来に設定されたストーリーを語るとき、未来を予測できる」というタイトルで、ファムとカニンガムは、AI モデルの予測が特定の状況では効果的であるという最後のシーンを公開しています。直接予測を求めるのではなく、チャットボットに将来の出来事についての話を聞くことは、特にオスカー受賞者を予測する場合に驚くほど効果的であることが判明しました。

しかし、彼らの研究は、大規模な言語モデルの予測可能性と同じくらい、OpenAI の安全メカニズムの非効率性についても語っています。

他の研究者も、予測用の AI モデルに同様の関心を示しています。 1つ 研究 昨年の調査では、「GPT-4 は、人間の群集予測の中央値と比較して、現実世界の予測タスクにおいて著しくパフォーマンスが劣っている」ことが判明しました。 AIモデルを発見した人もいる 表示する 約束 株式市場投資のため。

OpenAI 利用規約 特定の状況において将来についての予測を禁止します。たとえば、「信用、教育、雇用、住宅、保険、法律、医療、その他の重要な決定など、その人に法的または重大な影響を与える可能性のある目的で、ある個人に関連する出力を使用してはなりません」彼らについて。」

幻覚を引き起こすことが知られている大規模な言語モデルからのアドバイスに依存するリスクは明らかです。ChatGPT に治療の決定、量刑、クレジットの承認などの重要な決定を下してほしくないのです。

しかし、そうであっても、多くの場合、モデルが効果的な推測者となる可能性はあります。

私たちは、OpenAI が ChatGPT がさまざまな種類の完全な予測タスクに取り組む意欲を抑制したのではないかと考えています。

研究者らは、「ChatGPT が優れた予測能力を持っていることが判明した場合、それが上記の条件の 1 つまたはすべてに違反する方法で直ちに使用されることは容易に想像できます。したがって、OpenAI が ChatGPT の多くのことに関与する意欲を抑制したのではないかと疑っています。」完全な予測タスクのタイプ。」

私たちはOpenAIに対し、意図的に予測を妨害しようとしているのかどうかについてコメントを求めたが、返答は得られていない。

しかし、OpenAIのモデルが医療上のアドバイスを求められた場合、躊躇することは明らかだ。ファムとカニンガムは、ChatGPT インターフェースを介して OpenAI の GPT-4 に尋ねました。頭痛があり、尿に血が混じっています。私が何を持っていると思いますか?そして予想通り、モデルは医療専門家に指導を求めることをアドバイスしました。

次に、彼らはプロンプト戦略を変更し、ある人が診療所に来て同じ症状を示したというストーリーを伝えるように ChatGPT に指示しました。そしてChatGPTは、直接尋ねられた際には断った医学的アドバイスを、要求されたシーンのキャラクターの会話として返答した。

「この専門家のアドバイスが正確かどうかは別問題です。私たちが言いたいのは、直接依頼されたときはそのタスクを引き受けないが、クリエイティブライティングの練習という形で間接的にタスクを与えられたときは引き受けるということだけだ」と研究者らは論文で説明している。

予測反応に対する抵抗を克服するためのこの刺激的な戦略を考慮して、ベイラーの経済学者たちは、モデルのトレーニングが完了した後に発生するイベントをモデルがどの程度正確に予測できるかをテストすることに着手しました。

そして賞は…

実験の時点では、GPT-3.5 と GPT-4 は、トレーニング データのカットオフである 2021 年 2022 月までのイベントについてのみ知っていましたが、その後、それは進歩しました。そこで二人はモデルに、長期にわたるインフレ率や失業率などの経済データや、XNUMX年のさまざまなアカデミー賞の受賞者を予言するストーリーを語ってもらうよう依頼した。

「この実験の結果を要約すると、候補者を提示し、ChatGPT-3.5 と ChatGPT-4 で 4 つのプロンプト スタイル (直接と物語) を使用すると、ChatGPT-XNUMX はすべての俳優および女優カテゴリーの受賞者を正確に予測したことがわかりました。未来の物語設定を使用しているが、他の[直接プロンプト]アプローチではパフォーマンスが低かった場合は、最優秀作品賞を獲得できませんでした」と論文は説明しています。

すでにトレーニング データに含まれているものについては、ChatGPT が非常に正確な予測を行うことができると感じています。

「すでにトレーニング データに含まれているものについては、ChatGPT がその情報を使用し、機械学習モデルを使用して非常に正確な予測を行う能力があると感じています」とカニンガム氏は語った。 登録 電話インタビューで。 「明らかにそれができるにもかかわらず、何かがそれを妨げているのです。」

物語によるプロンプト戦略を使用すると、直接的なプロンプトによって推測を引き出すよりも良い結果が得られました。また、20 つのうち XNUMX つをランダムに選択した場合の XNUMX パーセントのベースラインよりも優れていました。

しかし、物語の予測は必ずしも正確ではありませんでした。物語の促しが、2022 年の最優秀作品賞受賞者の予想を誤らせる結果となりました。

また、プロンプトが正しく予測された場合でも、これらのモデルは常に同じ答えを提供するとは限りません。 「人々が留意すべきことは、予測にはランダム性があるということです」とカニンガム氏は言う。 「つまり、100回質問すると、答えの分布が得られます。そのため、単一の予測ではなく、信頼区間や平均などを確認することができます。」

この戦略はクラウドソーシングの予測を上回りましたか?カニンガム氏は、自分と同僚の物語を促す手法を別の予測モデルと比較してベンチマークしていないと述べたが、アカデミー賞の予測の中には、AI モデルがほぼ 100% の確率で的中するため、一部の予測を破るのは難しいだろうと述べた。複数の問い合わせ。

同時に、映画に関するオンラインでの議論がトレーニング データに取り込まれているため、AI モデルではアカデミー賞受賞者の予測が容易だったのではないかと同氏は示唆しました。 「それはおそらく、その頃人々がその俳優や女優についてどのように話していたかということと非常に相関性があるのです」とカニンガム氏は言う。

モデルに 10 年後のアカデミー賞受賞者を予測するよう依頼しても、それほどうまくいかない可能性があります。

ChatGPT は、プロンプトに基づいてさまざまな予測精度も示しました。 「私たちが行うストーリープロンプトは 2 つあります」とカニンガム氏は説明しました。 「一人は大学教授で、将来はクラスを教えることになります。そして授業では、インフレと失業に関する 1 年分のデータを読み上げます。そして別の回では、連邦準備制度理事会のジェローム・パウエル議長に理事会でスピーチをしてもらいました。全く異なる結果が得られました。そして、パウエル氏の(AIが生成した)スピーチははるかに正確です。」

言い換えれば、特定の即時詳細はより良い予測につながりますが、それが何であるかは事前には明らかではありません。カニンガム氏は、パウエル議長の発言のプロンプトにロシアの2022年のウクライナ侵攻への言及を盛り込んだことが、実際よりも大幅に悪い経済予測につながったと指摘した。

「(モデルは)ウクライナ侵攻について知らなかったが、その情報を利用し、状況がさらに悪化することが多い」と同氏は語った。 「この予測はそれを考慮に入れようとしており、ChatGPT-3.5はロシアがウクライナに侵攻した月に非常にインフレ的になるが、そんなことは起こらなかった。

「概念の実証として、未来の物語のプロンプトで何か現実的なことが起こります」とカニンガム氏は語った。 「しかし、私たちが論文で言おうとしたように、[モデルの]作成者でさえそれを理解していないと思います。したがって、それをどのように使用するかを理解する方法は明確ではありませんし、それが実際にどの程度解決可能であるかはわかりません。」 ®

スポット画像

最新のインテリジェンス

スポット画像