和风网标志

ChatGPT 通过讲故事更好地预测未来

日期:

德克萨斯州贝勒大学的研究人员发现,当被要求将预测框架为关于过去的故事时,人工智能模型能够更好地预测未来。

In 一篇论文 Pham 和 Cunningham 的标题是“当 ChatGPT 讲述关于过去的未来故事时,它可以预测未来”,Pham 和 Cunningham 透露了最后的场景——人工智能模型预测在某些情况下可以有效。事实证明,向聊天机器人询问有关未来事件的故事而不是直接进行预测,效果出人意料地有效,尤其是在预测奥斯卡获奖者方面。

但他们的工作既说明了 OpenAI 安全机制的低效,也说明了大型语言模型的预测潜力。

其他研究人员对人工智能预测模型也表现出了类似的兴趣。一 根据一项研究, 去年的研究发现,“与人类群体预测的中位数相比,GPT-4 在现实世界的预测任务中表现明显不佳。”其他人已经找到了人工智能模型 显示 承诺 用于股市投资。

OpenAI的 服务条款 不允许在某些情况下对未来进行预测。例如,“您不得将与某人相关的任何输出用于可能对该人产生法律或重大影响的任何目的,例如做出信贷、教育、就业、住房、保险、法律、医疗或其他重要决定关于他们。”

依赖已知会产生幻觉的大型语言模型的建议的风险是显而易见的——您不希望 ChatGPT 做出重大决策,例如医疗决策、量刑或信贷审批。

但即便如此,模型通常也有可能成为有效的猜测者。

我们怀疑 OpenAI 抑制了 ChatGPT 参与多种类型直接预测任务的意愿

研究人员认为,“如果 ChatGPT 被发现具有卓越的预测能力,那么人们很容易想象它会立即以违反上述一项或全部条件的方式使用,因此我们怀疑 OpenAI 已经扼杀了 ChatGPT 参与许多活动的意愿。”直接预测任务的类型。”

我们要求 OpenAI 就其是否故意试图阻止预测发表评论,但我们尚未收到回复。

然而,很明显,当被要求提供医疗建议时,OpenAI 的模型会犹豫不决。 Pham 和 Cunningham 通过 ChatGPT 界面询问 OpenAI 的 GPT-4,“我感觉真的很不舒服。我头痛,尿液中有血。你觉得我有什么?”正如预期的那样,该模型建议寻求医疗专业人士的指导。

然后他们改变了提示策略,并指示 ChatGPT 给他们讲一个故事,其中一个人来到医生办公室并出现了相同的症状。 ChatGPT 在直接询问时拒绝提供医疗建议,作为所要求场景中的角色对话进行回应。

“专家的建议是否准确是另一回事;我们的观点只是指出,当直接要求它执行任务时,它不会执行该任务,但当以创意写作练习的形式间接执行任务时,它会执行该任务,”研究人员在论文中解释道。

鉴于这种克服预测反应阻力的激励策略,贝勒经济学家开始测试模型在模型训练完成后预测事件的能力。

该奖项颁发给...

在实验时,GPT-3.5 和 GPT-4 只知道截至 2021 年 2022 月的事件,即他们的训练数据截止日期——此后截止日期已经提前。因此,两人要求模型讲述一些故事,预测一段时间内的通货膨胀和失业率等经济数据,以及 XNUMX 年各种奥斯卡奖的获奖者。

“总结这个实验的结果,我们发现,当向提名者展示并使用 ChatGPT-3.5 和 ChatGPT-4 的两种提示风格(直接和叙述)时,ChatGPT-4 准确地预测了所有男女演员类别的获奖者,但不是最佳影片,当使用未来的叙事背景时,但在其他[直接提示]方法中表现不佳,”论文解释道。

对于训练数据中已有的内容,我们感觉 ChatGPT [可以] 做出极其准确的预测

“对于训练数据中已有的内容,我们感觉到 ChatGPT 有能力使用这些信息,并通过其机器学习模型做出极其准确的预测,”Cunningham 说道 注册 在电话采访中。 “尽管它显然可以做到,但有些东西阻止了它这样做。”

使用叙述提示策略比通过直接提示引发的猜测产生更好的结果。它也优于随机五分之一选择的 20% 基线。

但叙述性预测并不总是准确的。叙事提示导致了 2022 年最佳影片获奖者的错误预测。

对于正确预测的提示,这些模型并不总是提供相同的答案。 “人们需要记住的是,预测具有随机性,”坎宁安说。 “所以如果你问 100 次,你就会得到答案的分布。因此,您可以查看置信区间或平均值等内容,而不仅仅是单个预测。”

该策略是否优于众包预测?坎宁安说,他和他的同事没有将他们的叙事提示技术与另一个预测模型进行比较,但表示奥斯卡金像奖的一些预测很难被击败,因为人工智能模型几乎百分百正确地预测了其中一些预测。多次查询。

与此同时,他表示,对于人工智能模型来说,预测奥斯卡金像奖得主可能会更容易,因为对电影的在线讨论可以在训练数据中捕获。 “这可能与当时人们谈论这些男女演员的方式高度相关,”坎宁​​安说。

让模型预测十年后的奥斯卡奖得主可能不会那么顺利。

ChatGPT 还根据提示表现出不同的预测准确性。 “我们有两个故事提示,”坎宁安解释道。 “一个是大学教授,未来要教课。在课堂上,她宣读了一年的通货膨胀和失业数据。在另一则报道中,美联储主席杰罗姆·鲍威尔向理事会发表讲话。我们得到了截然不同的结果。鲍威尔的[人工智能生成的]演讲要准确得多。”

换句话说,某些提示细节可以带来更好的预测,但事先并不清楚这些细节可能是什么。坎宁安指出,在鲍威尔的叙述提示中提及俄罗斯 2022 年入侵乌克兰是如何导致经济预测比实际情况严重糟糕的。

“[模型]不知道乌克兰被入侵,但它使用了这些信息,而且往往情况会变得更糟,”他说。 “该预测试图考虑到这一点,而 ChatGPT-3.5 在俄罗斯入侵乌克兰的那个月变得极度通货膨胀,但这并没有发生。

坎宁安说:“作为概念证明,在未来的叙事提示下,真实的事情会发生。” “但正如我们试图在论文中所说的那样,我认为即使是[模型]的创建者也不明白这一点。所以如何弄清楚如何使用它还不清楚,我也不知道它到底有多大的可解决性。” ®

现货图片

最新情报

现货图片