和风网标志

Anthropic 的 Claude AI 在 Chatbot Arena 排行榜上推翻了 ChatGPT – 解密

日期:

尽管 Open AI 的 ChatGPT 在所有生成式 AI 工具中享有最大的主流关注度,但在 AI 研究人员使用的流行众包排行榜上,其头把交椅已被常年竞争者 Anthropic 的顶级 Claude 3 Opus 抢走。

Claude 在 Chatbot Arena 排名中的提升标志着自去年 4 月首次出现在排行榜上以来,为 ChatGPT Plus 提供支持的 OpenAI 的 GPT-XNUMX 首次被取代。

Chatbot Arena 由大型模型系统组织 (LMSYS ORG) 运营,这是一个致力于开放模型的研究组织,支持加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教师之间的协作。该平台向用户提供两种未标记的语言模型,并要求他们根据他们认为合适的标准来评价哪一种表现更好。

在汇总了数千个主观比较后,Chatbot Arena 计算出排行榜的“最佳”模型,并随着时间的推移进行更新。

这种基于参与者不同个人品味的主观方法使 Chatbot Arena 与其他人工智能基准区别开来。模型训练者不能通过定制模型来击败算法来“作弊”,就像他们使用定量基准一样。通过衡量人们的喜好,Chatbot Arena 对于人工智能研究人员来说是一个有价值的定性资源。

平台收集用户反馈并通过 Bradley-Terry 统计模型 预测特定模型在直接竞争中优于其他模型的可能性。 这种方法 能够生成全面的统计数据,包括 Elo 评级估计的置信区间范围——与衡量国际象棋棋手技能的技术相同。

Chatbot Arena 排名前 10 名的法学硕士。图片:拥抱脸
Chatbot Arena 排名前 10 名的法学硕士。图片:拥抱脸

Claude 3 Opus 登上榜首并不是排行榜上唯一的重大进展。同样由 ​​Anthropic 开发的 Claude 3 Sonnet(免费的中型模型)和 Claude 3 Haiku(更小、更快的模型)目前分别排名第四和第六。

排行榜包括不同版本的 GPT-4,例如 GPT-4-0314(4 年 2023 月起的 GPT-4 的“原始”版本)、GPT-0613-4、GPT-1106-4-preview 和 GPT-0125 -4-预览(从 2024 年 4 月起通过 API 提供最新的 GPT-2023 Turbo 模型)。根据排名,Sonnet 和 Haiku 均优于原始 GPT-XNUMX,其中 Sonnet 还超过了 OpenAI 于 XNUMX 年 XNUMX 月推出的调整版本。

遗憾的是,这也意味着目前只有一个开源 LLM 进入前 10 名:Qwen,Starling 7b 和 Mixtral 8x7B 是前 20 名中唯一的其他开放模型。

Claude 相对于 GPT-4 的优势之一是它的 token 上下文容量和检索能力。 Claude 3 Opus 的公共版本可处理超过 200 万个令牌,该组织声称其受限版本能够处理 1 万个令牌,且检索率几乎完美。这意味着克劳德可以比其他人更有效地理解更长的提示并更有效地记住信息 与 GPT-4 Turbo 相比,它处理 128K 令牌,并在长提示下失去检索功能。

Claude 3 Opus 与 GPT-4 Turbo 的回忆准确度。图片来自 Decrypt,使用 Anthropic 和 Greg Kamradt 的数据
Claude 3 Opus 与 GPT-4 Turbo 的回忆准确度。图片来自 Decrypt,使用 Anthropic 和 Greg Kamradt 的数据。

谷歌的 双子座高级版 在人工智能助手领域也越来越受到关注。该公司提供的计划包括 Google 产品套件中的 2TB 存储和 AI 功能,价格与 Chat GPT Plus 订阅价格相同(每月 20 美元)。

免费的 Gemini Pro 目前排名第四,位于 GPT-4 Turbo 和 Claude 4 Sonnet 之间。顶级的 Gemini Ultra 型号还无法进行测试,也尚未出现在排行榜中。

编辑 小泽赖恩.

随时了解加密新闻,在您的收件箱中获取每日更新。

现货图片

最新情报

现货图片