Claude 3 Opus がチャットボットランキングでトップの座を獲得

Anthropic の次世代 AI モデル Claude 3 Opus が Chatbot Arena のリーダーボードでポールポジションを獲得し、OpenAI の GPT-4 を XNUMX 番目に押し上げました。

昨年の発売以来、Claude 3 Opus モデルが Chatbot Arena リストでトップになったのはこれが初めてで、Claude 3 の 10 つのバージョンすべてがトップ XNUMX にランクインしています。

クロード 3 モデルが注目を集める

LMSYS チャットボットアリーナランキングによると、Claude 3 Sonnet は Gemini Pro と並んで 3 位を占め、今年発売された Claude 4 Haiku は以前のバージョンの GPT-XNUMX とともに XNUMX 位にランクされました。

しかしクロード 3 俳句 Sonnet や Opus ほどインテリジェントではないかもしれませんが、このモデルはより高速で大幅に安価ですが、アリーナの結果が明らかにしたように、「ブラインドテストでははるかに大型のモデルと同等に優れています」。

「Claude 3 Haiku はすべての人に感銘を与え、ユーザーの好みによって GPT-4 レベルに達することさえありました。その速度、機能、コンテキストの長さは、現在の市場では比類のないものです」と LMSYS 氏は説明しました。

Tom's Guide によると、Haiku をより印象的にしているのは、それが「Gemini Nano に匹敵するローカルサイズのモデル」であることです。できる情報密度の高い研究を読み取り、処理する 3 秒以内に書類を提出できます。

このモデルは、Opus や GPT-4 クラスのモデルのような XNUMX 兆を超えるパラメータースケールがなくても、優れた結果を達成しています。

【アリーナアップデート】

70 以上の新たなアリーナ投票🗳️が到着しました!

Claude-3 Haiku はすべての人に感銘を与え、ユーザーの好みによって GPT-4 レベルに達することさえありました。その速度、機能、コンテキストの長さは、現在市場で比類のないものです🔥

おめでとう @アンスロピックAI 信じられないほどのクロード3号の打ち上げについて！

もっと面白い… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 2024 年 3 月 26 日

これは短命な成功となる可能性がありますか?

4 位に押し上げられたにもかかわらず、OpenAI の GPT-10 バージョンは依然として XNUMX つのバージョンでリストのトップ XNUMX を独占しました。

によるトムのガイド, OpenAI のさまざまな形式の GPT-4 バージョンは、「そのベンチマークに近い他のモデルは GPT-4 クラスのモデルとして知られるほど、長い間」トップの座を維持してきました。

今年中に「著しく異なる」GPT-5 が登場すると予想されており、Claude 3 Opus と GPT-4 のスコアの差が狭いため、Anthropic がその地位を長く維持できない可能性があります。

OpenAI は、実際のリリースについては口を閉ざしてきましたが、 GPT-5、市場はその発売を大いに期待しています。伝えられるところによると、モデルにはいくつかの変更が加えられている「厳格な安全性テスト」とリリース前に重要な模擬攻撃。

LMSYS チャットボットアリーナ

このランキングは、AI モデルの他の形式のベンチマークとは対照的に、人間の投票に依存しています。これを使用すると、同じプロンプトに対する 2 つの異なるモデルの出力をブラインドでランク付けできます。

Chatbot Arena は LMSYS によって運営されており、「匿名のランダム化された戦闘」で戦いを繰り広げる多数の大規模言語モデル (LLM) を特徴としています。

昨年 400,000 月に初めて公開され、Google、Anthropic、および OpenAI.

「LMSYS Chatbot Arena は、LLM 評価のためのクラウドソースのオープンプラットフォームです。私たちは、Elo ランキングシステムで LLM をランク付けするために 400,000 を超える人間の好みの投票を集めました」と LMSYS は述べています。

Elo システムは主にチェスのようなゲームで、プレイヤーの相対的なスキルを評価するために使用されます。ただし、この場合、ランキングはチャットボットに適用され、「モデルを使用する人間」には適用されません。

また、お読みください。 Microsoft、Copilot AI ボタンを搭載した「初」の Surface PC を発表

欠点

チャットボットアリーナのランキングには欠点が少なくありません。 Tom's Guide によると、含まれるすべてのモデルまたはモデルのバージョンが含まれているわけではなく、ユーザーは GPT-4 のロードに失敗するというひどい経験をすることがあります。また、Google Gemini Pro など、ライブインターネットアクセスを備えた一部のモデルも有利になる可能性があります。

他のモデルにはフランスの AI スタートアップ企業のようなモデルもありますが、ミストラル最近では、オープンソースモデルに加えて、アリババのような中国企業がこの分野のトップの座に躍り出ていますが、この分野ではまだ注目度の高いモデルがいくつか欠けています。たとえば、Google の Gemini Pro 1.5 のようなモデルがありません。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

生成的データインテリジェンス

Claude 3 Opus がチャットボットランキングでトップの座を獲得

クロード 3 モデルが注目を集める

これは短命な成功となる可能性がありますか?

LMSYS チャットボットアリーナ

欠点

病気のときも健康なときも: 強さと希望を見つけるための介護者のためのガイド – ワールドニュースレポート – 医療大麻プログラムの関係

2024 年の利益の最大化: ValueZone.AI の包括的な考察

最新のインテリジェンス

英国国防長官、イタリアのウクライナへのストームシャドウミサイル供給を明らかに

ライブ中継：SpaceX、ケープカナベラルからのFalcon 23便で9基のStarlink衛星を打ち上げる

アイランダーズが第5戦に勝つための3つの鍵

レイカーズがデンバーに対して悲願の勝利を収め、シリーズでは3勝1敗となった

Falcon 9がGalileoナビゲーション衛星を打ち上げる

元サーブエンジニアが設計したNEVSエミリーGTはイタリアで製造される可能性 – Autoblog

Claude 3 Opus がチャットボットランキングでトップの座を獲得

クロード 3 モデルが注目を集める

これは短命な成功となる可能性がありますか?

LMSYS チャットボット アリーナ

欠点

最新のインテリジェンス

LMSYS チャットボットアリーナ