Claude 3 Opus prend la première place du classement des chatbots

Le modèle d'IA de nouvelle génération d'Anthropic, Claude 3 Opus, a pris la pole position dans le classement Chatbot Arena, poussant le GPT-4 d'OpenAI au deuxième rang.

Depuis son lancement l'année dernière, c'est la première fois que le modèle Claude 3 Opus arrive en tête de la liste Chatbot Arena, qui classe les trois versions Claud 3 dans le top 10.

Les modèles Claude 3 font leur marque

L'arène des chatbots LMSYS Les classements montrent que Claude 3 Sonnet occupait une quatrième position ex-æquo avec Gemini Pro tandis que Claude 3 Haiku, lancé cette année, se classait sixième avec une version antérieure de GPT-4.

Bien que Claude 3 Haïku n'est peut-être pas aussi intelligent que Sonnet ou Opus, le modèle est plus rapide et nettement moins cher, mais il est "aussi bon que les modèles beaucoup plus grands lors des tests à l'aveugle", comme le révèlent les résultats de l'arène.

« Claude 3 Haiku a tout impressionné, atteignant même le niveau GPT-4 selon nos préférences d'utilisateur ! Sa vitesse, ses capacités et la longueur du contexte sont désormais inégalées sur le marché », a expliqué LMSYS.

Selon Tom's Guide, ce qui rend Haiku plus impressionnant, c'est qu'il s'agit du « modèle de taille locale comparable à Gemini Nano ». Ça peut lire et traiter des recherches riches en informations papiers en moins de trois secondes.

Le modèle obtient d'excellents résultats même sans l'échelle de paramètres de plus de mille milliards d'Opus ou de l'un des modèles de classe GPT-4.

[Mise à jour de l'arène]

Plus de 70 XNUMX nouveaux votes Arena🗳️ sont arrivés !

Claude-3 Haiku a tout impressionné, atteignant même le niveau GPT-4 selon nos préférences d'utilisateur ! Sa vitesse, ses capacités et sa longueur de contexte sont désormais inégalées sur le marché🔥

félicitations @AnthropiqueAI sur l'incroyable lancement de Claude-3 !

Plus excitant… pic.twitter.com/p1Guuf0B3K

– lmsys.org (@lmsysorg) 26 mars 2024

Serait-ce un succès de courte durée ?

Bien qu'elles aient été repoussées à la deuxième position, les versions GPT-4 d'OpenAI dominaient toujours le top 10 de la liste avec quatre versions.

Selon Tom's Guide, les versions GPT-4 d'OpenAI sous leurs différentes formes occupent la première place « depuis si longtemps que tout autre modèle se rapprochant de ses références est connu sous le nom de modèle de classe GPT-4 ».

Avec un GPT-5 « nettement différent » attendu cette année, Anthropic pourrait ne pas conserver cette position trop longtemps, car l'écart entre les scores entre Claude 3 Opus et GPT-4 est étroit.

Même si OpenAI est resté discret sur la sortie réelle de son GPT-5, le marché attend beaucoup son lancement. Le modèle serait en train de subir quelques « des tests de sécurité rigoureux» et des attaques simulées qui sont cruciales avant la sortie.

L'arène des chatbots LMSYS

Ce classement repose sur des votes humains, par opposition à d’autres formes d’analyse comparative des modèles d’IA. Avec celui-ci, les gens classent à l’aveugle la sortie de deux modèles différents selon la même invite.

La Chatbot Arena est gérée par LMSYS et propose une multitude de grands modèles de langage (LLM) qui s'affrontent dans des « batailles aléatoires anonymes ».

Il a été lancé pour la première fois en mai dernier et a collecté plus de 400,000 XNUMX votes d'utilisateurs disposant de modèles d'IA de Google, Anthropic et OpenAI.

« LMSYS Chatbot Arena est une plateforme ouverte et participative pour les évaluations LLM. Nous avons collecté plus de 400,000 XNUMX votes de préférence humaine pour classer les LLM avec le système de classement Elo », a déclaré LMSYS.

Le système Elo est principalement utilisé dans des jeux comme les échecs pour évaluer les compétences relatives d'un joueur. Mais dans ce cas, le classement est appliqué au chatbot et « non à l’humain utilisant le modèle ».

A lire également: Microsoft dévoile les « premiers » PC Surface avec le bouton Copilot AI

Les lacunes

Le classement Chatbot Arena ne manque pas de défauts. Selon Tom's Guide, il n'inclut pas tous les modèles ou versions de modèles inclus, tandis que les utilisateurs ont parfois de mauvaises expériences avec l'échec du chargement de GPT-4. Cela peut également favoriser certains modèles disposant d’un accès Internet en direct, par exemple Google Gemini Pro.

Alors que d'autres modèles comme ceux de la startup française d'IA Mistral et que des entreprises chinoises comme Alibaba se sont récemment imposées aux premières places du marché, en plus des modèles open source, il manque encore certains modèles de haut niveau. Par exemple, il manque des modèles comme le Gemini Pro 1.5 de Google.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Intelligence de données générative

Claude 3 Opus prend la première place du classement des chatbots

Les modèles Claude 3 font leur marque

Serait-ce un succès de courte durée ?

L'arène des chatbots LMSYS

Les lacunes

Les défenseurs autrichiens contestent ChatGPT sur les données contenant des erreurs

Les défenseurs autrichiens contestent ChatGPT sur les données contenant des erreurs

Dernières informations

Le PDG de Binance condamné à la prison : le fondateur du plus grand échange cryptographique au monde incarcéré – CryptoInfoNet

Le prix du Bitcoin chute, les taureaux peuvent-ils économiser le support clé à 60 XNUMX $ ?

Inde. 72.400 ha de désert et un océan sazonien pour un énorme projet de rénovation énergétique solaire et éolienne de 30 GW.

Inde. 72,400 30 ha de désert et un marais salant saisonnier pour un projet massif d'énergie renouvelable solaire et éolienne de XNUMX GW.

Le prix du Bitcoin vacille avant la décision de la Fed sur les taux

BDAG à 30 $ d'ici 2030, surpasse le prix TON dans la meilleure crypto à acheter