Logo Zéphyrnet

Claude AI d'Anthropic renverse ChatGPT dans le classement Chatbot Arena – Décrypter

Date :

Alors que ChatGPT d'Open AI bénéficie de la plus grande part d'esprit grand public de tous les outils d'IA générative, sa première place a été volée par le haut de gamme Claude 3 Opus au concurrent éternel Anthropic dans un classement participatif populaire utilisé par les chercheurs en IA.

L'ascension de Claude dans le classement Chatbot Arena marque la première fois que le GPT-4 d'OpenAI, qui alimente ChatGPT Plus, est détrôné depuis sa première apparition dans le classement en mai de l'année dernière.

Chatbot Arena est géré par Large Model Systems Organization (LMSYS ORG), une organisation de recherche dédiée aux modèles ouverts qui soutiennent la collaboration entre les étudiants et les professeurs de l'Université de Californie à Berkeley, de l'UC San Diego et de l'Université Carnegie Mellon. La plate-forme présente aux utilisateurs deux modèles de langage non étiquetés et leur demande d'évaluer lequel est le plus performant en fonction des critères qu'ils jugent appropriés.

Après avoir agrégé des milliers de comparaisons subjectives, Chatbot Arena calcule les « meilleurs » modèles pour le classement et le met à jour au fil du temps.

Cette approche subjective, basée sur les goûts personnels disparates des participants, est ce qui distingue Chatbot Arena des autres références en matière d'IA. Les formateurs de modèles ne peuvent pas « tricher » en adaptant leurs modèles pour battre l’algorithme, comme ils le feraient avec des références quantitatives. En mesurant simplement ce que les gens préfèrent, Chatbot Arena constitue une ressource précieuse et qualitative pour les chercheurs en IA.

La plateforme collecte les commentaires des utilisateurs et les diffuse via le Modèle statistique de Bradley-Terry pour prédire la probabilité qu'un modèle particulier surpasse les autres en concurrence directe. Cette approche permet la génération de statistiques complètes, y compris des plages d'intervalles de confiance pour les estimations de notation Elo, la même technique utilisée pour mesurer les compétences des joueurs d'échecs.

Les 10 meilleurs LLM classés par la Chatbot Arena. Image : Visage câlin
Les 10 meilleurs LLM classés par la Chatbot Arena. Image : Visage câlin

La montée en puissance de Claude 3 Opus n'est pas la seule évolution marquante du classement. Claude 3 Sonnet (le modèle de taille moyenne disponible gratuitement) et Claude 3 Haiku (un modèle plus petit et plus rapide), également développés par Anthropic, occupent actuellement respectivement la 4e et la 6e place.

Le classement comprend différentes versions de GPT-4, telles que GPT-4-0314 (la version « originale » de GPT-4 de mars 2023), GPT-4-0613, GPT-4-1106-preview et GPT-4. -0125-preview (le dernier modèle GPT-4 Turbo disponible via API à partir de janvier 2024). Selon le classement, Sonnet et Haiku sont tous deux meilleurs que le GPT-4 original, Sonnet devançant également une version modifiée lancée par OpenAI en juin 2023.

Cela signifie également que, malheureusement, il n'y a actuellement qu'un seul LLM open source dans le top 10 : Qwen, Starling 7b et Mixtral 8x7B étant les seuls autres modèles ouverts dans le top 20.

L'un des avantages de Claude par rapport à GPT-4 est sa capacité de contexte de jeton et sa capacité de récupération. La version publique de Claude 3 Opus gère plus de 200 1 jetons et l'organisation prétend disposer d'une version restreinte capable de gérer XNUMX million de jetons avec des taux de récupération presque parfaits. Cela signifie que Claude peut comprendre des invites plus longues et retenir les informations plus efficacement que par rapport à GPT-4 Turbo, qui gère 128 XNUMX jetons et perd ses capacités de récupération avec de longues invites.

Rappel de la précision de Claude 3 Opus vs GPT-4 Turbo. Image de Decrypt utilisant les données d'Anthropic et Greg Kamradt
Rappel de la précision de Claude 3 Opus vs GPT-4 Turbo. Image de Decrypt utilisant les données d'Anthropic et Greg Kamradt.

Google Gémeaux Avancé a également gagné du terrain dans le domaine des assistants IA. La société propose un forfait comprenant 2 To de stockage et des capacités d'IA dans la suite de produits Google pour le même prix qu'un abonnement Chat GPT Plus (20 $ par mois).

Le Gemini Pro gratuit est actuellement classé numéro 4, entre GPT-4 Turbo et Claude 3 Sonnet. Le modèle haut de gamme Gemini Ultra n'est pas disponible pour les tests et ne figure pas encore dans le classement.

Édité par Ryan Ozawa.

Restez au courant des actualités cryptographiques, recevez des mises à jour quotidiennes dans votre boîte de réception.

spot_img

Dernières informations

spot_img