Logo Zephyrnet

Claude AI di Anthropic rovescia ChatGPT nella classifica di Chatbot Arena – Decrypt

Data:

Mentre ChatGPT di Open AI gode della più ampia condivisione mentale tra tutti gli strumenti di intelligenza artificiale generativa, il suo primo posto è stato rubato dal top di gamma Claude 3 Opus dell'eterno contendente Anthropic su una popolare classifica crowdsourcing utilizzata dai ricercatori di intelligenza artificiale.

L'ascesa di Claude nelle classifiche di Chatbot Arena segna la prima volta che GPT-4 di OpenAI, che alimenta ChatGPT Plus, viene detronizzato da quando è apparso per la prima volta in classifica nel maggio dello scorso anno.

Chatbot Arena è gestita da Large Model Systems Organization (LMSYS ORG), un'organizzazione di ricerca dedicata ai modelli aperti che supportano la collaborazione tra studenti e docenti dell'Università della California, Berkeley, UC San Diego e Carnegie Mellon University. La piattaforma presenta agli utenti due modelli linguistici senza etichetta e chiede loro di valutare quale funziona meglio in base ai criteri che ritengono idonei.

Dopo aver aggregato migliaia di confronti soggettivi, Chatbot Arena calcola i modelli “migliori” per la classifica, aggiornandola nel tempo.

Questo approccio soggettivo, basato sui diversi gusti personali dei partecipanti, è ciò che distingue Chatbot Arena dagli altri benchmark di intelligenza artificiale. I formatori di modelli non possono “imbrogliare” personalizzando i propri modelli per battere l’algoritmo, come potrebbero fare con i benchmark quantitativi. Misurando ciò che le persone semplicemente preferiscono, Chatbot Arena è una risorsa preziosa e qualitativa per i ricercatori sull'intelligenza artificiale.

La piattaforma raccoglie il feedback degli utenti e lo trasmette attraverso Modello statistico di Bradley-Terry per prevedere la probabilità che un particolare modello superi gli altri nella concorrenza diretta. Questo approccio consente la generazione di statistiche complete, inclusi intervalli di confidenza per le stime del punteggio Elo, la stessa tecnica utilizzata per misurare l'abilità dei giocatori di scacchi.

I primi 10 LLM classificati dalla Chatbot Arena. Immagine: faccia da abbraccio
I primi 10 LLM classificati dalla Chatbot Arena. Immagine: faccia da abbraccio

L'ascesa di Claude 3 Opus non è l'unico sviluppo significativo in classifica. Claude 3 Sonnet (il modello di medie dimensioni disponibile gratuitamente) e Claude 3 Haiku (un modello più piccolo e più veloce), anch'essi sviluppati da Anthropic, sono attualmente rispettivamente al 4° e 6° posto.

La classifica include diverse versioni di GPT-4, come GPT-4-0314 (la versione "originale" di GPT-4 di marzo 2023), GPT-4-0613, GPT-4-1106-preview e GPT-4 -0125-preview (l'ultimo modello GPT-4 Turbo disponibile tramite API da gennaio 2024). Secondo la classifica, Sonnet e Haiku sono entrambi migliori dell'originale GPT-4 e Sonnet supera anche una versione ottimizzata lanciata da OpenAI nel giugno 2023.

Ciò significa anche che, purtroppo, c’è un solo LLM open source attualmente nella top 10: Qwen, con Starling 7b e Mixtral 8x7B gli unici altri modelli open nella top 20.

Uno dei vantaggi di Claude rispetto a GPT-4 è la capacità di contesto dei token e di recupero. La versione pubblica di Claude 3 Opus gestisce oltre 200 token e l'organizzazione afferma di avere una versione limitata in grado di gestire 1 milione di token con tassi di recupero quasi perfetti. Ciò significa che Claude può comprendere istruzioni più lunghe e conservare le informazioni in modo più efficace rispetto a rispetto a GPT-4 Turbo, che gestisce token da 128 e perde le sue capacità di recupero con richieste lunghe.

Precisione del richiamo di Claude 3 Opus rispetto a GPT-4 Turbo. Immagine da Decrypt utilizzando dati di Anthropic e Greg Kamradt
Precisione del richiamo di Claude 3 Opus rispetto a GPT-4 Turbo. Immagine da Decrypt utilizzando dati di Anthropic e Greg Kamradt.

Google Gemelli Avanzati ha anche guadagnato terreno nello spazio dell'assistente AI. L'azienda offre un piano che include 2 TB di spazio di archiviazione e funzionalità AI nella suite di prodotti Google allo stesso prezzo di un abbonamento Chat GPT Plus ($ 20 al mese).

Il Gemini Pro gratuito è attualmente classificato al numero 4, tra GPT-4 Turbo e Claude 3 Sonnet. Il modello top di gamma Gemini Ultra non è disponibile per i test e non è ancora presente nelle classifiche.

A cura di Ryan Ozawa.

Rimani aggiornato sulle notizie crittografiche, ricevi aggiornamenti quotidiani nella tua casella di posta.

spot_img

L'ultima intelligenza

spot_img