Logo Zephyrnet

Claude AI de la Anthropic răsturnează ChatGPT pe Chatbot Arena Leaderboard – Decrypt

Data:

În timp ce ChatGPT de la Open AI se bucură de cea mai mare împărtășire generală a tuturor instrumentelor AI generative, locul său de top a fost furat de Claude 3 Opus de top de la concurentul peren Anthropic pe un clasament popular, folosit de cercetătorii AI.

Ascensiunea lui Claude în clasamentul Chatbot Arena marchează pentru prima dată când GPT-4 de la OpenAI, care alimentează ChatGPT Plus, a fost detronat de când a apărut pentru prima dată în clasament în luna mai a anului trecut.

Chatbot Arena este condusă de Large Model Systems Organization (LMSYS ORG), o organizație de cercetare dedicată modelelor deschise care sprijină colaborarea între studenți și profesori de la Universitatea din California, Berkeley, UC San Diego și Carnegie Mellon University. Platforma prezintă utilizatorilor două modele de limbaj neetichetate și le cere să evalueze care dintre ele are performanțe mai bune pe baza oricăror criterii pe care le consideră potrivite.

După ce a agregat mii de comparații subiective, Chatbot Arena calculează cele „cele mai bune” modele pentru clasament, actualizându-l în timp.

Această abordare subiectivă, bazată pe gusturile personale disparate ale participanților, este ceea ce diferențiază Chatbot Arena de alte repere AI. Formatorii de modele nu pot „trișa” adaptându-și modelele pentru a depăși algoritmul, așa cum ar putea face în cazul benchmark-urilor cantitative. Măsurând ceea ce preferă oamenii, Chatbot Arena este o resursă valoroasă și calitativă pentru cercetătorii AI.

Platforma colectează feedback-ul utilizatorilor și îl rulează prin intermediul Modelul statistic Bradley-Terry pentru a prezice probabilitatea ca un anumit model să le depășească pe alții în competiția directă. Această abordare permite generarea de statistici cuprinzătoare, inclusiv intervale de interval de încredere pentru estimările de rating Elo — aceeași tehnică folosită pentru a măsura abilitățile jucătorilor de șah.

Primele 10 LLM-uri clasate de Chatbot Arena. Imagine: Huggingface
Primele 10 LLM-uri clasate de Chatbot Arena. Imagine: Huggingface

Urcarea lui Claude 3 Opus în vârf nu este singura dezvoltare semnificativă din clasament. Claude 3 Sonnet (modelul de mărime medie disponibil gratuit) și Claude 3 Haiku (un model mai mic, mai rapid), dezvoltat tot de Anthropic, se află în prezent pe locurile 4, respectiv 6.

Clasamentul include diferite versiuni de GPT-4, cum ar fi GPT-4-0314 (versiunea „originală” a GPT-4 din martie 2023), GPT-4-0613, GPT-4-1106-preview și GPT-4 -0125-preview (cel mai recent model GPT-4 Turbo disponibil prin API din ianuarie 2024). Potrivit clasamentului, Sonnet și Haiku sunt ambele mai bune decât GPT-4 original, Sonnet depășind și o versiune ajustată lansată de OpenAI în iunie 2023.

Acest lucru înseamnă, de asemenea, că, din păcate, există un singur LLM open-source în prezent în top 10: Qwen, cu Starling 7b și Mixtral 8x7B singurele alte modele deschise în top 20.

Unul dintre avantajele lui Claude față de GPT-4 este capacitatea sa de context token și capacitatea de recuperare. Versiunea publică a lui Claude 3 Opus gestionează peste 200 – iar organizația pretinde că are o versiune restricționată capabilă să gestioneze 1 milion de jetoane cu rate de recuperare aproape perfecte. Aceasta înseamnă că Claude poate înțelege solicitările mai lungi și poate reține informații mai eficient decât comparativ cu GPT-4 Turbo, care gestionează jetoane de 128 și își pierde capacitățile de recuperare cu solicitări lungi.

Precizia reamintirii Claude 3 Opus vs GPT-4 Turbo. Imagine de la Decrypt folosind date de la Anthropic și Greg Kamradt
Precizia reamintirii Claude 3 Opus vs GPT-4 Turbo. Imagine de la Decrypt folosind date de la Anthropic și Greg Kamradt.

Google Gemeni Advanced a câștigat, de asemenea, acțiune în spațiul asistentului AI. Compania oferă un plan care include 2 TB de stocare și capabilități AI în suita de produse Google la același preț ca un abonament Chat GPT Plus (20 USD pe lună).

Gemini Pro gratuit este în prezent pe locul 4, între GPT-4 Turbo și Claude 3 Sonnet. Modelul de top Gemini Ultra nu este disponibil pentru testare și nu este încă prezentat în clasament.

Editat de Ryan Ozawa.

Fiți la curent cu știrile cripto, primiți actualizări zilnice în căsuța dvs. de e-mail.

spot_img

Ultimele informații

spot_img