Zephyrnet-logo

Anthropics Claude AI styrter ChatGPT på Chatbot Arena Leaderboard – Dekrypter

Dato:

Mens ChatGPT fra Open AI nyter den største mainstream-tankedelingen av alle generative AI-verktøy, har dens topplassering blitt stjålet av top-of-the-line Claude 3 Opus fra den flerårige konkurrenten Anthropic på en populær crowdsourcet leaderboard brukt av AI-forskere.

Claudes oppstigning i Chatbot Arena-rangeringen markerer første gang at OpenAIs GPT-4, som driver ChatGPT Plus, har blitt detronisert siden den først dukket opp på ledertavlen i mai i fjor.

Chatbot Arena drives av Large Model Systems Organization (LMSYS ORG), en forskningsorganisasjon dedikert til åpne modeller som støtter samarbeid mellom studenter og fakultet ved University of California, Berkeley, UC San Diego og Carnegie Mellon University. Plattformen presenterer brukere for to umerkede språkmodeller og ber dem vurdere hvilken som gir best resultater basert på kriteriene de finner passende.

Etter å ha samlet tusenvis av subjektive sammenligninger, beregner Chatbot Arena de "beste" modellene for ledertavlen, og oppdaterer den over tid.

Den subjektive tilnærmingen, basert på deltakernes ulike personlige smak, er det som skiller Chatbot Arena fra andre AI-standarder. Modelltrenere kan ikke "jukse" ved å skreddersy modellene sine for å slå algoritmen, slik de kan gjøre med kvantitative benchmarks. Ved å måle hva folk rett og slett foretrekker, er Chatbot Arena en verdifull, kvalitativ ressurs for AI-forskere.

Plattformen samler brukernes tilbakemeldinger og kjører den gjennom Bradley-Terry statistisk modell å forutsi sannsynligheten for at en bestemt modell overgår andre i direkte konkurranse. Denne tilnærmingen muliggjør generering av omfattende statistikk, inkludert konfidensintervallområder for Elo-vurderingsestimater – den samme teknikken som brukes til å måle ferdighetene til sjakkspillere.

De 10 beste LLM-ene rangert av Chatbot Arena. Bilde: Huggingface
De 10 beste LLM-ene rangert av Chatbot Arena. Bilde: Huggingface

Claude 3 Opus' stigning til toppen er ikke den eneste betydelige utviklingen på ledertavlen. Claude 3 Sonnet (den mellomstore modellen tilgjengelig gratis) og Claude 3 Haiku (en mindre, raskere modell), også utviklet av Anthropic, ligger for tiden på henholdsvis 4. og 6. plass.

Leaderboardet inkluderer forskjellige versjoner av GPT-4, for eksempel GPT-4-0314 (den «originale» versjonen av GPT-4 fra mars 2023), GPT-4-0613, GPT-4-1106-forhåndsvisning og GPT-4 -0125-forhåndsvisning (den siste GPT-4 Turbo-modellen tilgjengelig via API fra januar 2024). I følge rangeringen er Sonnet og Haiku begge bedre enn den originale GPT-4, med Sonnet som også overgår en finjustert versjon lansert av OpenAI i juni 2023.

Dette betyr også at det dessverre bare er én åpen kildekode LLM i topp 10: Qwen, med Starling 7b og Mixtral 8x7B de eneste andre åpne modellene i topp 20.

En av fordelene med Claude fremfor GPT-4 er dens token-kontekstkapasitet og gjenfinningsevne. Den offentlige versjonen av Claude 3 Opus håndterer over 200K—og organisasjonen hevder å ha en begrenset versjon som kan håndtere 1 million tokens med nesten perfekte gjenfinningshastigheter. Dette betyr at Claude kan forstå lengre forespørsler og beholde informasjon mer effektivt enn sammenlignet med GPT-4 Turbo, som håndterer 128K tokens og mister gjenfinningsmulighetene med lange meldinger.

Husk nøyaktigheten til Claude 3 Opus vs GPT-4 Turbo. Bilde fra Dekrypter ved hjelp av data fra Anthropic og Greg Kamradt
Husk nøyaktigheten til Claude 3 Opus vs GPT-4 Turbo. Bilde fra Dekrypter ved hjelp av data fra Anthropic og Greg Kamradt.

Googles Gemini avansert har også fått gjennomslag i AI-assistentplassen. Selskapet tilbyr en plan som inkluderer 2 TB lagringsplass og AI-funksjoner i pakken med Google-produkter for samme pris som et Chat GPT Plus-abonnement ($20 per måned).

Den gratis Gemini Pro er for øyeblikket rangert som nummer 4, mellom GPT-4 Turbo og Claude 3 Sonnet. Top-of-the-line Gemini Ultra-modellen er utilgjengelig for testing og er ennå ikke omtalt i rangeringen.

Redigert av Ryan Ozawa.

Hold deg oppdatert på kryptonyheter, få daglige oppdateringer i innboksen din.

spot_img

Siste etterretning

spot_img