Zephyrnet-logotyp

Anthropics Claude AI störtar ChatGPT på Chatbot Arena Leaderboard – Dekryptera

Datum:

Medan ChatGPT från Open AI åtnjuter den största mainstream-mindshare av alla generativa AI-verktyg, har dess topplacering stulits av top-of-the-line Claude 3 Opus från den fleråriga utmanaren Anthropic på en populär publiktavla som används av AI-forskare.

Claudes uppstigning i Chatbot Arena-rankingen markerar första gången som OpenAI:s GPT-4, som driver ChatGPT Plus, har avsatts sedan den först dök upp på topplistan i maj förra året.

Chatbot Arena drivs av Large Model Systems Organization (LMSYS ORG), en forskningsorganisation dedikerad till öppna modeller som stödjer samarbete mellan studenter och lärare vid University of California, Berkeley, UC San Diego och Carnegie Mellon University. Plattformen ger användarna två omärkta språkmodeller och ber dem att betygsätta vilken som presterar bäst baserat på de kriterier de anser lämpliga.

Efter att ha sammanställt tusentals subjektiva jämförelser, beräknar Chatbot Arena de "bästa" modellerna för topplistan och uppdaterar den över tid.

Det subjektiva förhållningssättet, baserat på deltagarnas olika personliga smak, är det som skiljer Chatbot Arena från andra AI-riktmärken. Modelltränare kan inte "fuska" genom att skräddarsy sina modeller för att slå algoritmen, som de kan med kvantitativa riktmärken. Genom att mäta vad människor helt enkelt föredrar är Chatbot Arena en värdefull, kvalitativ resurs för AI-forskare.

Plattformen samlar in användarnas feedback och kör den genom Bradley-Terry statistisk modell att förutsäga sannolikheten för att en viss modell överträffar andra i direkt konkurrens. Detta tillvägagångssätt möjliggör generering av omfattande statistik, inklusive konfidensintervallintervall för Elo-värderingsuppskattningar – samma teknik som används för att mäta skickligheten hos schackspelare.

De 10 bästa LLM:erna rankade av Chatbot Arena. Bild: Huggingface
De 10 bästa LLM:erna rankade av Chatbot Arena. Bild: Huggingface

Claude 3 Opus uppgång till toppen är inte den enda betydande utvecklingen på topplistan. Claude 3 Sonnet (den medelstora modellen tillgänglig gratis) och Claude 3 Haiku (en mindre, snabbare modell), också utvecklad av Anthropic, ligger för närvarande på 4:e respektive 6:e plats.

Topplistan innehåller olika versioner av GPT-4, till exempel GPT-4-0314 (den "original" versionen av GPT-4 från mars 2023), GPT-4-0613, GPT-4-1106-förhandsvisning och GPT-4 -0125-förhandsvisning (den senaste GPT-4 Turbo-modellen tillgänglig via API från januari 2024). Enligt rankningen är Sonnet och Haiku båda bättre än den ursprungliga GPT-4 med Sonnet som också överträffar en finjusterad version som lanserades av OpenAI i juni 2023.

Detta betyder också att det tyvärr bara finns en öppen källkod LLM för närvarande i topp 10: Qwen, med Starling 7b och Mixtral 8x7B de enda andra öppna modellerna i topp 20.

En av fördelarna med Claude framför GPT-4 är dess tokenkontextkapacitet och hämtningsförmåga. Den offentliga versionen av Claude 3 Opus hanterar över 200 1 — och organisationen påstår sig ha en begränsad version som kan hantera XNUMX miljon tokens med nästan perfekta hämtningshastigheter. Detta innebär att Claude kan förstå längre uppmaningar och behålla information mer effektivt än jämfört med GPT-4 Turbo, som hanterar 128K tokens och förlorar sina hämtningsmöjligheter med långa uppmaningar.

Kom ihåg noggrannheten hos Claude 3 Opus vs GPT-4 Turbo. Bild från Dekryptera med data från Anthropic och Greg Kamradt
Kom ihåg noggrannheten hos Claude 3 Opus vs GPT-4 Turbo. Bild från Dekryptera med data från Anthropic och Greg Kamradt.

Googles Gemini Advanced har också fått draghjälp i AI-assistentutrymmet. Företaget erbjuder en plan som inkluderar 2 TB lagringsutrymme och AI-funktioner i sviten av Google-produkter för samma pris som en Chat GPT Plus-prenumeration ($20 per månad).

Gratis Gemini Pro är för närvarande rankad som nummer 4, mellan GPT-4 Turbo och Claude 3 Sonnet. Den förstklassiga Gemini Ultra-modellen är inte tillgänglig för testning och finns ännu inte med i rankingen.

Redigerad av Ryan Ozawa.

Håll dig uppdaterad om kryptonyheter, få dagliga uppdateringar i din inkorg.

plats_img

Senaste intelligens

plats_img