Zephyrnet-logo

Claude AI van Anthropic gooit ChatGPT omver op het Chatbot Arena-klassement – ​​Decrypt

Datum:

Hoewel ChatGPT van Open AI de grootste mainstream mindshare heeft van alle generatieve AI-tools, is zijn eerste plaats gestolen door de topklasse Claude 3 Opus van eeuwige mededinger Anthropic op een populair crowdsourced klassement dat wordt gebruikt door AI-onderzoekers.

Claude's stijging in de Chatbot Arena-ranglijst markeert de eerste keer dat OpenAI's GPT-4, die ChatGPT Plus aanstuurt, is onttroond sinds het voor het eerst op het klassement verscheen in mei vorig jaar.

Chatbot Arena wordt gerund door Large Model Systems Organization (LMSYS ORG), een onderzoeksorganisatie die zich toelegt op open modellen die de samenwerking tussen studenten en docenten van de University of California, Berkeley, UC San Diego en Carnegie Mellon University ondersteunen. Het platform biedt gebruikers twee ongelabelde taalmodellen en vraagt ​​hen om te beoordelen welke beter presteert op basis van de criteria die zij geschikt achten.

Na duizenden subjectieve vergelijkingen te hebben verzameld, berekent Chatbot Arena de “beste” modellen voor het klassement en werkt deze in de loop van de tijd bij.

Die subjectieve benadering, gebaseerd op de uiteenlopende persoonlijke smaak van de deelnemers, is wat Chatbot Arena onderscheidt van andere AI-benchmarks. Modeltrainers kunnen niet “vals spelen” door hun modellen zo aan te passen dat ze het algoritme verslaan, zoals ze dat wel zouden kunnen doen met kwantitatieve benchmarks. Door te meten waar mensen simpelweg de voorkeur aan geven, is Chatbot Arena een waardevolle, kwalitatieve hulpbron voor AI-onderzoekers.

Het platform verzamelt de feedback van gebruikers en voert deze door Statistisch model van Bradley-Terry om de waarschijnlijkheid te voorspellen dat een bepaald model beter presteert dan andere in directe concurrentie. Deze aanpak maakt het genereren van uitgebreide statistieken mogelijk, inclusief betrouwbaarheidsintervallen voor schattingen van Elo-ratings - dezelfde techniek die wordt gebruikt om de vaardigheid van schakers te meten.

De top 10 LLM's gerangschikt door de Chatbot Arena. Afbeelding: Knuffelgezicht
De top 10 LLM's gerangschikt door de Chatbot Arena. Afbeelding: Knuffelgezicht

De opkomst van Claude 3 Opus naar de top is niet de enige belangrijke ontwikkeling op het klassement. Claude 3 Sonnet (het middelgrote model dat gratis verkrijgbaar is) en Claude 3 Haiku (een kleiner, sneller model), eveneens ontwikkeld door Anthropic, staan ​​momenteel respectievelijk op de 4e en 6e plaats.

Het klassement bevat verschillende versies van GPT-4, zoals GPT-4-0314 (de “originele” versie van GPT-4 uit maart 2023), GPT-4-0613, GPT-4-1106-preview en GPT-4 -0125-preview (het nieuwste GPT-4 Turbo-model beschikbaar via API vanaf januari 2024). Volgens de ranglijst zijn Sonnet en Haiku beide beter dan de originele GPT-4, waarbij Sonnet ook beter presteert dan een aangepaste versie die in juni 2023 door OpenAI werd gelanceerd.

Dit betekent ook dat er momenteel helaas maar één open-source LLM in de top 10 staat: Qwen, met Starling 7b en Mixtral 8x7B de enige andere open modellen in de top 20.

Een van de voordelen van Claude ten opzichte van GPT-4 is de capaciteit voor tokencontext en het ophalen ervan. De openbare versie van Claude 3 Opus verwerkt meer dan 200 tokens, en de organisatie beweert een beperkte versie te hebben die 1 miljoen tokens kan verwerken met bijna perfecte ophaalpercentages. Dit betekent dat Claude langere aanwijzingen kan begrijpen en informatie effectiever kan onthouden vergeleken met GPT-4 Turbo, dat 128K-tokens verwerkt en zijn ophaalmogelijkheden verliest bij lange prompts.

Herinner de nauwkeurigheid van Claude 3 Opus versus GPT-4 Turbo. Afbeelding van Decrypt met behulp van gegevens van Anthropic en Greg Kamradt
Herinner de nauwkeurigheid van Claude 3 Opus versus GPT-4 Turbo. Afbeelding van Decrypt met behulp van gegevens van Anthropic en Greg Kamradt.

Google Gemini Geavanceerd heeft ook terrein gewonnen op het gebied van AI-assistenten. Het bedrijf biedt een abonnement met 2 TB aan opslagruimte en AI-mogelijkheden in de suite van Google-producten voor dezelfde prijs als een Chat GPT Plus-abonnement ($ 20 per maand).

De gratis Gemini Pro staat momenteel op nummer 4, tussen GPT-4 Turbo en Claude 3 Sonnet. Het topmodel Gemini Ultra is niet beschikbaar om te testen en staat nog niet in de ranglijst.

Bewerkt door Ryan Ozawa.

Blijf op de hoogte van cryptonieuws, ontvang dagelijkse updates in je inbox.

spot_img

Laatste intelligentie

spot_img