Zephyrnet-logo

Claude 3 Opus neemt de eerste plaats in op de ranglijst van chatbots

Datum:

Anthropic's AI-model van de volgende generatie, Claude 3 Opus, heeft de polepositie veroverd op het Chatbot Arena-klassement, waardoor OpenAI's GPT-4 naar de tweede plaats is geduwd.

Sinds de lancering vorig jaar is dit de eerste keer dat het Claude 3 Opus-model bovenaan de Chatbot Arena-lijst staat, waarin alle drie de Claud 3-versies in de top 10 staan.

Claude 3-modellen maken indruk

De LMSYS Chatbot-arena Uit de ranglijsten blijkt dat Claude 3 Sonnet een gedeelde vierde positie innam met Gemini Pro, terwijl Claude 3 Haiku, die dit jaar werd gelanceerd, op de zesde plaats stond, samen met een eerdere versie van GPT-4.

Hoewel Claude 3 Haiku misschien niet zo intelligent als Sonnet of Opus, het model is sneller en aanzienlijk goedkoper, maar toch is het “net zo goed als de veel grotere modellen bij blinde tests”, zoals de resultaten van de arena onthullen.

“Claude 3 Haiku heeft indruk op iedereen gemaakt en heeft volgens onze gebruikersvoorkeur zelfs het GPT-4-niveau bereikt! De snelheid, mogelijkheden en contextlengte zijn nu ongeëvenaard op de markt”, legt LMSYS uit.

Wat Haiku volgens Tom's Guide indrukwekkender maakt, is dat het "het model van lokale grootte is dat vergelijkbaar is met Gemini Nano." Het kan informatierijk onderzoek lezen en verwerken papieren in minder dan drie seconden.

Het model behaalt geweldige resultaten, zelfs zonder de biljoenen plus parameterschaal van Opus of een van de GPT-4-klasse modellen.

Zou dit een kortstondig succes kunnen zijn?

Ondanks dat ze naar de tweede positie werden geduwd, domineerden de GPT-4-versies van OpenAI nog steeds de top 10 op de lijst met vier versies.

Think Tom's gids, hebben de GPT-4-versies van OpenAI in hun verschillende vormen de eerste plaats bezet “zo lang dat elk ander model dat in de buurt komt van zijn benchmarks bekend staat als een model van de GPT-4-klasse.”

Omdat er ergens dit jaar een “duidelijk andere” GPT-5 wordt verwacht, zal Anthropic die positie wellicht niet al te lang vasthouden, omdat de kloof in scores tussen Claude 3 Opus en GPT-4 klein is.

Hoewel OpenAI de lippen stijf op elkaar heeft gehouden over de daadwerkelijke release van zijn GPT-5, de markt anticipeert sterk op de lancering ervan. Het model ondergaat naar verluidt wat “rigoureuze veiligheidstests' en gesimuleerde aanvallen die cruciaal zijn vóór de release.

De LMSYS Chatbot-arena

Deze rangschikking is gebaseerd op menselijke stemmen, in tegenstelling tot andere vormen van benchmarking voor AI-modellen. Met deze rangschikken mensen blind de uitvoer van twee verschillende modellen naar dezelfde prompt.

De Chatbot Arena wordt gerund door LMSYS en beschikt over een groot aantal grote taalmodellen (LLM's) die de strijd aangaan in 'anonieme, willekeurige gevechten'.

Het werd afgelopen mei voor het eerst gelanceerd en heeft meer dan 400,000 stemmen verzameld van gebruikers die AI-modellen van Google, Anthropic en OpenAI.

“LMSYS Chatbot Arena is een crowdsourced open platform voor LLM-evaluaties. We hebben meer dan 400,000 menselijke voorkeurstemmen verzameld om LLM's te rangschikken met het Elo-ranglijstsysteem”, aldus LMSYS.

Het Elo-systeem wordt meestal gebruikt in spellen zoals schaken om de relatieve vaardigheid van een speler te evalueren. Maar in dit geval wordt de rangschikking toegepast op de chatbot en “niet op de mens die het model gebruikt.”

Lees ook: Microsoft onthult 'eerste' Surface-pc's met Copilot AI-knop

De tekortkomingen

De Chatbot Arena-ranglijst bevat geen gebrek aan fouten. Volgens Tom's Guide zijn niet alle modellen of versies van modellen opgenomen, terwijl gebruikers soms slechte ervaringen hebben met het niet laden van GPT-4. Het kan ook de voorkeur geven aan sommige modellen met live internettoegang, bijvoorbeeld Google Gemini Pro.

Terwijl andere modellen lijken op die van de Franse AI-startup mistral en Chinese bedrijven zoals Alibaba onlangs hun weg hebben gevonden naar topposities in de arena, naast open-sourcemodellen, mist de arena nog steeds een aantal spraakmakende modellen. Er ontbreken bijvoorbeeld modellen zoals Google's Gemini Pro 1.5

spot_img

Laatste intelligentie

spot_img