Claude 3 Opus neemt de eerste plaats in op de ranglijst van chatbots

Anthropic's AI-model van de volgende generatie, Claude 3 Opus, heeft de polepositie veroverd op het Chatbot Arena-klassement, waardoor OpenAI's GPT-4 naar de tweede plaats is geduwd.

Sinds de lancering vorig jaar is dit de eerste keer dat het Claude 3 Opus-model bovenaan de Chatbot Arena-lijst staat, waarin alle drie de Claud 3-versies in de top 10 staan.

Claude 3-modellen maken indruk

De LMSYS Chatbot-arena Uit de ranglijsten blijkt dat Claude 3 Sonnet een gedeelde vierde positie innam met Gemini Pro, terwijl Claude 3 Haiku, die dit jaar werd gelanceerd, op de zesde plaats stond, samen met een eerdere versie van GPT-4.

Hoewel Claude 3 Haiku misschien niet zo intelligent als Sonnet of Opus, het model is sneller en aanzienlijk goedkoper, maar toch is het “net zo goed als de veel grotere modellen bij blinde tests”, zoals de resultaten van de arena onthullen.

“Claude 3 Haiku heeft indruk op iedereen gemaakt en heeft volgens onze gebruikersvoorkeur zelfs het GPT-4-niveau bereikt! De snelheid, mogelijkheden en contextlengte zijn nu ongeëvenaard op de markt”, legt LMSYS uit.

Wat Haiku volgens Tom's Guide indrukwekkender maakt, is dat het "het model van lokale grootte is dat vergelijkbaar is met Gemini Nano." Het kan informatierijk onderzoek lezen en verwerken papieren in minder dan drie seconden.

Het model behaalt geweldige resultaten, zelfs zonder de biljoenen plus parameterschaal van Opus of een van de GPT-4-klasse modellen.

[Arena-update]

Er zijn meer dan 70 nieuwe Arena-stemmen🗳️ binnen!

Claude-3 Haiku heeft indruk op iedereen gemaakt en heeft volgens onze gebruikersvoorkeur zelfs het GPT-4-niveau bereikt! De snelheid, mogelijkheden en contextlengte zijn nu ongeëvenaard op de markt🔥

Proficiat @AnthropicAI over de ongelooflijke lancering van de Claude-3!

Opwindender… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 maart 2024

Zou dit een kortstondig succes kunnen zijn?

Ondanks dat ze naar de tweede positie werden geduwd, domineerden de GPT-4-versies van OpenAI nog steeds de top 10 op de lijst met vier versies.

Think Tom's gids, hebben de GPT-4-versies van OpenAI in hun verschillende vormen de eerste plaats bezet “zo lang dat elk ander model dat in de buurt komt van zijn benchmarks bekend staat als een model van de GPT-4-klasse.”

Omdat er ergens dit jaar een “duidelijk andere” GPT-5 wordt verwacht, zal Anthropic die positie wellicht niet al te lang vasthouden, omdat de kloof in scores tussen Claude 3 Opus en GPT-4 klein is.

Hoewel OpenAI de lippen stijf op elkaar heeft gehouden over de daadwerkelijke release van zijn GPT-5, de markt anticipeert sterk op de lancering ervan. Het model ondergaat naar verluidt wat “rigoureuze veiligheidstests' en gesimuleerde aanvallen die cruciaal zijn vóór de release.

De LMSYS Chatbot-arena

Deze rangschikking is gebaseerd op menselijke stemmen, in tegenstelling tot andere vormen van benchmarking voor AI-modellen. Met deze rangschikken mensen blind de uitvoer van twee verschillende modellen naar dezelfde prompt.

De Chatbot Arena wordt gerund door LMSYS en beschikt over een groot aantal grote taalmodellen (LLM's) die de strijd aangaan in 'anonieme, willekeurige gevechten'.

Het werd afgelopen mei voor het eerst gelanceerd en heeft meer dan 400,000 stemmen verzameld van gebruikers die AI-modellen van Google, Anthropic en OpenAI.

“LMSYS Chatbot Arena is een crowdsourced open platform voor LLM-evaluaties. We hebben meer dan 400,000 menselijke voorkeurstemmen verzameld om LLM's te rangschikken met het Elo-ranglijstsysteem”, aldus LMSYS.

Het Elo-systeem wordt meestal gebruikt in spellen zoals schaken om de relatieve vaardigheid van een speler te evalueren. Maar in dit geval wordt de rangschikking toegepast op de chatbot en “niet op de mens die het model gebruikt.”

Lees ook: Microsoft onthult 'eerste' Surface-pc's met Copilot AI-knop

De tekortkomingen

De Chatbot Arena-ranglijst bevat geen gebrek aan fouten. Volgens Tom's Guide zijn niet alle modellen of versies van modellen opgenomen, terwijl gebruikers soms slechte ervaringen hebben met het niet laden van GPT-4. Het kan ook de voorkeur geven aan sommige modellen met live internettoegang, bijvoorbeeld Google Gemini Pro.

Terwijl andere modellen lijken op die van de Franse AI-startup mistral en Chinese bedrijven zoals Alibaba onlangs hun weg hebben gevonden naar topposities in de arena, naast open-sourcemodellen, mist de arena nog steeds een aantal spraakmakende modellen. Er ontbreken bijvoorbeeld modellen zoals Google's Gemini Pro 1.5

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Generatieve data-intelligentie

Claude 3 Opus neemt de eerste plaats in op de ranglijst van chatbots

Claude 3-modellen maken indruk

Zou dit een kortstondig succes kunnen zijn?

De LMSYS Chatbot-arena

De tekortkomingen

Berichten van AADES voor 04-26-2024

[Herinnering] CIDER-sessie – 2023 State of the Nation 2022: e-learning voor basis- en voortgezet onderwijs in Canada

Laatste intelligentie

VS eisen automatisch noodremmen op nieuwe voertuigen – Autoblog

Deze heavy-duty e-cargofiets heeft 2 kubieke meter laadruimte en kan meer dan 800 pond vervoeren – CleanTechnica

SoFi rapporteert sterke omzet en winst over het eerste kwartaal

Het gerucht ging dat de Jeep Grand Cherokee uit 2025 een 2.0-liter viercilinder als basismotor zou krijgen – Autoblog

De mememunt met kraai-thema stijgt in één week met bijna 600%

Ethereum Whales veroorzaken marktchaos met $140 miljoen aan ETH-uitverkoop