Zephyrnet-Logo

Claude AI von Anthropic stürzt ChatGPT im Chatbot Arena Leaderboard – Decrypt

Datum:

Während ChatGPT von Open AI den größten Mainstream-Mindshare aller generativen KI-Tools genießt, wurde ihm der Spitzenplatz Claude 3 Opus vom Dauerkonkurrenten Anthropic auf einer beliebten Crowdsourcing-Bestenliste, die von KI-Forschern verwendet wird, gestohlen.

Claudes Aufstieg in der Rangliste der Chatbot Arena markiert das erste Mal, dass OpenAIs GPT-4, das ChatGPT Plus antreibt, seit seinem ersten Erscheinen auf der Bestenliste im Mai letzten Jahres entthront wurde.

Chatbot Arena wird von der Large Model Systems Organization (LMSYS ORG) betrieben, einer Forschungsorganisation, die sich offenen Modellen widmet, die die Zusammenarbeit zwischen Studenten und Lehrkräften an der University of California, Berkeley, der UC San Diego und der Carnegie Mellon University unterstützen. Die Plattform präsentiert Benutzern zwei unbeschriftete Sprachmodelle und bittet sie, anhand der von ihnen für geeignet erachteten Kriterien zu bewerten, welches davon besser abschneidet.

Nach der Zusammenstellung Tausender subjektiver Vergleiche berechnet Chatbot Arena die „besten“ Modelle für die Bestenliste und aktualisiert sie im Laufe der Zeit.

Dieser subjektive Ansatz, der auf den unterschiedlichen persönlichen Vorlieben der Teilnehmer basiert, unterscheidet Chatbot Arena von anderen KI-Benchmarks. Modelltrainer können nicht „schummeln“, indem sie ihre Modelle so anpassen, dass sie den Algorithmus übertreffen, wie dies bei quantitativen Benchmarks der Fall wäre. Durch die Messung dessen, was Menschen einfach bevorzugen, ist Chatbot Arena eine wertvolle, qualitative Ressource für KI-Forscher.

Die Plattform sammelt das Feedback der Benutzer und leitet es weiter Statistisches Bradley-Terry-Modell um die Wahrscheinlichkeit vorherzusagen, dass ein bestimmtes Modell andere im direkten Wettbewerb übertrifft. Dieser Ansatz ermöglicht die Erstellung umfassender Statistiken, einschließlich Konfidenzintervallbereichen für Elo-Bewertungsschätzungen – dieselbe Technik, die auch zur Messung der Fähigkeiten von Schachspielern verwendet wird.

Die 10 besten LLMs im Ranking der Chatbot Arena. Bild: Huggingface
Die 10 besten LLMs im Ranking der Chatbot Arena. Bild: Huggingface

Der Aufstieg von Claude 3 Opus an die Spitze ist nicht die einzige bedeutende Entwicklung in der Rangliste. Claude 3 Sonnet (das kostenlos erhältliche mittelgroße Modell) und Claude 3 Haiku (ein kleineres, schnelleres Modell), ebenfalls von Anthropic entwickelt, liegen derzeit auf dem 4. bzw. 6. Platz.

Die Rangliste umfasst verschiedene Versionen von GPT-4, wie zum Beispiel GPT-4-0314 (die „ursprüngliche“ Version von GPT-4 vom März 2023), GPT-4-0613, GPT-4-1106-preview und GPT-4 -0125-preview (das neueste GPT-4 Turbo-Modell, das ab Januar 2024 über API verfügbar ist). Dem Ranking zufolge sind Sonnet und Haiku beide besser als das ursprüngliche GPT-4, wobei Sonnet auch eine optimierte Version übertrifft, die von OpenAI im Juni 2023 veröffentlicht wurde.

Das bedeutet leider auch, dass es derzeit leider nur ein Open-Source-LLM in den Top 10 gibt: Qwen, wobei Starling 7b und Mixtral 8x7B die einzigen anderen offenen Modelle in den Top 20 sind.

Einer der Vorteile von Claude gegenüber GPT-4 ist seine Token-Kontextkapazität und Abruffähigkeit. Die öffentliche Version von Claude 3 Opus verarbeitet über 200 – und die Organisation gibt an, über eine eingeschränkte Version zu verfügen, die 1 Million Token mit nahezu perfekten Abrufraten verarbeiten kann. Dies bedeutet, dass Claude längere Aufforderungen besser verstehen und Informationen effektiver behalten kann als im Vergleich zum GPT-4 Turbo, das 128K-Tokens verarbeitet und bei langen Eingabeaufforderungen seine Abruffunktionen verliert.

Erinnern Sie sich an die Genauigkeit von Claude 3 Opus vs. GPT-4 Turbo. Bild von Decrypt unter Verwendung von Daten von Anthropic und Greg Kamradt
Erinnern Sie sich an die Genauigkeit von Claude 3 Opus vs. GPT-4 Turbo. Bild von Decrypt unter Verwendung von Daten von Anthropic und Greg Kamradt.

Google Zwillinge Fortgeschritten hat auch im Bereich der KI-Assistenten an Bedeutung gewonnen. Das Unternehmen bietet einen Plan an, der 2 TB Speicher und KI-Funktionen in der Suite von Google-Produkten zum gleichen Preis wie ein Chat GPT Plus-Abonnement (20 US-Dollar pro Monat) umfasst.

Das kostenlose Gemini Pro liegt derzeit auf Platz 4, zwischen GPT-4 Turbo und Claude 3 Sonnet. Das Spitzenmodell Gemini Ultra steht nicht zum Testen zur Verfügung und ist noch nicht in der Rangliste vertreten.

Herausgegeben von Ryan Ozawa.

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang.

spot_img

Neueste Intelligenz

spot_img