Logo Zephyrnet

Claude AI firmy Anthropic obala ChatGPT na tablicy liderów Chatbot Arena – odszyfruj

Data:

Chociaż ChatGPT z Open AI cieszy się największym udziałem wśród wszystkich generatywnych narzędzi AI, jego czołowe miejsce zostało skradzione przez najwyższej klasy Claude 3 Opus od wieloletniego rywala Anthropic na popularnej tablicy liderów pozyskiwanej z crowdsourcingu używanej przez badaczy sztucznej inteligencji.

Awans Claude'a w rankingach Chatbot Arena to pierwszy raz, kiedy GPT-4 OpenAI, na którym opiera się ChatGPT Plus, został zdetronizowany od czasu, gdy po raz pierwszy pojawił się na tablicy wyników w maju ubiegłego roku.

Chatbot Arena jest prowadzona przez Large Model Systems Organisation (LMSYS ORG), organizację badawczą zajmującą się otwartymi modelami, które wspierają współpracę między studentami i wykładowcami Uniwersytetu Kalifornijskiego w Berkeley, Kalifornijskiego San Diego i Carnegie Mellon University. Platforma przedstawia użytkownikom dwa nieoznaczone modele językowe i prosi ich o ocenę, który z nich działa lepiej, na podstawie dowolnych kryteriów, które uznają za odpowiednie.

Po zagregowaniu tysięcy subiektywnych porównań Chatbot Arena oblicza „najlepsze” modele tabeli liderów, aktualizując je z biegiem czasu.

To subiektywne podejście, oparte na odmiennych osobistych gustach uczestników, odróżnia Chatbot Arena od innych testów porównawczych AI. Trenerzy modeli nie mogą „oszukiwać”, dostosowując swoje modele tak, aby pokonały algorytm, tak jak mogłoby się to zdarzyć w przypadku testów ilościowych. Mierząc to, co ludzie po prostu preferują, Chatbot Arena jest cennym, jakościowym zasobem dla badaczy sztucznej inteligencji.

Platforma zbiera opinie użytkowników i przepuszcza je przez Model statystyczny Bradleya-Terry'ego aby przewidzieć prawdopodobieństwo, że dany model będzie lepszy od innych w bezpośredniej konkurencji. To podejście umożliwia generowanie kompleksowych statystyk, w tym zakresów przedziałów ufności dla szacunków rankingu Elo — tej samej techniki stosowanej do pomiaru umiejętności szachistów.

10 najlepszych LLM w rankingu Chatbot Arena. Obraz: Przytulona twarz
10 najlepszych LLM w rankingu Chatbot Arena. Obraz: Przytulona twarz

Awans Claude 3 Opus na szczyt to nie jedyny znaczący rozwój w tabeli liderów. Claude 3 Sonnet (średni model dostępny za darmo) i Claude 3 Haiku (mniejszy, szybszy model), również opracowane przez Anthropic, zajmują obecnie odpowiednio 4. i 6. miejsce.

Tabela liderów obejmuje różne wersje GPT-4, takie jak GPT-4-0314 („oryginalna” wersja GPT-4 z marca 2023 r.), GPT-4-0613, GPT-4-1106-preview i GPT-4 -0125-preview (najnowszy model GPT-4 Turbo dostępny poprzez API od stycznia 2024). Według rankingu zarówno Sonnet, jak i Haiku są lepsze od oryginalnego GPT-4, przy czym Sonnet również przewyższa ulepszoną wersję uruchomioną przez OpenAI w czerwcu 2023 r.

Oznacza to również, że niestety w pierwszej dziesiątce znajduje się obecnie tylko jeden model LLM typu open source: Qwen, a Starling 10b i Mixtral 7x8B to jedyne otwarte modele w pierwszej dwudziestce.

Jedną z zalet Claude w porównaniu z GPT-4 jest pojemność kontekstu tokena i możliwość wyszukiwania. Publiczna wersja Claude 3 Opus obsługuje ponad 200 tys. — a organizacja twierdzi, że ma wersję z ograniczeniami, zdolną obsłużyć 1 milion tokenów z niemal idealną szybkością pobierania. Oznacza to, że Claude może zrozumieć dłuższe podpowiedzi i skuteczniej zapamiętywać informacje w porównaniu do GPT-4 Turbo, który obsługuje tokeny o wielkości 128 KB i traci możliwości wyszukiwania z powodu długich monitów.

Przypomnij sobie dokładność Claude 3 Opus vs GPT-4 Turbo. Obraz z Decrypt przy użyciu danych z Anthropic i Grega Kamradta
Przypomnij sobie dokładność Claude 3 Opus vs GPT-4 Turbo. Obraz z Decrypt przy użyciu danych z Anthropic i Grega Kamradta.

Google'a Bliźnięta zaawansowane zyskuje również na popularności w przestrzeni asystentów AI. Firma oferuje plan obejmujący 2 TB przestrzeni dyskowej i funkcje AI w pakiecie produktów Google za tę samą cenę, co subskrypcja Chat GPT Plus (20 USD miesięcznie).

Bezpłatny Gemini Pro znajduje się obecnie na 4. miejscu, pomiędzy GPT-4 Turbo i Claude 3 Sonnet. Najwyższej klasy model Gemini Ultra nie jest dostępny do testów i nie pojawia się jeszcze w rankingach.

Edytowany przez Ryana Ozawy.

Bądź na bieżąco z wiadomościami o kryptowalutach, otrzymuj codzienne aktualizacje w swojej skrzynce odbiorczej.

spot_img

Najnowsza inteligencja

spot_img