Логотип Zephyrnet

Claude AI з Anthropic скидає ChatGPT у таблиці лідерів Chatbot Arena – Decrypt

Дата:

Незважаючи на те, що ChatGPT від Open AI користується найбільшою популярністю серед усіх інструментів генеративного штучного інтелекту, його перше місце вкрав найкращий Claude 3 Opus у багаторічного претендента Anthropic у популярній таблиці лідерів, яку використовують дослідники штучного інтелекту.

Зростання Клода в рейтингу Chatbot Arena знаменує собою перший випадок, коли OpenAI GPT-4, який підтримує ChatGPT Plus, був повалений з трону після того, як він уперше з’явився в таблиці лідерів у травні минулого року.

Chatbot Arena управляється Large Model Systems Organization (LMSYS ORG), дослідницькою організацією, яка займається відкритими моделями, які підтримують співпрацю між студентами та викладачами Каліфорнійського університету в Берклі, Каліфорнійського університету в Сан-Дієго та Університету Карнегі-Меллона. Платформа пропонує користувачам дві мовні моделі без міток і просить їх оцінити, яка з них працює краще на основі будь-яких критеріїв, які вони вважають за потрібне.

Після агрегування тисяч суб’єктивних порівнянь Chatbot Arena розраховує «найкращі» моделі для таблиці лідерів, оновлюючи її з часом.

Цей суб’єктивний підхід, заснований на різних особистих смаках учасників, є тим, що відрізняє Chatbot Arena від інших тестів ШІ. Тренери моделей не можуть «шахраювати», пристосовуючи свої моделі до алгоритму, як це було б з кількісними тестами. Вимірюючи те, що люди просто віддають перевагу, Chatbot Arena є цінним, якісним ресурсом для дослідників ШІ.

Платформа збирає відгуки користувачів і запускає їх через Статистична модель Бредлі-Террі передбачити ймовірність того, що певна модель перевершить інші в прямій конкуренції. Цей підхід дає змогу генерувати повну статистику, включаючи діапазони довірчих інтервалів для оцінки рейтингу Elo — той самий метод, який використовується для вимірювання майстерності шахістів.

10 найкращих магістрів права за рейтингом Chatbot Arena. Зображення: Huggingface
10 найкращих магістрів права за рейтингом Chatbot Arena. Зображення: Huggingface

Підйом Claude 3 Opus на вершину – не єдина значна подія в таблиці лідерів. Claude 3 Sonnet (модель середнього розміру, доступна безкоштовно) і Claude 3 Haiku (менша, швидша модель), також розроблені Anthropic, наразі займають 4 і 6 місця відповідно.

Таблиця лідерів включає різні версії GPT-4, такі як GPT-4-0314 («оригінальна» версія GPT-4 з березня 2023 року), GPT-4-0613, GPT-4-1106-preview і GPT-4 -0125-preview (остання модель GPT-4 Turbo, доступна через API із січня 2024 року). Згідно з рейтингом, Sonnet і Haiku кращі за оригінальний GPT-4, причому Sonnet також випереджає налаштовану версію, запущену OpenAI у червні 2023 року.

Це також означає, що, на жаль, наразі в топ-10 є лише один LLM з відкритим кодом: Qwen, а Starling 7b і Mixtral 8x7B є єдиними відкритими моделями в топ-20.

Однією з переваг Claude перед GPT-4 є його контекстна місткість маркерів і можливість пошуку. Загальнодоступна версія Claude 3 Opus обробляє понад 200 тисяч — і організація стверджує, що має обмежену версію, здатну обробляти 1 мільйон токенів із майже ідеальною швидкістю отримання. Це означає, що Клод може розуміти довші підказки та зберігати інформацію ефективніше, ніж порівняно з GPT-4 Turbo, який обробляє 128K токенів і втрачає свої можливості пошуку через довгі запити.

Згадайте точність Claude 3 Opus проти GPT-4 Turbo. Зображення з Decrypt з використанням даних Anthropic і Greg Kamradt
Згадайте точність Claude 3 Opus проти GPT-4 Turbo. Зображення з Decrypt з використанням даних Anthropic і Greg Kamradt.

Google, Gemini Advanced також набирає обертів у сфері помічників штучного інтелекту. Компанія пропонує план, який включає 2 ТБ пам’яті та можливості штучного інтелекту в наборі продуктів Google за тією ж ціною, що й підписка Chat GPT Plus (20 доларів на місяць).

Безкоштовна Gemini Pro наразі посідає 4 місце, між GPT-4 Turbo та Claude 3 Sonnet. Топова модель Gemini Ultra недоступна для тестування та ще не представлена ​​в рейтингу.

За редакцією Раян Озава.

Будьте в курсі криптовалютних новин, отримуйте щоденні оновлення на свою поштову скриньку.

spot_img

Остання розвідка

spot_img