Logo Zephyrnet

Claude AI của Anthropic lật đổ ChatGPT trên Bảng xếp hạng Đấu trường Chatbot – Giải mã

Ngày:

Trong khi ChatGPT từ Open AI có được sự chia sẻ tư duy phổ biến nhất trong tất cả các công cụ AI tổng hợp, thì vị trí hàng đầu của nó đã bị đánh cắp bởi Claude 3 Opus hàng đầu từ đối thủ lâu năm Anthropic trên bảng xếp hạng nguồn lực cộng đồng phổ biến được các nhà nghiên cứu AI sử dụng.

Việc Claude thăng hạng trong bảng xếp hạng Chatbot Arena đánh dấu lần đầu tiên GPT-4 của OpenAI, hỗ trợ ChatGPT Plus, bị truất ngôi kể từ khi nó xuất hiện lần đầu trên bảng xếp hạng vào tháng XNUMX năm ngoái.

Chatbot Arena được điều hành bởi Tổ chức Hệ thống Mô hình Lớn (LMSYS ORG), một tổ chức nghiên cứu chuyên về các mô hình mở hỗ trợ sự hợp tác giữa sinh viên và giảng viên tại Đại học California, Berkeley, UC San Diego và Đại học Carnegie Mellon. Nền tảng này cung cấp cho người dùng hai mô hình ngôn ngữ chưa được gắn nhãn và yêu cầu họ đánh giá mô hình nào hoạt động tốt hơn dựa trên bất kỳ tiêu chí nào mà họ cho là phù hợp.

Sau khi tổng hợp hàng nghìn so sánh chủ quan, Chatbot Arena tính toán những mô hình “tốt nhất” cho bảng xếp hạng, cập nhật theo thời gian.

Cách tiếp cận chủ quan đó, dựa trên sở thích cá nhân khác nhau của người tham gia, là điều khiến Chatbot Arena khác biệt so với các tiêu chuẩn AI khác. Người huấn luyện mô hình không thể “gian lận” bằng cách điều chỉnh mô hình của họ để đánh bại thuật toán, như họ có thể làm với các điểm chuẩn định lượng. Bằng cách đo lường những gì mọi người thích, Chatbot Arena là nguồn tài nguyên có giá trị và chất lượng dành cho các nhà nghiên cứu AI.

Nền tảng thu thập phản hồi của người dùng và chạy nó thông qua Mô hình thống kê Bradley-Terry để dự đoán khả năng một mô hình cụ thể vượt trội so với những mô hình khác trong cạnh tranh trực tiếp. Cách tiếp cận này cho phép tạo ra số liệu thống kê toàn diện, bao gồm phạm vi khoảng tin cậy cho ước tính xếp hạng Elo—kỹ thuật tương tự được sử dụng để đo lường kỹ năng của người chơi cờ.

10 LLM hàng đầu được Chatbot Arena xếp hạng. Hình ảnh: Ôm mặt
10 LLM hàng đầu được Chatbot Arena xếp hạng. Hình ảnh: Ôm mặt

Việc Claude 3 Opus vươn lên dẫn đầu không phải là sự phát triển đáng kể duy nhất trên bảng xếp hạng. Claude 3 Sonnet (mẫu cỡ trung bình được cung cấp miễn phí) và Claude 3 Haiku (mẫu nhỏ hơn, nhanh hơn), cũng do Anthropic phát triển, hiện lần lượt ở vị trí thứ 4 và thứ 6.

Bảng xếp hạng bao gồm các phiên bản khác nhau của GPT-4, chẳng hạn như GPT-4-0314 (phiên bản “gốc” của GPT-4 từ tháng 2023 năm 4), GPT-0613-4, GPT-1106-4-preview và GPT-0125 -4-preview (mẫu GPT-2024 Turbo mới nhất có sẵn qua API từ tháng 4 năm 2023). Theo bảng xếp hạng, Sonnet và Haiku đều tốt hơn GPT-XNUMX ban đầu và Sonnet cũng vượt xa phiên bản tinh chỉnh do OpenAI ra mắt vào tháng XNUMX năm XNUMX.

Điều này cũng có nghĩa là thật đáng buồn, hiện chỉ có một LLM nguồn mở nằm trong top 10: Qwen, với Starling 7b và Mixtral 8x7B là các mô hình mở duy nhất khác trong top 20.

Một trong những lợi thế của Claude so với GPT-4 là khả năng truy xuất và khả năng truy xuất bối cảnh mã thông báo. Phiên bản công khai của Claude 3 Opus xử lý hơn 200 nghìn — và tổ chức này tuyên bố có phiên bản giới hạn có khả năng xử lý 1 triệu mã thông báo với tỷ lệ truy xuất gần như hoàn hảo. Điều này có nghĩa là Claude có thể hiểu những lời nhắc dài hơn và ghi nhớ thông tin hiệu quả hơn so với so với GPT-4 Turbo, xử lý 128K mã thông báo và mất khả năng truy xuất với lời nhắc dài.

Nhớ lại độ chính xác của Claude 3 Opus vs GPT-4 Turbo. Hình ảnh từ Giải mã bằng cách sử dụng dữ liệu từ Anthropic và Greg Kamradt
Nhớ lại độ chính xác của Claude 3 Opus vs GPT-4 Turbo. Hình ảnh từ Giải mã sử dụng dữ liệu từ Anthropic và Greg Kamradt.

Google Song Tử nâng cao cũng đã đạt được sức hút trong không gian trợ lý AI. Công ty cung cấp gói bao gồm 2TB dung lượng lưu trữ và khả năng AI trong bộ sản phẩm của Google với mức giá tương đương với đăng ký Chat GPT Plus ($ 20 mỗi tháng).

Gemini Pro miễn phí hiện đang xếp thứ 4, giữa GPT-4 Turbo và Claude 3 Sonnet. Mẫu Gemini Ultra cao cấp nhất hiện chưa có sẵn để thử nghiệm và chưa được đưa vào bảng xếp hạng.

Sửa bởi Ryan Ozawa.

Luôn cập nhật tin tức về tiền điện tử, cập nhật hàng ngày trong hộp thư đến của bạn.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img