Logo Zephyrnet

Claude 3 Opus chiếm vị trí hàng đầu trên bảng xếp hạng Chatbot

Ngày:

Mô hình AI thế hệ tiếp theo của Anthropic Claude 3 Opus đã chiếm vị trí dẫn đầu trên bảng xếp hạng Chatbot Arena, đẩy GPT-4 của OpenAI lên vị trí tốt thứ hai.

Kể từ khi ra mắt vào năm ngoái, đây là lần đầu tiên mẫu Claude 3 Opus đứng đầu danh sách Chatbot Arena, nơi có cả 3 phiên bản Claud 10 đều lọt vào top XNUMX.

Claude 3 người mẫu tạo dấu ấn

Đấu trường Chatbot LMSYS bảng xếp hạng cho thấy Claude 3 Sonnet chiếm vị trí thứ tư chung với Gemini Pro trong khi Claude 3 Haiku, được ra mắt năm nay, xếp thứ sáu cùng với phiên bản GPT-4 trước đó.

Mặc dù Claude 3 Haiku có thể không thông minh như Sonnet hay Opus, nhưng mô hình này nhanh hơn và rẻ hơn đáng kể, nhưng nó “tốt như những mô hình lớn hơn nhiều trong các bài kiểm tra mù”, như kết quả của đấu trường tiết lộ.

“Claude 3 Haiku đã gây ấn tượng với tất cả mọi người, thậm chí còn đạt đến cấp độ GPT-4 theo sở thích của người dùng! LMSYS giải thích: Tốc độ, khả năng và độ dài ngữ cảnh của nó hiện nay chưa từng có trên thị trường”.

Theo Tom's Guide, điều khiến Haiku ấn tượng hơn đó là "mô hình có kích thước cục bộ có thể so sánh với Gemini Nano". Nó có thể đọc và xử lý nghiên cứu dày đặc thông tin giấy tờ trong vòng chưa đầy ba giây.

Mô hình này đang đạt được kết quả tuyệt vời ngay cả khi không có thang đo tham số nghìn tỷ cộng với Opus hoặc bất kỳ mô hình lớp GPT-4 nào.

Đây có thể là một thành công ngắn ngủi?

Dù bị đẩy xuống vị trí thứ 4 nhưng các phiên bản GPT-10 của OpenAI vẫn thống trị top XNUMX trong danh sách với XNUMX phiên bản.

Theo Hướng dẫn của Tom, các phiên bản GPT-4 của OpenAI dưới nhiều hình thức khác nhau đã giữ vị trí dẫn đầu “trong một thời gian dài đến nỗi bất kỳ mô hình nào khác tiến gần đến điểm chuẩn của nó đều được gọi là mô hình lớp GPT-4”.

Với một GPT-5 “khác biệt rõ rệt” được mong đợi vào thời điểm nào đó trong năm nay, Anthropic có thể không giữ được vị trí đó quá lâu, vì khoảng cách về điểm số giữa Claude 3 Opus và GPT-4 là rất hẹp.

Mặc dù OpenAI vẫn kín tiếng về việc phát hành thực tế GPT-5, thị trường rất mong đợi sự ra mắt của nó. Mô hình này được cho là đang trải qua một số “kiểm tra an toàn nghiêm ngặt” và các cuộc tấn công mô phỏng rất quan trọng trước khi phát hành.

Đấu trường Chatbot LMSYS

Xếp hạng này dựa vào phiếu bầu của con người, trái ngược với các hình thức đo điểm chuẩn khác cho các mô hình AI. Với cái này, mọi người xếp hạng mù đầu ra của hai mô hình khác nhau cho cùng một lời nhắc.

Đấu trường Chatbot được điều hành bởi LMSYS và có một loạt các mô hình ngôn ngữ lớn (LLM) đang chiến đấu với nó trong “các trận chiến ngẫu nhiên ẩn danh”.

Nó được ra mắt lần đầu tiên vào tháng 400,000 năm ngoái và đã thu thập được hơn XNUMX phiếu bầu từ người dùng sử dụng mô hình AI của Google, Anthropic và OpenAI.

“LMSYS Chatbot Arena là một nền tảng mở được huy động từ cộng đồng dành cho các cuộc đánh giá LLM. LMSYS cho biết: Chúng tôi đã thu thập được hơn 400,000 phiếu bầu ưu tiên của con người để xếp hạng LLM bằng hệ thống xếp hạng Elo.

Hệ thống Elo chủ yếu được sử dụng trong các trò chơi như cờ vua để đánh giá kỹ năng tương đối của người chơi. Nhưng trong trường hợp này, thứ hạng được áp dụng cho chatbot chứ “không phải con người sử dụng mô hình”.

Ngoài ra đọc: Microsoft tiết lộ Surface PC 'đầu tiên' có nút Copilot AI

Những thiếu sót

Bảng xếp hạng Chatbot Arena không thiếu những sai sót. Theo Tom's Guide, nó không bao gồm tất cả các kiểu máy hoặc phiên bản của các kiểu máy đi kèm trong khi người dùng đôi khi gặp phải trải nghiệm không tốt với việc GPT-4 không tải được. Nó cũng có thể ưu tiên một số kiểu máy có quyền truy cập internet trực tiếp, chẳng hạn như Google Gemini Pro.

Trong khi các mô hình khác giống như mô hình khởi nghiệp AI của Pháp Gió bấc thổi từ hướng tây và các công ty Trung Quốc như Alibaba gần đây đã chiếm được vị trí hàng đầu trên đấu trường. Ngoài các mô hình nguồn mở, đấu trường vẫn thiếu vắng một số mô hình có cấu hình cao. Ví dụ: nó thiếu các mẫu như Gemini Pro 1.5 của Google

tại chỗ_img

Tin tức mới nhất

tại chỗ_img