Λογότυπο Zephyrnet

Ο Claude AI του Anthropic ανατρέπει το ChatGPT στο Leaderboard του Chatbot Arena – Αποκρυπτογράφηση

Ημερομηνία:

Ενώ το ChatGPT από το Open AI απολαμβάνει το μεγαλύτερο mainstream mindshare όλων των εργαλείων παραγωγής τεχνητής νοημοσύνης, η κορυφαία του θέση έχει κλαπεί από το κορυφαίο Claude 3 Opus από τον πολυετή υποψήφιο Anthropic σε ένα δημοφιλές leaderboard crowdsourced που χρησιμοποιείται από ερευνητές AI.

Η άνοδος του Claude στην κατάταξη του Chatbot Arena σηματοδοτεί την πρώτη φορά που το GPT-4 του OpenAI, το οποίο εξουσιοδοτεί το ChatGPT Plus, εκθρονίστηκε από τότε που εμφανίστηκε για πρώτη φορά στο leaderboard τον Μάιο του περασμένου έτους.

Το Chatbot Arena διευθύνεται από τον οργανισμό Large Model Systems Organization (LMSYS ORG), έναν ερευνητικό οργανισμό αφιερωμένο στα ανοιχτά μοντέλα που υποστηρίζουν τη συνεργασία μεταξύ φοιτητών και καθηγητών στο Πανεπιστήμιο της Καλιφόρνια, στο Μπέρκλεϊ, στο UC San Diego και στο Πανεπιστήμιο Carnegie Mellon. Η πλατφόρμα παρουσιάζει στους χρήστες δύο μοντέλα γλώσσας χωρίς ετικέτα και τους ζητά να βαθμολογήσουν ποιο αποδίδει καλύτερα με βάση τα κριτήρια που κρίνουν κατάλληλο.

Αφού συγκεντρώσει χιλιάδες υποκειμενικές συγκρίσεις, το Chatbot Arena υπολογίζει τα «καλύτερα» μοντέλα για τον πίνακα κατάταξης, ενημερώνοντάς τον με την πάροδο του χρόνου.

Αυτή η υποκειμενική προσέγγιση, που βασίζεται στα διαφορετικά προσωπικά γούστα των συμμετεχόντων, είναι αυτό που ξεχωρίζει το Chatbot Arena από άλλα σημεία αναφοράς AI. Οι εκπαιδευτές μοντέλων δεν μπορούν να «απατήσουν» προσαρμόζοντας τα μοντέλα τους ώστε να ξεπερνούν τον αλγόριθμο, όπως θα μπορούσαν να κάνουν με ποσοτικά σημεία αναφοράς. Μετρώντας τι απλά προτιμούν οι άνθρωποι, το Chatbot Arena είναι ένας πολύτιμος, ποιοτικός πόρος για τους ερευνητές της τεχνητής νοημοσύνης.

Η πλατφόρμα συλλέγει τα σχόλια των χρηστών και τα τρέχει μέσω του Στατιστικό μοντέλο Bradley-Terry για την πρόβλεψη της πιθανότητας ενός συγκεκριμένου μοντέλου να έχει καλύτερη απόδοση από άλλα σε άμεσο ανταγωνισμό. Αυτή η προσέγγιση επιτρέπει τη δημιουργία περιεκτικών στατιστικών στοιχείων, συμπεριλαμβανομένων των περιοχών διαστημάτων εμπιστοσύνης για εκτιμήσεις βαθμολογίας Elo—η ίδια τεχνική που χρησιμοποιείται για τη μέτρηση της ικανότητας των σκακιστών.

Οι 10 κορυφαίοι LLMs που κατατάσσονται από το Chatbot Arena. Εικόνα: Αγκαλιασμένο πρόσωπο
Οι 10 κορυφαίοι LLMs που κατατάσσονται από το Chatbot Arena. Εικόνα: Αγκαλιασμένο πρόσωπο

Η άνοδος του Claude 3 Opus στην κορυφή δεν είναι η μόνη σημαντική εξέλιξη στο leaderboard. Το Claude 3 Sonnet (το μοντέλο μεσαίου μεγέθους διαθέσιμο δωρεάν) και το Claude 3 Haiku (ένα μικρότερο, ταχύτερο μοντέλο), που επίσης αναπτύχθηκε από την Anthropic, βρίσκονται αυτή τη στιγμή στην 4η και 6η θέση, αντίστοιχα.

Ο πίνακας κατάταξης περιλαμβάνει διαφορετικές εκδόσεις του GPT-4, όπως GPT-4-0314 (η «αρχική» έκδοση του GPT-4 από τον Μάρτιο του 2023), GPT-4-0613, GPT-4-1106-προεπισκόπηση και GPT-4 -0125-προεπισκόπηση (το πιο πρόσφατο μοντέλο GPT-4 Turbo διαθέσιμο μέσω API από τον Ιανουάριο του 2024). Σύμφωνα με την κατάταξη, το Sonnet και το Haiku είναι και τα δύο καλύτερα από το αρχικό GPT-4 με το Sonnet να ξεπερνά επίσης μια προσαρμοσμένη έκδοση που κυκλοφόρησε από την OpenAI τον Ιούνιο του 2023.

Αυτό σημαίνει επίσης ότι, δυστυχώς, υπάρχει μόνο ένα ανοιχτού κώδικα LLM επί του παρόντος στο top 10: το Qwen, με το Starling 7b και το Mixtral 8x7B τα μόνα άλλα ανοιχτά μοντέλα στο top 20.

Ένα από τα πλεονεκτήματα του Claude έναντι του GPT-4 είναι η διακριτική του χωρητικότητα περιβάλλοντος και η δυνατότητα ανάκτησης. Η δημόσια έκδοση του Claude 3 Opus χειρίζεται πάνω από 200 — και ο οργανισμός ισχυρίζεται ότι έχει μια περιορισμένη έκδοση ικανή να χειριστεί 1 εκατομμύριο μάρκες με σχεδόν τέλεια ποσοστά ανάκτησης. Αυτό σημαίνει ότι ο Claude μπορεί να κατανοεί μεγαλύτερες προτροπές και να διατηρεί πληροφορίες πιο αποτελεσματικά από ό,τι σε σύγκριση με το GPT-4 Turbo, το οποίο χειρίζεται 128K tokens και χάνει τις δυνατότητές του ανάκτησης με μεγάλες προτροπές.

Θυμηθείτε την ακρίβεια του Claude 3 Opus vs GPT-4 Turbo. Εικόνα από το Decrypt χρησιμοποιώντας δεδομένα από τους Anthropic και Greg Kamradt
Θυμηθείτε την ακρίβεια του Claude 3 Opus vs GPT-4 Turbo. Εικόνα από το Decrypt χρησιμοποιώντας δεδομένα από τους Anthropic και Greg Kamradt.

Της Google Gemini Advanced έχει επίσης κερδίσει έλξη στον χώρο των βοηθών AI. Η εταιρεία προσφέρει ένα πρόγραμμα που περιλαμβάνει 2 TB αποθηκευτικού χώρου και δυνατότητες AI στη σουίτα προϊόντων Google στην ίδια τιμή με μια συνδρομή Chat GPT Plus (20 $ το μήνα).

Το δωρεάν Gemini Pro βρίσκεται επί του παρόντος στην 4η θέση, μεταξύ του GPT-4 Turbo και του Claude 3 Sonnet. Το κορυφαίο μοντέλο Gemini Ultra δεν είναι διαθέσιμο για δοκιμή και δεν εμφανίζεται ακόμη στην κατάταξη.

Επιμέλεια: Ράιαν Οζάουα.

Μείνετε ενημερωμένοι για τα νέα κρυπτογράφησης, λάβετε καθημερινές ενημερώσεις στα εισερχόμενά σας.

spot_img

Τελευταία Νοημοσύνη

spot_img