לוגו זפירנט

קלוד AI של Anthropic מפיל את ChatGPT ב-Chatbot Arena Leaderboard - פענוח

תאריך:

בעוד ש-ChatGPT מ-Open AI נהנית משיתוף המחשבה המרכזי הגדול ביותר של כל כלי הבינה המלאכותית הגנרטיבית, המקום הראשון שלו נגנב על ידי הטופ-of-the-line Claude 3 Opus מהמתמודד הנצחי Anthropic ב-Leaderboard פופולרי במקור המונים המשמש חוקרי בינה מלאכותית.

עלייתו של קלוד בדירוג Chatbot Arena מסמנת את הפעם הראשונה שבה ה-GPT-4 של OpenAI, המניע את ChatGPT Plus, הודח מהכסף מאז הופיע לראשונה על לוח התוצאות במאי אשתקד.

Chatbot Arena מנוהל על ידי Large Model Systems Organization (LMSYS ORG), ארגון מחקר המוקדש למודלים פתוחים התומכים בשיתוף פעולה בין סטודנטים וסגל באוניברסיטת קליפורניה, ברקלי, UC סן דייגו ואוניברסיטת קרנגי מלון. הפלטפורמה מציגה למשתמשים שני מודלים של שפה ללא תווית ומבקשת מהם לדרג איזה מהם מניב ביצועים טובים יותר על סמך כל קריטריון שהם מוצאים לנכון.

לאחר צבירה של אלפי השוואות סובייקטיביות, Chatbot Arena מחשבת את המודלים "הטובים ביותר" עבור ה-Leaderboard, ומעדכנת אותו לאורך זמן.

הגישה הסובייקטיבית הזו, המבוססת על הטעם האישי השונה של המשתתפים, היא מה שמייחד את צ'אטבוט ארנה ממדדים אחרים של AI. מאמני דגמים לא יכולים "לרמות" על ידי התאמת המודלים שלהם כך שינצחו את האלגוריתם, כפי שהם עשויים עם אמות מידה כמותיות. על ידי מדידת מה שאנשים פשוט מעדיפים, Chatbot Arena הוא משאב איכותי ואיכותי עבור חוקרי בינה מלאכותית.

הפלטפורמה אוספת משוב של משתמשים ומפעילה אותו דרך מודל סטטיסטי של בראדלי-טרי לחזות את הסבירות של מודל מסוים לעלות על אחרים בתחרות ישירה. הגישה הזו מאפשר יצירת נתונים סטטיסטיים מקיפים, כולל טווחי רווחי סמך עבור הערכות דירוג Elo - אותה טכניקה המשמשת למדידת המיומנות של שחקני שחמט.

10 ה-LLMs המובילים מדורגים על ידי צ'טבוט ארנה. תמונה: Huggingface
10 ה-LLMs המובילים מדורגים על ידי צ'טבוט ארנה. תמונה: Huggingface

העלייה של קלוד 3 אופוס לצמרת היא לא ההתפתחות המשמעותית היחידה בטבלת ההישגים. קלוד 3 סונט (הדגם בגודל הבינוני זמין בחינם) וקלוד 3 הייקו (דגם קטן ומהיר יותר), שפותח אף הוא על ידי אנתרופיק, נמצאים כעת במקום הרביעי והשישי, בהתאמה.

לוח המובילים כולל גרסאות שונות של GPT-4, כגון GPT-4-0314 (הגרסה "המקורית" של GPT-4 ממרץ 2023), GPT-4-0613, GPT-4-1106-תצוגה מקדימה ו-GPT-4 -0125-preview (הדגם העדכני ביותר של GPT-4 Turbo זמין דרך API מינואר 2024). על פי הדירוג, סונט והאיקו שניהם טובים יותר מה-GPT-4 המקורי, כאשר סונט גם גברה על גרסה מצומצמת שהושקה על ידי OpenAI ביוני 2023.

זה גם אומר שלמרבה הצער, יש רק LLM אחד בקוד פתוח כרגע ב-10 המובילים: Qwen, כאשר Starling 7b ו-Mixtral 8x7B הדגמים הפתוחים היחידים האחרים ב-20 המובילים.

אחד היתרונות של קלוד על פני GPT-4 הוא יכולת ההקשר האסימון ויכולת השליפה שלו. הגרסה הציבורית של קלוד 3 אופוס מטפלת ביותר מ-200K — והארגון טוען שיש לה גרסה מוגבלת המסוגלת לטפל במיליון אסימונים עם שיעורי שליפה כמעט מושלמים. זה אומר שקלוד יכול להבין הנחיות ארוכות יותר ולשמור מידע בצורה יעילה יותר מאשר בהשוואה ל-GPT-4 טורבו, שמטפל ב-128K אסימונים ומאבד את יכולות השליפה שלו עם הנחיות ארוכות.

זכור את הדיוק של קלוד 3 אופוס לעומת GPT-4 טורבו. תמונה מ-Decrypt באמצעות נתונים מאנתרופיק וגרג קמרדט
זכור את הדיוק של קלוד 3 אופוס לעומת GPT-4 טורבו. תמונה מ-Decrypt באמצעות נתונים מאנתרופיק וגרג קמרדט.

גוגל תאומים מתקדמים צבר אחיזה גם בחלל עוזר הבינה המלאכותית. החברה מציעה תוכנית הכוללת 2TB של אחסון ויכולות AI בחבילת מוצרי גוגל במחיר זהה למנוי Chat GPT Plus (20$ לחודש).

ה-Gemini Pro החינמי מדורג כרגע במקום ה-4, בין GPT-4 Turbo לקלוד 3 Sonnet. דגם ה-Gemini Ultra מהשורה הראשונה אינו זמין לבדיקה ועדיין אינו מופיע בדירוג.

נערך על ידי ריאן אוזאווה.

הישאר מעודכן בחדשות הקריפטו, קבל עדכונים יומיים בתיבת הדואר הנכנס שלך.

ספוט_ימג

המודיעין האחרון

ספוט_ימג