קלוד AI של Anthropic מפיל את ChatGPT ב-Chatbot Arena Leaderboard - פענוח

בעוד ש-ChatGPT מ-Open AI נהנית משיתוף המחשבה המרכזי הגדול ביותר של כל כלי הבינה המלאכותית הגנרטיבית, המקום הראשון שלו נגנב על ידי הטופ-of-the-line Claude 3 Opus מהמתמודד הנצחי Anthropic ב-Leaderboard פופולרי במקור המונים המשמש חוקרי בינה מלאכותית.

עלייתו של קלוד בדירוג Chatbot Arena מסמנת את הפעם הראשונה שבה ה-GPT-4 של OpenAI, המניע את ChatGPT Plus, הודח מהכסף מאז הופיע לראשונה על לוח התוצאות במאי אשתקד.

Chatbot Arena מנוהל על ידי Large Model Systems Organization (LMSYS ORG), ארגון מחקר המוקדש למודלים פתוחים התומכים בשיתוף פעולה בין סטודנטים וסגל באוניברסיטת קליפורניה, ברקלי, UC סן דייגו ואוניברסיטת קרנגי מלון. הפלטפורמה מציגה למשתמשים שני מודלים של שפה ללא תווית ומבקשת מהם לדרג איזה מהם מניב ביצועים טובים יותר על סמך כל קריטריון שהם מוצאים לנכון.

לאחר צבירה של אלפי השוואות סובייקטיביות, Chatbot Arena מחשבת את המודלים "הטובים ביותר" עבור ה-Leaderboard, ומעדכנת אותו לאורך זמן.

הגישה הסובייקטיבית הזו, המבוססת על הטעם האישי השונה של המשתתפים, היא מה שמייחד את צ'אטבוט ארנה ממדדים אחרים של AI. מאמני דגמים לא יכולים "לרמות" על ידי התאמת המודלים שלהם כך שינצחו את האלגוריתם, כפי שהם עשויים עם אמות מידה כמותיות. על ידי מדידת מה שאנשים פשוט מעדיפים, Chatbot Arena הוא משאב איכותי ואיכותי עבור חוקרי בינה מלאכותית.

הפלטפורמה אוספת משוב של משתמשים ומפעילה אותו דרך מודל סטטיסטי של בראדלי-טרי לחזות את הסבירות של מודל מסוים לעלות על אחרים בתחרות ישירה. הגישה הזו מאפשר יצירת נתונים סטטיסטיים מקיפים, כולל טווחי רווחי סמך עבור הערכות דירוג Elo - אותה טכניקה המשמשת למדידת המיומנות של שחקני שחמט.

*10 ה-LLMs המובילים מדורגים על ידי צ'טבוט ארנה. תמונה: Huggingface*

העלייה של קלוד 3 אופוס לצמרת היא לא ההתפתחות המשמעותית היחידה בטבלת ההישגים. קלוד 3 סונט (הדגם בגודל הבינוני זמין בחינם) וקלוד 3 הייקו (דגם קטן ומהיר יותר), שפותח אף הוא על ידי אנתרופיק, נמצאים כעת במקום הרביעי והשישי, בהתאמה.

לוח המובילים כולל גרסאות שונות של GPT-4, כגון GPT-4-0314 (הגרסה "המקורית" של GPT-4 ממרץ 2023), GPT-4-0613, GPT-4-1106-תצוגה מקדימה ו-GPT-4 -0125-preview (הדגם העדכני ביותר של GPT-4 Turbo זמין דרך API מינואר 2024). על פי הדירוג, סונט והאיקו שניהם טובים יותר מה-GPT-4 המקורי, כאשר סונט גם גברה על גרסה מצומצמת שהושקה על ידי OpenAI ביוני 2023.

זה גם אומר שלמרבה הצער, יש רק LLM אחד בקוד פתוח כרגע ב-10 המובילים: Qwen, כאשר Starling 7b ו-Mixtral 8x7B הדגמים הפתוחים היחידים האחרים ב-20 המובילים.

אחד היתרונות של קלוד על פני GPT-4 הוא יכולת ההקשר האסימון ויכולת השליפה שלו. הגרסה הציבורית של קלוד 3 אופוס מטפלת ביותר מ-200K — והארגון טוען שיש לה גרסה מוגבלת המסוגלת לטפל במיליון אסימונים עם שיעורי שליפה כמעט מושלמים. זה אומר שקלוד יכול להבין הנחיות ארוכות יותר ולשמור מידע בצורה יעילה יותר מאשר בהשוואה ל-GPT-4 טורבו, שמטפל ב-128K אסימונים ומאבד את יכולות השליפה שלו עם הנחיות ארוכות.

*זכור את הדיוק של קלוד 3 אופוס לעומת GPT-4 טורבו. תמונה מ-Decrypt באמצעות נתונים מאנתרופיק וגרג קמרדט.*

גוגל תאומים מתקדמים צבר אחיזה גם בחלל עוזר הבינה המלאכותית. החברה מציעה תוכנית הכוללת 2TB של אחסון ויכולות AI בחבילת מוצרי גוגל במחיר זהה למנוי Chat GPT Plus (20$ לחודש).

ה-Gemini Pro החינמי מדורג כרגע במקום ה-4, בין GPT-4 Turbo לקלוד 3 Sonnet. דגם ה-Gemini Ultra מהשורה הראשונה אינו זמין לבדיקה ועדיין אינו מופיע בדירוג.

נערך על ידי ריאן אוזאווה.

הישאר מעודכן בחדשות הקריפטו, קבל עדכונים יומיים בתיבת הדואר הנכנס שלך.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

אינטליגנציה של נתונים גנרטיביים

קלוד AI של Anthropic מפיל את ChatGPT ב-Chatbot Arena Leaderboard - פענוח

הישאר מעודכן בחדשות הקריפטו, קבל עדכונים יומיים בתיבת הדואר הנכנס שלך.

BDAG מובילה את 5 מכירות הקריפטו המבטיחות המובילות לשנת 2024

כיצד להעריך את סנטימנט השוק לפני קניית מטבעות קריפטו

המודיעין האחרון

תקופת הנזילות וההבשלה של BlockDAG של 100 מיליון דולר בין בעיות ברשת SOL ותחזיות מחירי DOT

בתי קזינו Rainbet ו-crypto: Leaders of the Pack

Bitcoin Bloodbath: אנליסט קריפטו מזהה את 'צלב המוות' לאחר ירידת מחיר של 8%.

AIEMP מכריזה על השקת פרויקט אבטחת AI חדשני

ההגנה של Binance נגד SEC עשויה להיעזר בתיק מנגו מרקטס

רשויות אכיפת החוק בבריטניה קיבלו סמכויות חדשות לתפוס, להשמיד נכסים דיגיטליים הקשורים לפושעים