شعار زيفيرنت

Claude AI من Anthropic يطيح بـ ChatGPT على لوحة المتصدرين في Chatbot Arena - فك التشفير

التاريخ:

في حين أن ChatGPT من Open AI يتمتع بأكبر مشاركة ذهنية سائدة بين جميع أدوات الذكاء الاصطناعي التوليدية، إلا أن المركز الأول قد سرقه المتصدر Claude 3 Opus من المنافس الدائم Anthropic على لوحة المتصدرين الشهيرة ذات التعهيد الجماعي التي يستخدمها باحثو الذكاء الاصطناعي.

يمثل صعود Claude في تصنيفات Chatbot Arena المرة الأولى التي يتم فيها التخلص من GPT-4 الخاص بـ OpenAI، والذي يشغل ChatGPT Plus، منذ ظهوره لأول مرة على لوحة المتصدرين في مايو من العام الماضي.

تتم إدارة Chatbot Arena بواسطة منظمة أنظمة النماذج الكبيرة (LMSYS ORG)، وهي منظمة بحثية مخصصة لفتح النماذج التي تدعم التعاون بين الطلاب وأعضاء هيئة التدريس في جامعة كاليفورنيا، بيركلي، جامعة كاليفورنيا في سان دييغو، وجامعة كارنيجي ميلون. تقدم المنصة للمستخدمين نموذجين لغويين غير مسمىين وتطلب منهم تقييم أي منهما يحقق أداءً أفضل بناءً على أي معايير يرونها مناسبة.

بعد تجميع الآلاف من المقارنات الشخصية، تقوم Chatbot Arena بحساب النماذج "الأفضل" للوحة المتصدرين، وتحديثها بمرور الوقت.

هذا النهج الشخصي، الذي يعتمد على الأذواق الشخصية المتباينة للمشاركين، هو ما يميز Chatbot Arena عن معايير الذكاء الاصطناعي الأخرى. ولا يستطيع المدربون النموذجيون "الغش" من خلال تصميم نماذجهم للتغلب على الخوارزمية، كما قد يفعلون مع المعايير الكمية. من خلال قياس ما يفضله الناس ببساطة، تعد Chatbot Arena مصدرًا قيمًا ونوعيًا للباحثين في مجال الذكاء الاصطناعي.

تقوم المنصة بجمع تعليقات المستخدمين وتشغيلها من خلال نموذج برادلي تيري الإحصائي للتنبؤ باحتمالية تفوق نموذج معين على الآخرين في المنافسة المباشرة. هذا النهج يتيح توليد إحصائيات شاملة، بما في ذلك نطاقات فترات الثقة لتقديرات تصنيف Elo - وهي نفس التقنية المستخدمة لقياس مهارة لاعبي الشطرنج.

أفضل 10 ماجستير في القانون تم تصنيفها بواسطة Chatbot Arena. الصورة: الوجه المعانقة
أفضل 10 ماجستير في القانون تم تصنيفها بواسطة Chatbot Arena. الصورة: الوجه المعانقة

إن صعود Claude 3 Opus إلى القمة ليس هو التطور المهم الوحيد على لوحة المتصدرين. Claude 3 Sonnet (النموذج متوسط ​​الحجم متاح مجانًا) وClaude 3 Haiku (نموذج أصغر وأسرع)، الذي طورته Anthropic أيضًا، يحتلان حاليًا المركزين الرابع والسادس على التوالي.

تتضمن لوحة المتصدرين إصدارات مختلفة من GPT-4، مثل GPT-4-0314 (الإصدار "الأصلي" من GPT-4 اعتبارًا من مارس 2023)، وGPT-4-0613، وGPT-4-1106-preview، وGPT-4 -0125-معاينة (أحدث طراز GPT-4 Turbo متاح عبر واجهة برمجة التطبيقات اعتبارًا من يناير 2024). وفقًا للتصنيف، يعد كل من Sonnet وHaiku أفضل من GPT-4 الأصلي، كما تتفوق Sonnet أيضًا على النسخة المعدلة التي أطلقتها OpenAI في يونيو 2023.

وهذا يعني أيضًا أنه، للأسف، لا يوجد سوى LLM واحد مفتوح المصدر حاليًا في أعلى 10: Qwen، مع Starling 7b وMixtral 8x7B هما الطرازان الوحيدان المفتوحان الآخران في أعلى 20 نموذجًا.

إحدى مزايا Claude على GPT-4 هي سعة سياق الرمز المميز وإمكانية الاسترجاع. تتعامل النسخة العامة من Claude 3 Opus مع أكثر من 200 ألف، وتدعي المنظمة أن لديها نسخة مقيدة قادرة على التعامل مع مليون رمز مميز بمعدلات استرجاع مثالية تقريبًا. وهذا يعني أن كلود يمكنه فهم المطالبات الأطول والاحتفاظ بالمعلومات بشكل أكثر فعالية من ذلك مقارنة بـGPT-4 Turbo، الذي يتعامل مع 128 ألف رمزًا مميزًا ويفقد إمكانية استرجاعها مع المطالبات الطويلة.

أذكر دقة Claude 3 Opus وGPT-4 Turbo. صورة من Decrypt باستخدام بيانات من Anthropic وGreg Kamradt
أذكر دقة Claude 3 Opus وGPT-4 Turbo. صورة من Decrypt باستخدام بيانات من Anthropic وGreg Kamradt.

جوجل الجوزاء المتقدم اكتسبت أيضًا قوة جذب في مجال مساعد الذكاء الاصطناعي. تقدم الشركة خطة تتضمن سعة تخزينية تبلغ 2 تيرابايت وقدرات الذكاء الاصطناعي في مجموعة منتجات Google بنفس سعر اشتراك Chat GPT Plus (20 دولارًا شهريًا).

يحتل برنامج Gemini Pro المجاني حاليًا المرتبة الرابعة بين GPT-4 Turbo وClaude 4 Sonnet. طراز Gemini Ultra الأفضل غير متاح للاختبار ولم يتم إدراجه بعد في التصنيف العالمي.

حرره ريان أوزاوا.

ابق على اطلاع بأخبار العملات المشفرة ، واحصل على تحديثات يومية في صندوق الوارد الخاص بك.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة