និមិត្តសញ្ញា Zephyrnet

Claude AI របស់ Anthropic ផ្តួលរំលំ ChatGPT នៅលើ Chatbot Arena Leaderboard - ឌិគ្រីប

កាលបរិច្ឆេទ:

ខណៈពេលដែល ChatGPT ពី Open AI រីករាយនឹងការចែករំលែកគំនិតដ៏ធំបំផុតនៃឧបករណ៍ AI ជំនាន់ទាំងអស់នោះ កន្លែងកំពូលរបស់វាត្រូវបានលួចដោយ Claude 3 Opus កំពូលនៃបន្ទាត់ពីអ្នកប្រកួតប្រជែងដែលមានអាយុច្រើនឆ្នាំ Anthropic នៅលើតារាងនាំមុខគេដែលពេញនិយមប្រើដោយអ្នកស្រាវជ្រាវ AI ។

ការឡើងឋានន្តរស័ក្តិរបស់ក្លូដនៅក្នុងចំណាត់ថ្នាក់ Chatbot Arena គឺជាលើកទីមួយហើយដែល OpenAI's GPT-4 ដែលផ្តល់ថាមពលដល់ ChatGPT Plus ត្រូវបានទម្លាក់ចាប់តាំងពីវាបានបង្ហាញខ្លួនជាលើកដំបូងនៅលើតារាងពិន្ទុក្នុងខែឧសភាឆ្នាំមុន។

Chatbot Arena ដំណើរការដោយ Large Model Systems Organization (LMSYS ORG) ដែលជាអង្គការស្រាវជ្រាវដែលឧទ្ទិសដល់គំរូបើកចំហដែលគាំទ្រដល់កិច្ចសហការរវាងនិស្សិត និងមហាវិទ្យាល័យនៅសាកលវិទ្យាល័យ California, Berkeley, UC San Diego និងសាកលវិទ្យាល័យ Carnegie Mellon។ វេទិកានេះបង្ហាញអ្នកប្រើប្រាស់នូវគំរូភាសាដែលមិនមានស្លាកចំនួនពីរ ហើយស្នើឱ្យពួកគេវាយតម្លៃថាតើមួយណាដំណើរការប្រសើរជាងដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យណាមួយដែលពួកគេយល់ថាសម។

បន្ទាប់ពីប្រមូលផ្តុំការប្រៀបធៀបប្រធានបទរាប់ពាន់ Chatbot Arena គណនាគំរូ "ល្អបំផុត" សម្រាប់តារាងពិន្ទុ ដោយធ្វើបច្ចុប្បន្នភាពវាតាមពេលវេលា។

វិធីសាស្រ្តប្រធានបទនោះ ដោយផ្អែកលើចំណង់ចំណូលចិត្តផ្ទាល់ខ្លួនខុសគ្នារបស់អ្នកចូលរួម គឺជាអ្វីដែលកំណត់ Chatbot Arena ខុសពីស្តង់ដារ AI ផ្សេងទៀត។ គ្រូបង្ហាត់គំរូមិនអាច "បោកប្រាស់" ដោយកាត់តម្រឹមម៉ូដែលរបស់ពួកគេដើម្បីយកឈ្នះលើក្បួនដោះស្រាយ ដូចដែលពួកគេអាចជាមួយនឹងស្តង់ដារបរិមាណ។ តាមរយៈការវាស់ស្ទង់នូវអ្វីដែលមនុស្សចូលចិត្តនោះ Chatbot Arena គឺជាធនធានដ៏មានតម្លៃ និងគុណភាពសម្រាប់អ្នកស្រាវជ្រាវ AI ។

វេទិកាប្រមូលមតិរបស់អ្នកប្រើ ហើយដំណើរការវាតាមរយៈ គំរូស្ថិតិ Bradley-Terry ដើម្បីទស្សន៍ទាយពីលទ្ធភាពនៃគំរូជាក់លាក់ណាមួយដែលប្រសើរជាងអ្នកដទៃក្នុងការប្រកួតប្រជែងដោយផ្ទាល់។ វិធីសាស្រ្តនេះ អនុញ្ញាតឱ្យបង្កើតស្ថិតិដ៏ទូលំទូលាយ រួមទាំងចន្លោះពេលទំនុកចិត្តសម្រាប់ការប៉ាន់ប្រមាណការវាយតម្លៃ Elo ដែលជាបច្ចេកទេសដូចគ្នាដែលប្រើដើម្បីវាស់ស្ទង់ជំនាញរបស់អ្នកលេងអុក។

LLMs កំពូលទាំង 10 ដែលត្រូវបានចាត់ថ្នាក់ដោយ Chatbot Arena ។ រូបភាព៖ ឱបមុខ
LLMs កំពូលទាំង 10 ដែលត្រូវបានចាត់ថ្នាក់ដោយ Chatbot Arena ។ រូបភាព៖ ឱបមុខ

ការឡើងដល់កំពូលរបស់ Claude 3 Opus មិនមែនជាការអភិវឌ្ឍន៍ដ៏សំខាន់តែមួយគត់នៅលើតារាងពិន្ទុនោះទេ។ Claude 3 Sonnet (ម៉ូដែលទំហំមធ្យមអាចប្រើបានដោយឥតគិតថ្លៃ) និង Claude 3 Haiku (ម៉ូដែលតូចជាង និងលឿនជាង) ដែលបង្កើតឡើងដោយ Anthropic បច្ចុប្បន្នស្ថិតនៅលំដាប់ទី 4 និងទី 6 រៀងគ្នា។

តារាងពិន្ទុរួមមានកំណែផ្សេងៗនៃ GPT-4 ដូចជា GPT-4-0314 (កំណែ "ដើម" នៃ GPT-4 ចាប់ពីខែមីនា ឆ្នាំ 2023), GPT-4-0613, GPT-4-1106-preview និង GPT-4 -0125-ការមើលជាមុន (ម៉ូដែល GPT-4 Turbo ចុងក្រោយបង្អស់ដែលមានតាមរយៈ API ចាប់ពីខែមករា ឆ្នាំ 2024)។ យោងតាមចំណាត់ថ្នាក់ Sonnet និង Haiku ទាំងពីរគឺល្អជាង GPT-4 ដើមជាមួយ Sonnet ក៏លើសពីកំណែកែប្រែដែលបានបើកដំណើរការដោយ OpenAI នៅខែមិថុនាឆ្នាំ 2023 ។

នេះក៏មានន័យផងដែរថា គួរឱ្យស្តាយ មានប្រភពបើកចំហតែមួយគត់ LLM បច្ចុប្បន្ននៅក្នុងកំពូលទាំង 10៖ Qwen ជាមួយនឹង Starling 7b និង Mixtral 8x7B គឺជាម៉ូដែលបើកតែមួយគត់ផ្សេងទៀតនៅក្នុងកំពូលទាំង 20។

គុណសម្បត្តិមួយក្នុងចំណោមគុណសម្បត្តិរបស់ Claude លើ GPT-4 គឺសមត្ថភាពបរិបទសញ្ញាសម្ងាត់ និងសមត្ថភាពទាញយកមកវិញ។ កំណែសាធារណៈរបស់ Claude 3 Opus គ្រប់គ្រងជាង 200K ហើយអង្គការអះអាងថាមានកំណែដែលបានដាក់កម្រិតដែលអាចគ្រប់គ្រង 1 លានសញ្ញាសម្ងាត់ជាមួយនឹងអត្រាទាញយកស្ទើរតែល្អឥតខ្ចោះ។ នេះមានន័យថា ក្លូដអាចយល់ពីការបំផុសគំនិតយូរជាង និងរក្សាព័ត៌មានប្រកបដោយប្រសិទ្ធភាពជាង បើប្រៀបធៀបទៅនឹង GPT-4 Turboដែលគ្រប់គ្រងសញ្ញាសម្ងាត់ 128K និងបាត់បង់សមត្ថភាពទាញយករបស់វាជាមួយនឹងការជម្រុញដ៏វែង។

រំលឹកឡើងវិញនូវភាពត្រឹមត្រូវនៃ Claude 3 Opus vs GPT-4 Turbo ។ រូបភាពពីការឌិគ្រីបដោយប្រើទិន្នន័យពី Anthropic និង Greg Kamradt
រំលឹកឡើងវិញនូវភាពត្រឹមត្រូវនៃ Claude 3 Opus vs GPT-4 Turbo ។ រូបភាពពីការឌិគ្រីបដោយប្រើទិន្នន័យពី Anthropic និង Greg Kamradt ។

របស់ Google Gemini កម្រិតខ្ពស់ ក៏​កំពុង​ទទួល​បាន​ការ​ទាញ​យក​នៅ​ក្នុង​លំហ​ជំនួយ AI។ ក្រុមហ៊ុនផ្តល់ជូននូវគម្រោងដែលរួមមានទំហំផ្ទុក 2TB និងសមត្ថភាព AI នៅក្នុងឈុតនៃផលិតផល Google ក្នុងតម្លៃដូចគ្នានឹងការជាវ Chat GPT Plus ($20 ក្នុងមួយខែ)។

Gemini Pro ឥតគិតថ្លៃបច្ចុប្បន្នកំពុងជាប់ចំណាត់ថ្នាក់លេខ 4 រវាង GPT-4 Turbo និង Claude 3 Sonnet ។ ម៉ូដែល Gemini Ultra កំពូលនៃបន្ទាត់គឺមិនមានសម្រាប់ការសាកល្បងទេ ហើយមិនទាន់មានលក្ខណៈពិសេសនៅក្នុងចំណាត់ថ្នាក់នៅឡើយ។

កែសម្រួល​ដោយ លោក Ryan Ozawa.

ស្ថិតនៅលើកំពូលនៃព័ត៌មានគ្រីបតូ ទទួលបានព័ត៌មានថ្មីៗប្រចាំថ្ងៃនៅក្នុងប្រអប់សំបុត្ររបស់អ្នក។

spot_img

បញ្ញាចុងក្រោយ

spot_img