സെഫിർനെറ്റ് ലോഗോ

Anthropic's Claude AI, Chatbot Arena ലീഡർബോർഡിൽ ChatGPT-നെ അട്ടിമറിക്കുന്നു – ഡീക്രിപ്റ്റ് ചെയ്യുക

തീയതി:

ഓപ്പൺ AI-ൽ നിന്നുള്ള ChatGPT, എല്ലാ ജനറേറ്റീവ് AI ടൂളുകളുടെയും ഏറ്റവും വലിയ മുഖ്യധാരാ മൈൻഡ്‌ഷെയർ ആസ്വദിക്കുന്നുണ്ടെങ്കിലും, AI ഗവേഷകർ ഉപയോഗിക്കുന്ന ഒരു ജനപ്രിയ ക്രൗഡ് സോഴ്‌സ് ലീഡർബോർഡിലെ വറ്റാത്ത മത്സരാർത്ഥിയായ ആന്ത്രോപിക്കിൽ നിന്നുള്ള ടോപ്പ്-ഓഫ്-ദി-ലൈൻ ക്ലോഡ് 3 ഓപസ് അതിൻ്റെ ഒന്നാം സ്ഥാനം മോഷ്ടിച്ചു.

ചാറ്റ്‌ബോട്ട് അരീന റാങ്കിംഗിലെ ക്ലോഡിൻ്റെ ആരോഹണം, കഴിഞ്ഞ വർഷം മെയ് മാസത്തിൽ ലീഡർബോർഡിൽ ആദ്യമായി പ്രത്യക്ഷപ്പെട്ടതിന് ശേഷം, ChatGPT പ്ലസിന് കരുത്ത് നൽകുന്ന OpenAI-യുടെ GPT-4, സിംഹാസനസ്ഥനാക്കുന്നത് ആദ്യമായി അടയാളപ്പെടുത്തുന്നു.

ചാറ്റ്ബോട്ട് അരീന നടത്തുന്നത് ലാർജ് മോഡൽ സിസ്റ്റംസ് ഓർഗനൈസേഷൻ (LMSYS ORG), കാലിഫോർണിയ സർവകലാശാല, ബെർക്ക്‌ലി, യുസി സാൻ ഡീഗോ, കാർനെഗീ മെലോൺ യൂണിവേഴ്സിറ്റി എന്നിവിടങ്ങളിലെ വിദ്യാർത്ഥികളും ഫാക്കൽറ്റികളും തമ്മിലുള്ള സഹകരണത്തെ പിന്തുണയ്ക്കുന്ന ഓപ്പൺ മോഡലുകൾക്കായി സമർപ്പിച്ചിരിക്കുന്ന ഒരു ഗവേഷണ സ്ഥാപനമാണ്. പ്ലാറ്റ്‌ഫോം ഉപയോക്താക്കൾക്ക് ലേബൽ ചെയ്യാത്ത രണ്ട് ഭാഷാ മോഡലുകൾ അവതരിപ്പിക്കുകയും അവർക്ക് അനുയോജ്യമെന്ന് തോന്നുന്ന ഏത് മാനദണ്ഡത്തിൻ്റെ അടിസ്ഥാനത്തിൽ മികച്ച പ്രകടനം കാഴ്ചവെക്കുകയും ചെയ്യണമെന്ന് അവരോട് ആവശ്യപ്പെടുന്നു.

ആയിരക്കണക്കിന് ആത്മനിഷ്ഠ താരതമ്യങ്ങൾ സമാഹരിച്ചതിന് ശേഷം, ചാറ്റ്ബോട്ട് അരീന ലീഡർബോർഡിനായി "മികച്ച" മോഡലുകൾ കണക്കാക്കുന്നു, കാലക്രമേണ അത് അപ്ഡേറ്റ് ചെയ്യുന്നു.

പങ്കെടുക്കുന്നവരുടെ വ്യത്യസ്തമായ വ്യക്തിഗത അഭിരുചികളെ അടിസ്ഥാനമാക്കിയുള്ള ആത്മനിഷ്ഠമായ സമീപനമാണ് ചാറ്റ്ബോട്ട് അരീനയെ മറ്റ് AI മാനദണ്ഡങ്ങളിൽ നിന്ന് വ്യത്യസ്തമാക്കുന്നത്. മോഡൽ പരിശീലകർക്ക് അവരുടെ മോഡലുകൾ അൽഗോരിതത്തെ മറികടക്കാൻ രൂപകൽപ്പന ചെയ്‌ത് "വഞ്ചിക്കാൻ" കഴിയില്ല. ആളുകൾ എന്താണ് ഇഷ്ടപ്പെടുന്നതെന്ന് അളക്കുന്നതിലൂടെ, AI ഗവേഷകർക്ക് വിലയേറിയതും ഗുണപരവുമായ ഒരു വിഭവമാണ് ചാറ്റ്ബോട്ട് അരീന.

പ്ലാറ്റ്ഫോം ഉപയോക്താക്കളുടെ ഫീഡ്ബാക്ക് ശേഖരിക്കുകയും അത് പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നു ബ്രാഡ്ലി-ടെറി സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡൽ നേരിട്ടുള്ള മത്സരത്തിൽ ഒരു പ്രത്യേക മോഡൽ മറ്റുള്ളവരെ മറികടക്കുന്നതിൻ്റെ സാധ്യത പ്രവചിക്കാൻ. ഈ സമീപനം എലോ റേറ്റിംഗ് എസ്റ്റിമേറ്റുകൾക്കായുള്ള കോൺഫിഡൻസ് ഇൻ്റർവെൽ ശ്രേണികൾ ഉൾപ്പെടെയുള്ള സമഗ്രമായ സ്ഥിതിവിവരക്കണക്കുകൾ സൃഷ്ടിക്കാൻ ഇത് പ്രാപ്തമാക്കുന്നു-ചെസ്സ് കളിക്കാരുടെ കഴിവ് അളക്കാൻ ഉപയോഗിക്കുന്ന അതേ സാങ്കേതികത.

ചാറ്റ്ബോട്ട് അരീന റാങ്ക് ചെയ്ത മികച്ച 10 LLM-കൾ. ചിത്രം: ആലിംഗനം
ചാറ്റ്ബോട്ട് അരീന റാങ്ക് ചെയ്ത മികച്ച 10 LLM-കൾ. ചിത്രം: ആലിംഗനം

ക്ലോഡ് 3 ഓപസിൻ്റെ മുകളിലേക്കുള്ള ഉയർച്ച മാത്രമല്ല ലീഡർബോർഡിലെ പ്രധാന വികസനം. ആന്ത്രോപിക് വികസിപ്പിച്ച ക്ലോഡ് 3 സോണറ്റ് (ഇടത്തരം വലിപ്പമുള്ള മോഡൽ സൗജന്യമായി ലഭ്യമാണ്), ക്ലോഡ് 3 ഹൈക്കു (ചെറിയതും വേഗതയേറിയതുമായ മോഡൽ) എന്നിവ നിലവിൽ യഥാക്രമം 4, 6 സ്ഥാനങ്ങളിലാണ്.

GPT-4-4 (0314 മാർച്ച് മുതൽ GPT-4-ൻ്റെ "യഥാർത്ഥ" പതിപ്പ്), GPT-2023-4, GPT-0613-4-പ്രിവ്യൂ, GPT-1106 എന്നിങ്ങനെയുള്ള GPT-4-ൻ്റെ വ്യത്യസ്ത പതിപ്പുകൾ ലീഡർബോർഡിൽ ഉൾപ്പെടുന്നു. -0125-പ്രിവ്യൂ (ജനുവരി 4 മുതൽ API വഴി ലഭ്യമായ ഏറ്റവും പുതിയ GPT-2024 ടർബോ മോഡൽ). റാങ്കിംഗ് അനുസരിച്ച്, സോണറ്റും ഹൈക്കുവും ഒറിജിനൽ GPT-4 നേക്കാൾ മികച്ചതാണ്, കൂടാതെ 2023 ജൂണിൽ OpenAI സമാരംഭിച്ച ട്വീക്ക് ചെയ്ത പതിപ്പിനെ സോണറ്റും മറികടക്കുന്നു.

നിർഭാഗ്യവശാൽ, ആദ്യ 10-ൽ നിലവിൽ ഒരു ഓപ്പൺ സോഴ്‌സ് LLM മാത്രമേയുള്ളൂ: ക്വെൻ, സ്റ്റാർലിംഗ് 7b, Mixtral 8x7B എന്നിവ ടോപ്പ് 20-ൽ ഉള്ള മറ്റ് ഓപ്പൺ മോഡലുകളാണ്.

GPT-4 നേക്കാൾ ക്ലോഡിൻ്റെ ഒരു ഗുണം അതിൻ്റെ ടോക്കൺ സന്ദർഭ ശേഷിയും വീണ്ടെടുക്കൽ ശേഷിയുമാണ്. Claude 3 Opus-ൻ്റെ പൊതു പതിപ്പ് 200K-ലധികം കൈകാര്യം ചെയ്യുന്നു-കൂടാതെ 1 ദശലക്ഷം ടോക്കണുകൾ കൈകാര്യം ചെയ്യാൻ കഴിവുള്ള ഒരു നിയന്ത്രിത പതിപ്പ് ഉണ്ടെന്ന് സ്ഥാപനം അവകാശപ്പെടുന്നു. ക്ലോഡിന് ദൈർഘ്യമേറിയ നിർദ്ദേശങ്ങൾ മനസിലാക്കാനും കൂടുതൽ ഫലപ്രദമായി വിവരങ്ങൾ നിലനിർത്താനും കഴിയുമെന്നാണ് ഇതിനർത്ഥം GPT-4 ടർബോയുമായി താരതമ്യം ചെയ്യുമ്പോൾ, ഇത് 128K ടോക്കണുകൾ കൈകാര്യം ചെയ്യുകയും ദീർഘമായ നിർദ്ദേശങ്ങളോടെ വീണ്ടെടുക്കൽ കഴിവുകൾ നഷ്ടപ്പെടുകയും ചെയ്യുന്നു.

Claude 3 Opus vs GPT-4 Turbo യുടെ കൃത്യത ഓർക്കുക. ആന്ത്രോപിക്, ഗ്രെഗ് കാംറാഡ് എന്നിവയിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് ഡീക്രിപ്റ്റിൽ നിന്നുള്ള ചിത്രം
Claude 3 Opus vs GPT-4 Turbo യുടെ കൃത്യത ഓർക്കുക. ആന്ത്രോപിക്, ഗ്രെഗ് കാംറാഡ് എന്നിവയിൽ നിന്നുള്ള ഡാറ്റ ഉപയോഗിച്ച് ഡീക്രിപ്റ്റിൽ നിന്നുള്ള ചിത്രം.

Google- ന്റെ ജെമിനി അഡ്വാൻസ്ഡ് AI അസിസ്റ്റൻ്റ് സ്‌പെയ്‌സിലും ട്രാക്ഷൻ നേടുന്നു. ചാറ്റ് GPT പ്ലസ് സബ്‌സ്‌ക്രിപ്‌ഷൻ്റെ അതേ വിലയ്ക്ക് (പ്രതിമാസം $2) Google ഉൽപ്പന്നങ്ങളുടെ സ്യൂട്ടിൽ 20TB സംഭരണവും AI കഴിവുകളും ഉൾപ്പെടുന്ന ഒരു പ്ലാൻ കമ്പനി വാഗ്ദാനം ചെയ്യുന്നു.

സൗജന്യ ജെമിനി പ്രോ നിലവിൽ GPT-4 ടർബോയ്ക്കും ക്ലോഡ് 4 സോണറ്റിനും ഇടയിൽ നാലാം സ്ഥാനത്താണ്. ഏറ്റവും മികച്ച ജെമിനി അൾട്രാ മോഡൽ ടെസ്റ്റിംഗിന് ലഭ്യമല്ല, റാങ്കിംഗിൽ ഇതുവരെ ഫീച്ചർ ചെയ്തിട്ടില്ല.

മാറ്റം വരുത്തിയത് റയാൻ ഒസാവ.

ക്രിപ്‌റ്റോ വാർത്തകളുടെ മുകളിൽ തുടരുക, നിങ്ങളുടെ ഇൻബോക്‌സിൽ പ്രതിദിന അപ്‌ഡേറ്റുകൾ നേടുക.

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി