Logo Zephyrnet

Claude AI Anthropic bori ChatGPT lori Chatbot Arena Leaderboard - Decrypt

ọjọ:

Lakoko ti ChatGPT lati Ṣii AI n gbadun iṣaro akọkọ akọkọ ti gbogbo awọn irinṣẹ AI ti ipilẹṣẹ, aaye oke rẹ ti ji nipasẹ oke-ti-laini Claude 3 Opus lati ọdọ oludije aladun Anthropic lori igbimọ oludari olokiki olokiki ti awọn oniwadi AI lo.

Claude's igoke ni awọn ipo Chatbot Arena jẹ aami igba akọkọ ti OpenAI's GPT-4, eyiti o ni agbara ChatGPT Plus, ti yọkuro ni itẹ lati igba akọkọ ti o farahan lori adari ni May ti ọdun to kọja.

Chatbot Arena jẹ ṣiṣe nipasẹ Large Model Systems Organisation (LMSYS ORG), ile-iṣẹ iwadii kan ti a ṣe igbẹhin si ṣiṣi awọn awoṣe ti o ṣe atilẹyin ifowosowopo laarin awọn ọmọ ile-iwe ati awọn olukọni ni University of California, Berkeley, UC San Diego, ati Ile-ẹkọ giga Carnegie Mellon. Syeed n ṣafihan awọn olumulo pẹlu awọn awoṣe ede ti ko ni aami meji ati beere lọwọ wọn lati ṣe oṣuwọn eyi ti o ṣe dara julọ ti o da lori eyikeyi awọn ibeere ti wọn ro pe o baamu.

Lẹhin apapọ ẹgbẹẹgbẹrun awọn afiwera ero-ara, Chatbot Arena ṣe iṣiro awọn awoṣe “dara julọ” fun igbimọ adari, n ṣe imudojuiwọn rẹ ni akoko pupọ.

Ọna ti ara ẹni yẹn, ti o da lori awọn itọwo ti ara ẹni ti o yatọ si awọn olukopa, jẹ ohun ti o ṣeto Chatbot Arena yato si awọn ipilẹ AI miiran. Awọn olukọni awoṣe ko le “iyanjẹ” nipa titọ awọn awoṣe wọn lati lu algoridimu, bi wọn ṣe le pẹlu awọn ipilẹ pipo. Nipa wiwọn ohun ti eniyan fẹfẹ nirọrun, Chatbot Arena jẹ ohun elo ti o niyelori, agbara fun awọn oniwadi AI.

Syeed gba awọn olumulo 'esi ati ṣiṣe awọn ti o nipasẹ awọn Bradley-Terry iṣiro awoṣe lati ṣe asọtẹlẹ iṣeeṣe ti awoṣe kan pato ti o ju awọn miiran lọ ni idije taara. Ọna yii mu ki awọn iran ti okeerẹ statistiki, pẹlu igbekele aarin awọn sakani fun Elo rating nkan elo-ilana kannaa ti a lo lati wiwọn awọn olorijori ti chess awọn ẹrọ orin.

LLM ti o ga julọ 10 ni ipo nipasẹ Chatbot Arena. Aworan: Huggingface
LLM ti o ga julọ 10 ni ipo nipasẹ Chatbot Arena. Aworan: Huggingface

Claude 3 Opus dide si oke kii ṣe idagbasoke pataki nikan lori igbimọ adari. Claude 3 Sonnet (awoṣe iwọn alabọde ti o wa fun ọfẹ) ati Claude 3 Haiku (awoṣe ti o kere ju, ti o yara), tun ni idagbasoke nipasẹ Anthropic, wa lọwọlọwọ ni ipo 4th ati 6th, lẹsẹsẹ.

Igbimọ adari pẹlu awọn ẹya oriṣiriṣi ti GPT-4, gẹgẹbi GPT-4-0314 (ẹya “atilẹba” ti GPT-4 lati Oṣu Kẹta ọdun 2023), GPT-4-0613, GPT-4-1106-awotẹlẹ, ati GPT-4 -0125-awotẹlẹ (titun GPT-4 Turbo awoṣe wa nipasẹ API lati January 2024). Gẹgẹbi ranking naa, Sonnet ati Haiku mejeeji dara ju GPT-4 atilẹba lọ pẹlu Sonnet tun kọja ẹya tweaked ti a ṣe ifilọlẹ nipasẹ OpenAI ni Oṣu Karun ọdun 2023.

Eyi tun tumọ si pe, ni ibanujẹ, orisun ṣiṣi LLM kan wa lọwọlọwọ ni oke 10: Qwen, pẹlu Starling 7b ati Mixtral 8x7B awọn awoṣe ṣiṣi miiran nikan ni oke 20.

Ọkan ninu awọn anfani ti Claude lori GPT-4 ni agbara ọrọ-ọrọ ami rẹ ati agbara igbapada. Ẹya ti gbogbo eniyan ti Claude 3 Opus n mu diẹ sii ju 200K-ati pe ajo naa sọ pe o ni ẹya ihamọ ti o lagbara lati mu awọn ami-ami miliọnu kan mu pẹlu awọn oṣuwọn imupadabọ pipe. Eyi tumọ si pe Claude le ni oye awọn itara gigun ati idaduro alaye diẹ sii daradara ju akawe si GPT-4 Turbo, eyi ti o mu awọn ami-ami 128K ti o padanu awọn agbara igbapada rẹ pẹlu awọn igbiyanju gigun.

Ranti deede ti Claude 3 Opus vs GPT-4 Turbo. Aworan lati Decrypt nipa lilo data lati Anthropic ati Greg Kamradt
Ranti deede ti Claude 3 Opus vs GPT-4 Turbo. Aworan lati Decrypt nipa lilo data lati Anthropic ati Greg Kamradt.

Google ká Gemini Onitẹsiwaju tun ti n gba isunmọ ni aaye oluranlọwọ AI. Ile-iṣẹ nfunni ni ero ti o pẹlu 2TB ti ibi ipamọ ati awọn agbara AI ni suite ti awọn ọja Google fun idiyele kanna gẹgẹbi ṣiṣe alabapin GPT Plus Chat ($ 20 fun oṣu kan).

Gemini Pro ọfẹ ti wa ni ipo lọwọlọwọ nọmba 4, laarin GPT-4 Turbo ati Claude 3 Sonnet. Awoṣe Gemini Ultra oke-ti-ila ko si fun idanwo ati pe ko ti ṣe ifihan ni awọn ipo.

Ṣatunkọ nipasẹ Ryan Ozawa.

Duro lori oke ti awọn iroyin crypto, gba awọn imudojuiwọn ojoojumọ ninu apo-iwọle rẹ.

iranran_img

Titun oye

iranran_img