Zephyrnet Logosu

Claude 3 Opus, Chatbot Sıralamasında En Üst Sırada Yer Aldı

Tarih:

Anthropic'in yeni nesil yapay zeka modeli Claude 3 Opus, Chatbot Arena sıralamasında ilk sırayı alarak OpenAI'nin GPT-4'ünü en iyi ikinci sıraya taşıdı.

Geçen yıl piyasaya sürülmesinden bu yana, Claude 3 Opus modeli ilk kez, üç Claud 3 versiyonunun da ilk 10'da yer aldığı Chatbot Arena listesinin zirvesine çıktı.

Claude 3 modelleri iz bırakıyor

LMSYS Chatbot Arenası sıralamalar, Claude 3 Sonnet'in Gemini Pro ile ortak dördüncü sırada yer aldığını, bu yıl piyasaya sürülen Claude 3 Haiku'nun ise GPT-4'ün önceki bir sürümüyle birlikte altıncı sırada yer aldığını gösteriyor.

Rağmen Claude 3 Haiku Sonnet veya Opus kadar akıllı olmayabilir, model daha hızlı ve önemli ölçüde daha ucuz, ancak arenanın sonuçlarının da gösterdiği gibi "kör testlerde çok daha büyük modeller kadar iyi".

“Claude 3 Haiku herkesi etkiledi, hatta kullanıcı tercihimize göre GPT-4 seviyesine ulaştı! Hızı, yetenekleri ve içerik uzunluğu artık piyasada eşi benzeri olmayan bir seviyede” diye açıkladı LMSYS.

Tom's Guide'a göre Haiku'yu daha etkileyici kılan şey, "Gemini Nano ile karşılaştırılabilecek yerel boyuttaki model" olmasıdır. Bu olabilir Bilgi yoğun araştırmaları okuyun ve işleyin kağıtlar üç saniyeden kısa sürede.

Model, Opus'un veya GPT-4 sınıfı modellerden herhangi birinin trilyon artı parametre ölçeği olmadan bile harika sonuçlar elde ediyor.

Bu kısa süreli bir başarı olabilir mi?

İkinci sıraya itilmiş olmasına rağmen OpenAI'nin GPT-4 versiyonları hala dört versiyonla listede ilk 10'un zirvesinde yer alıyor.

Göre Tom's GuideOpenAI'nin GPT-4 versiyonları, çeşitli biçimleriyle "o kadar uzun süredir en üst sırada yer alıyor ki, onun kriterlerine yaklaşan diğer modeller GPT-4 sınıfı model olarak biliniyor."

Bu yıl "belirgin derecede farklı" bir GPT-5 beklendiği için, Claude 3 Opus ve GPT-4 arasındaki puan farkı dar olduğundan Anthropic bu pozisyonu çok uzun süre tutamayabilir.

Her ne kadar OpenAI gerçek sürümü konusunda ağzı sıkı kalmış olsa da GPT 5Piyasa lansmanını büyük bir heyecanla bekliyor. Modelin bazı işlemlerden geçtiği bildiriliyor “sıkı güvenlik testleri” ve yayınlanmadan önce çok önemli olan simüle edilmiş saldırılar.

LMSYS Chatbot Arenası

Bu sıralama, yapay zeka modelleri için diğer kıyaslama biçimlerinin aksine, insan oylarına dayanıyor. Bununla, insanlar iki farklı modelin çıktısını aynı istemle kör derecelendiriyor.

Chatbot Arena, LMSYS tarafından yönetiliyor ve "anonim rastgele savaşlarda" mücadele eden bir dizi büyük dil modeline (LLM) sahip.

İlk kez geçen Mayıs ayında piyasaya sürülen bu uygulama, Google, Anthropic ve Anthropic'in yapay zeka modellerine sahip kullanıcılardan 400,000'den fazla oy topladı. OpenAI.

“LMSYS Chatbot Arena, LLM değerlendirmeleri için kitle kaynaklı açık bir platformdur. LMSYS, LLM'leri Elo sıralama sistemiyle sıralamak için 400,000'den fazla insan tercihi oyu topladık" dedi.

Elo sistemi çoğunlukla satranç gibi oyunlarda bir oyuncunun göreceli becerisini değerlendirmek için kullanılır. Ancak bu durumda sıralama, "modeli kullanan insana değil" chatbot'a uygulanıyor.

Ayrıca okuyun: Microsoft, Copilot AI Düğmesine Sahip 'İlk' Surface Bilgisayarlarını Tanıttı

eksiklikler

Chatbot Arena sıralaması hatalardan ibaret değil. Tom's Guide'a göre, kullanıcılar bazen GPT-4'ün yüklenememesiyle ilgili kötü deneyimler yaşarken, dahil edilen tüm modelleri veya modellerin sürümlerini içermez. Ayrıca Google Gemini Pro gibi canlı internet erişimi olan bazı modelleri de tercih edebilir.

Fransız AI girişimindekiler gibi diğer modeller Karayel ve Alibaba gibi Çinli firmalar son zamanlarda açık kaynaklı modellerin yanı sıra arenada en üst sıralarda yer aldılar, ancak arenada hala bazı yüksek profilli modeller eksik. Örneğin Google'ın Gemini Pro 1.5 gibi modelleri eksik

spot_img

En Son İstihbarat

spot_img