Claude 3 Opus, Chatbot Sıralamasında En Üst Sırada

Anthropic'in yeni nesil yapay zeka modeli Claude 3 Opus, Chatbot Arena sıralamasında ilk sırayı alarak OpenAI'nin GPT-4'ünü en iyi ikinci sıraya taşıdı.

Geçen yıl piyasaya sürülmesinden bu yana, Claude 3 Opus modeli ilk kez, üç Claud 3 versiyonunun da ilk 10'da yer aldığı Chatbot Arena listesinin zirvesine çıktı.

Claude 3 modelleri iz bırakıyor

LMSYS Chatbot Arenası sıralamalar, Claude 3 Sonnet'in Gemini Pro ile ortak dördüncü sırada yer aldığını, bu yıl piyasaya sürülen Claude 3 Haiku'nun ise GPT-4'ün önceki bir sürümüyle birlikte altıncı sırada yer aldığını gösteriyor.

Rağmen Claude 3 Haiku Sonnet veya Opus kadar akıllı olmayabilir, model daha hızlı ve önemli ölçüde daha ucuz, ancak arenanın sonuçlarının da gösterdiği gibi "kör testlerde çok daha büyük modeller kadar iyi".

“Claude 3 Haiku herkesi etkiledi, hatta kullanıcı tercihimize göre GPT-4 seviyesine ulaştı! Hızı, yetenekleri ve içerik uzunluğu artık piyasada eşi benzeri olmayan bir seviyede” diye açıkladı LMSYS.

Tom's Guide'a göre Haiku'yu daha etkileyici kılan şey, "Gemini Nano ile karşılaştırılabilecek yerel boyuttaki model" olmasıdır. Bu olabilir Bilgi yoğun araştırmaları okuyun ve işleyin kağıtlar üç saniyeden kısa sürede.

Model, Opus'un veya GPT-4 sınıfı modellerden herhangi birinin trilyon artı parametre ölçeği olmadan bile harika sonuçlar elde ediyor.

[Arena Güncellemesi]

70'den fazla yeni Arena oyu🗳️ geldi!

Claude-3 Haiku herkesi etkiledi, hatta kullanıcı tercihimize göre GPT-4 seviyesine ulaştı! Hızı, yetenekleri ve içerik uzunluğu artık piyasada eşsiz🔥

tebrikler @Filmdenkare inanılmaz Claude-3 lansmanında!

Daha heyecanlı… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 Mart, 2024

Bu kısa süreli bir başarı olabilir mi?

İkinci sıraya itilmiş olmasına rağmen OpenAI'nin GPT-4 versiyonları hala dört versiyonla listede ilk 10'un zirvesinde yer alıyor.

Göre Tom's GuideOpenAI'nin GPT-4 versiyonları, çeşitli biçimleriyle "o kadar uzun süredir en üst sırada yer alıyor ki, onun kriterlerine yaklaşan diğer modeller GPT-4 sınıfı model olarak biliniyor."

Bu yıl "belirgin derecede farklı" bir GPT-5 beklendiği için, Claude 3 Opus ve GPT-4 arasındaki puan farkı dar olduğundan Anthropic bu pozisyonu çok uzun süre tutamayabilir.

Her ne kadar OpenAI gerçek sürümü konusunda ağzı sıkı kalmış olsa da GPT 5Piyasa lansmanını büyük bir heyecanla bekliyor. Modelin bazı işlemlerden geçtiği bildiriliyor “sıkı güvenlik testleri” ve yayınlanmadan önce çok önemli olan simüle edilmiş saldırılar.

LMSYS Chatbot Arenası

Bu sıralama, yapay zeka modelleri için diğer kıyaslama biçimlerinin aksine, insan oylarına dayanıyor. Bununla, insanlar iki farklı modelin çıktısını aynı istemle kör derecelendiriyor.

Chatbot Arena, LMSYS tarafından yönetiliyor ve "anonim rastgele savaşlarda" mücadele eden bir dizi büyük dil modeline (LLM) sahip.

İlk kez geçen Mayıs ayında piyasaya sürülen bu uygulama, Google, Anthropic ve Anthropic'in yapay zeka modellerine sahip kullanıcılardan 400,000'den fazla oy topladı. OpenAI.

“LMSYS Chatbot Arena, LLM değerlendirmeleri için kitle kaynaklı açık bir platformdur. LMSYS, LLM'leri Elo sıralama sistemiyle sıralamak için 400,000'den fazla insan tercihi oyu topladık" dedi.

Elo sistemi çoğunlukla satranç gibi oyunlarda bir oyuncunun göreceli becerisini değerlendirmek için kullanılır. Ancak bu durumda sıralama, "modeli kullanan insana değil" chatbot'a uygulanıyor.

Ayrıca okuyun: Microsoft, Copilot AI Düğmesine Sahip 'İlk' Surface Bilgisayarlarını Tanıttı

eksiklikler

Chatbot Arena sıralaması hatalardan ibaret değil. Tom's Guide'a göre, kullanıcılar bazen GPT-4'ün yüklenememesiyle ilgili kötü deneyimler yaşarken, dahil edilen tüm modelleri veya modellerin sürümlerini içermez. Ayrıca Google Gemini Pro gibi canlı internet erişimi olan bazı modelleri de tercih edebilir.

Fransız AI girişimindekiler gibi diğer modeller Karayel ve Alibaba gibi Çinli firmalar son zamanlarda açık kaynaklı modellerin yanı sıra arenada en üst sıralarda yer aldılar, ancak arenada hala bazı yüksek profilli modeller eksik. Örneğin Google'ın Gemini Pro 1.5 gibi modelleri eksik

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Üretken Veri Zekası

Claude 3 Opus, Chatbot Sıralamasında En Üst Sırada Yer Aldı

Claude 3 modelleri iz bırakıyor

Bu kısa süreli bir başarı olabilir mi?

LMSYS Chatbot Arenası

eksiklikler

04/26/2024 için AADES Gönderileri

[Hatırlatma] CIDER Oturumu – 2023 Ulusun Durumu 2022: Kanada'da K-12 E-Öğrenim

En Son İstihbarat

ABD, yeni araçlarda otomatik acil frenlemeyi zorunlu kılacak – Autoblog

Bu Ağır Hizmet E-Kargo Bisikleti 2 Metreküp Taşıma Alanına Sahiptir ve 800 Pound'dan Fazla Yük Taşıyabilir – CleanTechnica

SoFi, güçlü ilk çeyrek geliri ve kârını bildirdi

2025 Jeep Grand Cherokee'nin temel motor olarak 2.0 litrelik dört motora sahip olacağı söyleniyor - Autoblog

Karga temalı meme coin bir haftada neredeyse %600 arttı

Ethereum Balinaları, 140 Milyon Dolarlık ETH Satışıyla Piyasa Kaosunu Tetikledi