Claude 3 Opus가 챗봇 순위에서 XNUMX위를 차지했습니다

Anthropic의 차세대 AI 모델 Claude 3 Opus가 Chatbot Arena 리더보드에서 선두 자리를 차지하여 OpenAI의 GPT-4를 XNUMX위로 끌어올렸습니다.

클로드3 오푸스(Claude 3 Opus) 모델이 지난해 출시된 이후 처음으로 클로드10(Claude XNUMX Opus) 모델이 챗봇 아레나 순위에서 XNUMX위를 차지했다. 클로드XNUMX 버전 XNUMX종이 모두 상위 XNUMX위에 랭크됐다.

클로드 3(Claude XNUMX) 모델이 주목을 받다

LMSYS 챗봇 아레나 순위에 따르면 Claude 3 Sonnet은 Gemini Pro와 함께 공동 3위를 차지했으며, 올해 출시된 Claude 4 Haiku는 이전 버전의 GPT-XNUMX와 함께 XNUMX위를 차지했습니다.

이기는하지만 클로드 3 하이쿠 Sonnet이나 Opus만큼 지능적이지는 않더라도 이 모델은 더 빠르고 훨씬 저렴하지만 경기장 결과에 따르면 "블라인드 테스트에서 훨씬 더 큰 모델만큼 우수"합니다.

“Claude 3 Haiku는 모두에게 깊은 인상을 주었습니다. 사용자 선호도에 따라 GPT-4 수준에 도달하기도 했습니다! 속도, 기능, 컨텍스트 길이는 현재 시장에서 타의 추종을 불허합니다.”라고 LMSYS는 설명했습니다.

Tom's Guide에 따르면 Haiku를 더욱 인상적으로 만드는 것은 "Gemini Nano에 필적하는 로컬 크기 모델"이라는 것입니다. 그것은 할 수 있다 정보 밀도가 높은 연구를 읽고 처리합니다. 3초 이내에 서류를 처리합니다.

이 모델은 Opus나 GPT-4급 모델의 XNUMX조 이상의 매개변수 규모 없이도 훌륭한 결과를 달성하고 있습니다.

[아레나 업데이트]

70개가 넘는 새로운 아레나 투표🗳️가 진행되었습니다!

Claude-3 Haiku는 모두에게 깊은 인상을 주었습니다. 심지어 사용자 선호도에 따라 GPT-4 레벨에 도달하기도 했습니다! 속도, 기능 및 컨텍스트 길이는 현재 시장에서 타의 추종을 불허합니다🔥

축하 안녕하세요. 놀라운 Claude-3 출시에 대해 알아보세요!

더 흥미로운… pic.twitter.com/p1Guuf0B3K

— lmsys.org(@lmsysorg) 2024 년 3 월 26 일

이것이 단기적인 성공이 될 수 있을까?

4위로 밀렸음에도 불구하고 OpenAI의 GPT-10 버전은 여전히 XNUMX개 버전으로 목록에서 상위 XNUMX위를 차지했습니다.

에 따르면 톰 가이드, OpenAI의 다양한 형태의 GPT-4 버전은 "오랫동안 벤치마크에 근접한 다른 모델은 GPT-4급 모델로 알려질 정도로" 최고의 자리를 지켜왔습니다.

올해 언젠가는 "현저하게 다른" GPT-5가 예상되므로 Anthropic은 Claude 3 Opus와 GPT-4 사이의 점수 차이가 좁기 때문에 그 위치를 너무 오랫동안 유지하지 못할 수도 있습니다.

OpenAI는 실제 출시에 대해 입을 다물고 있지만 GPT-5시장에서는 출시에 큰 기대를 걸고 있습니다. 해당 모델은 현재 약간의 문제를 겪고 있는 것으로 알려졌습니다. “엄격한 안전성 테스트” 및 출시 전 중요한 시뮬레이션 공격을 제공합니다.

LMSYS 챗봇 아레나

이 순위는 AI 모델에 대한 다른 벤치마킹 형태와 달리 사람의 투표에 의존합니다. 이를 통해 사람들은 동일한 프롬프트에 대해 서로 다른 두 모델의 결과를 맹목적으로 평가합니다.

Chatbot Arena는 LMSYS에서 운영하며 "익명 무작위 전투"에서 싸우고 있는 다수의 대규모 언어 모델(LLM)을 갖추고 있습니다.

지난 400,000월 처음 출시돼 구글, 앤트로픽(Anthropic), 인공지능(AI) 모델을 보유한 사용자들로부터 XNUMX만 표 이상을 모았다. OpenAI.

“LMSYS Chatbot Arena는 LLM 평가를 위한 크라우드소싱 개방형 플랫폼입니다. 우리는 Elo 순위 시스템을 통해 LLM 순위를 매기기 위해 400,000개 이상의 인간 선호 투표를 수집했습니다.”라고 LMSYS는 말했습니다.

Elo 시스템은 주로 체스와 같은 게임에서 플레이어의 상대적 기술을 평가하는 데 사용됩니다. 하지만 이 경우 순위는 '모델을 사용하는 사람이 아닌' 챗봇에 적용된다.

또한 읽기 : 마이크로소프트, 코파일럿 AI 버튼 탑재한 '최초의' 서피스 PC 공개

단점

챗봇 아레나 순위에는 흠집이 부족하지 않습니다. Tom's Guide에 따르면 포함된 모든 모델 또는 모델 버전이 포함되지는 않지만 사용자는 때때로 GPT-4 로드 실패로 인해 좋지 않은 경험을 하게 됩니다. 또한 Google Gemini Pro와 같이 실시간 인터넷 액세스가 가능한 일부 모델을 선호할 수도 있습니다.

프랑스 AI 스타트업의 모델과 같은 다른 모델은 한랭 한 북서풍 Alibaba와 같은 중국 기업은 최근 오픈 소스 모델 외에도 경기장에서 최고의 자리를 차지했지만 경기장에서는 여전히 일부 유명 모델을 놓치고 있습니다. 예를 들어 Google의 Gemini Pro 1.5와 같은 모델이 없습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

생성 데이터 인텔리전스

Claude 3 Opus가 챗봇 순위에서 XNUMX위를 차지했습니다.

클로드 3(Claude XNUMX) 모델이 주목을 받다

이것이 단기적인 성공이 될 수 있을까?

LMSYS 챗봇 아레나

단점

2024년 수익 극대화: ValueZone.AI 종합 살펴보기

영국 국방부 장관, 이탈리아가 우크라이나에 스톰 섀도우 미사일을 공급했다고 밝혔습니다

최신 인텔리전스

생방송: SpaceX, Cape Canaveral에서 Falcon 23 비행으로 9개의 Starlink 위성 발사

Islanders가 5차전에서 승리하는 데 필요한 세 가지 열쇠

레이커스는 덴버를 상대로 탐나는 승리를 거두었고, 현재 시리즈에서 3-1로 패했습니다.

팔콘 9(Falcon XNUMX), 갈릴레오 항법 위성 발사

전 Saab 엔지니어가 설계한 NEVS Emily GT는 이탈리아에서 제작될 수 있습니다 – Autoblog

Dogecoin과 Pepecoin 매니아들이 Wahoo Exchange 플랫폼에서 출시한 새로운 AI 토큰 뒤에 모였습니다 – CryptoInfoNet