Claude AI da Anthropic derruba ChatGPT na tabela de classificação do Chatbot Arena

Embora o ChatGPT da Open AI desfrute da maior participação popular de todas as ferramentas generativas de IA, seu primeiro lugar foi roubado pelo top de linha Claude 3 Opus do concorrente perene Anthropic em um popular ranking de crowdsourcing usado por pesquisadores de IA.

A ascensão de Claude no ranking do Chatbot Arena marca a primeira vez que o GPT-4 da OpenAI, que alimenta o ChatGPT Plus, foi destronado desde que apareceu pela primeira vez na tabela de classificação em maio do ano passado.

O Chatbot Arena é administrado pela Large Model Systems Organization (LMSYS ORG), uma organização de pesquisa dedicada a modelos abertos que apoiam a colaboração entre estudantes e professores da Universidade da Califórnia, Berkeley, UC San Diego e Carnegie Mellon University. A plataforma apresenta aos usuários dois modelos de linguagem não rotulados e pede-lhes que avaliem qual deles tem melhor desempenho com base em quaisquer critérios que considerem adequados.

Após agregar milhares de comparações subjetivas, o Chatbot Arena calcula os “melhores” modelos para o placar, atualizando-o ao longo do tempo.

Essa abordagem subjetiva, baseada nos gostos pessoais díspares dos participantes, é o que diferencia o Chatbot Arena de outros benchmarks de IA. Os treinadores de modelos não podem “trapacear” adaptando seus modelos para vencer o algoritmo, como fariam com benchmarks quantitativos. Ao medir o que as pessoas simplesmente preferem, o Chatbot Arena é um recurso valioso e qualitativo para pesquisadores de IA.

A plataforma coleta feedback dos usuários e o analisa através do Modelo estatístico Bradley-Terry para prever a probabilidade de um determinado modelo superar outros na concorrência direta. Essa abordagem permite a geração de estatísticas abrangentes, incluindo intervalos de confiança para estimativas de classificação Elo – a mesma técnica usada para medir a habilidade dos jogadores de xadrez.

*Os 10 melhores LLMs classificados pela Chatbot Arena. Imagem: Huggingface*

A ascensão de Claude 3 Opus ao topo não é o único desenvolvimento significativo na tabela de classificação. Claude 3 Sonnet (modelo de tamanho médio disponível gratuitamente) e Claude 3 Haiku (modelo menor e mais rápido), também desenvolvido pela Anthropic, estão atualmente em 4º e 6º lugar, respectivamente.

A tabela de classificação inclui diferentes versões do GPT-4, como GPT-4-0314 (a versão “original” do GPT-4 de março de 2023), GPT-4-0613, GPT-4-1106-preview e GPT-4 -0125-preview (o modelo GPT-4 Turbo mais recente disponível via API a partir de janeiro de 2024). De acordo com a classificação, Sonnet e Haiku são melhores do que o GPT-4 original, com o Sonnet também ultrapassando uma versão ajustada lançada pela OpenAI em junho de 2023.

Isso também significa que, infelizmente, há apenas um LLM de código aberto atualmente no top 10: Qwen, com Starling 7b e Mixtral 8x7B os únicos outros modelos abertos no top 20.

Uma das vantagens do Claude sobre o GPT-4 é sua capacidade de contexto de token e capacidade de recuperação. A versão pública do Claude 3 Opus lida com mais de 200 mil — e a organização afirma ter uma versão restrita capaz de lidar com 1 milhão de tokens com taxas de recuperação quase perfeitas. Isso significa que Claude pode compreender instruções mais longas e reter informações de forma mais eficaz do que comparado ao GPT-4 Turbo, que lida com tokens de 128 mil e perde seus recursos de recuperação com prompts longos.

*Precisão de recall de Claude 3 Opus vs GPT-4 Turbo. Imagem do Decrypt usando dados da Anthropic e Greg Kamradt.*

Google Gêmeos Avançado também vem ganhando força no espaço de assistentes de IA. A empresa oferece um plano que inclui 2 TB de armazenamento e recursos de IA no conjunto de produtos Google pelo mesmo preço de uma assinatura do Chat GPT Plus (US$ 20 por mês).

O Gemini Pro gratuito está atualmente classificado em 4º lugar, entre GPT-4 Turbo e Claude 3 Sonnet. O modelo top de linha Gemini Ultra não está disponível para testes e ainda não aparece no ranking.

Editado por Ryan Ozawa.

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

Inteligência de dados generativa

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

Trump Bitcoin NFTs exclusivos com ordinais personalizados para compradores de 'Mugshot Edition' - CryptoInfoNet

Empresa oferece treinamento em alfabetização financeira digital para nigerianos – CryptoInfoNet

Inteligência mais recente

BDAG lidera as 5 pré-vendas de criptografia mais promissoras de 2024

Como avaliar o sentimento do mercado antes de comprar criptomoeda

Período de liquidez e aquisição de US$ 100 milhões da BlockDAG em meio a problemas de rede SOL e previsões de preços DOT

Casinos Rainbet e Crypto: Líderes do Grupo

Forbes lista XRP, ADA, LTC, ETC entre os principais tokens “zumbis”

DOJ contesta a caracterização das operações de dinheiro Tornado por Roman Storm em novo processo