Zephyrnet Logo

Claude AI da Anthropic derruba ChatGPT na tabela de classificação do Chatbot Arena

Data:

Embora o ChatGPT da Open AI desfrute da maior participação popular de todas as ferramentas generativas de IA, seu primeiro lugar foi roubado pelo top de linha Claude 3 Opus do concorrente perene Anthropic em um popular ranking de crowdsourcing usado por pesquisadores de IA.

A ascensão de Claude no ranking do Chatbot Arena marca a primeira vez que o GPT-4 da OpenAI, que alimenta o ChatGPT Plus, foi destronado desde que apareceu pela primeira vez na tabela de classificação em maio do ano passado.

O Chatbot Arena é administrado pela Large Model Systems Organization (LMSYS ORG), uma organização de pesquisa dedicada a modelos abertos que apoiam a colaboração entre estudantes e professores da Universidade da Califórnia, Berkeley, UC San Diego e Carnegie Mellon University. A plataforma apresenta aos usuários dois modelos de linguagem não rotulados e pede-lhes que avaliem qual deles tem melhor desempenho com base em quaisquer critérios que considerem adequados.

Após agregar milhares de comparações subjetivas, o Chatbot Arena calcula os “melhores” modelos para o placar, atualizando-o ao longo do tempo.

Essa abordagem subjetiva, baseada nos gostos pessoais díspares dos participantes, é o que diferencia o Chatbot Arena de outros benchmarks de IA. Os treinadores de modelos não podem “trapacear” adaptando seus modelos para vencer o algoritmo, como fariam com benchmarks quantitativos. Ao medir o que as pessoas simplesmente preferem, o Chatbot Arena é um recurso valioso e qualitativo para pesquisadores de IA.

A plataforma coleta feedback dos usuários e o analisa através do Modelo estatístico Bradley-Terry para prever a probabilidade de um determinado modelo superar outros na concorrência direta. Essa abordagem permite a geração de estatísticas abrangentes, incluindo intervalos de confiança para estimativas de classificação Elo – a mesma técnica usada para medir a habilidade dos jogadores de xadrez.

Os 10 melhores LLMs classificados pela Chatbot Arena. Imagem: Huggingface
Os 10 melhores LLMs classificados pela Chatbot Arena. Imagem: Huggingface

A ascensão de Claude 3 Opus ao topo não é o único desenvolvimento significativo na tabela de classificação. Claude 3 Sonnet (modelo de tamanho médio disponível gratuitamente) e Claude 3 Haiku (modelo menor e mais rápido), também desenvolvido pela Anthropic, estão atualmente em 4º e 6º lugar, respectivamente.

A tabela de classificação inclui diferentes versões do GPT-4, como GPT-4-0314 (a versão “original” do GPT-4 de março de 2023), GPT-4-0613, GPT-4-1106-preview e GPT-4 -0125-preview (o modelo GPT-4 Turbo mais recente disponível via API a partir de janeiro de 2024). De acordo com a classificação, Sonnet e Haiku são melhores do que o GPT-4 original, com o Sonnet também ultrapassando uma versão ajustada lançada pela OpenAI em junho de 2023.

Isso também significa que, infelizmente, há apenas um LLM de código aberto atualmente no top 10: Qwen, com Starling 7b e Mixtral 8x7B os únicos outros modelos abertos no top 20.

Uma das vantagens do Claude sobre o GPT-4 é sua capacidade de contexto de token e capacidade de recuperação. A versão pública do Claude 3 Opus lida com mais de 200 mil — e a organização afirma ter uma versão restrita capaz de lidar com 1 milhão de tokens com taxas de recuperação quase perfeitas. Isso significa que Claude pode compreender instruções mais longas e reter informações de forma mais eficaz do que comparado ao GPT-4 Turbo, que lida com tokens de 128 mil e perde seus recursos de recuperação com prompts longos.

Precisão de recall de Claude 3 Opus vs GPT-4 Turbo. Imagem do Decrypt usando dados da Anthropic e Greg Kamradt
Precisão de recall de Claude 3 Opus vs GPT-4 Turbo. Imagem do Decrypt usando dados da Anthropic e Greg Kamradt.

Google Gêmeos Avançado também vem ganhando força no espaço de assistentes de IA. A empresa oferece um plano que inclui 2 TB de armazenamento e recursos de IA no conjunto de produtos Google pelo mesmo preço de uma assinatura do Chat GPT Plus (US$ 20 por mês).

O Gemini Pro gratuito está atualmente classificado em 4º lugar, entre GPT-4 Turbo e Claude 3 Sonnet. O modelo top de linha Gemini Ultra não está disponível para testes e ainda não aparece no ranking.

Editado por Ryan Ozawa.

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

local_img

Inteligência mais recente

local_img