Zephyrnet Logo

Como as máquinas 'Grok' dados? | Revista Quanta

Data:

Introdução

Apesar de todo o seu brilho, as redes neurais artificiais permanecem tão inescrutáveis ​​como sempre. À medida que estas redes crescem, as suas capacidades explodem, mas decifrar o seu funcionamento interno sempre foi quase impossível. Os pesquisadores estão constantemente em busca de informações que possam encontrar sobre esses modelos.

Há alguns anos, eles descobriram um novo.

Em janeiro de 2022, pesquisadores da OpenAI, empresa por trás do ChatGPT, relatado que esses sistemas, quando acidentalmente autorizados a mastigar dados por muito mais tempo do que o normal, desenvolveram formas únicas de resolver problemas. Normalmente, quando os engenheiros constroem modelos de aprendizado de máquina a partir de redes neurais – compostos de unidades de computação chamadas neurônios artificiais – eles tendem a interromper o treinamento em um determinado ponto, chamado regime de overfitting. É quando a rede basicamente começa a memorizar seus dados de treinamento e muitas vezes não generaliza para informações novas e invisíveis. Mas quando a equipe da OpenAI acidentalmente treinou uma pequena rede muito além desse ponto, ela pareceu desenvolver uma compreensão do problema que ia além da simples memorização – ela poderia subitamente superar qualquer dado de teste.

Os pesquisadores chamaram o fenômeno de “grokking”, um termo cunhado pelo autor de ficção científica Robert A. Heinlein para significar a compreensão de algo “tão completamente que o observador se torna parte do processo que está sendo observado”. A rede neural sobretreinada, projetada para realizar certas operações matemáticas, aprendeu a estrutura geral dos números e internalizou o resultado. Ele grocou e se tornou a solução.

“Isso [foi] muito emocionante e instigante”, disse Michael Belkin da Universidade da Califórnia, San Diego, que estuda as propriedades teóricas e empíricas das redes neurais. “Isso estimulou muito trabalho de acompanhamento.”

Na verdade, outros replicaram os resultados e até fizeram engenharia reversa deles. Os artigos mais recentes não apenas esclareceram o que essas redes neurais fazem quando grocam, mas também forneceram uma nova lente através da qual podemos examinar suas entranhas. “A configuração do grokking é como um bom organismo modelo para compreender muitos aspectos diferentes do aprendizado profundo”, disse Eric Michaud do Instituto de Tecnologia de Massachusetts.

Olhar para dentro deste organismo às vezes é bastante revelador. “Você não apenas pode encontrar uma bela estrutura, mas essa bela estrutura é importante para entender o que está acontecendo internamente”, disse Neel Nanda, agora no Google DeepMind em Londres.

Além dos limites

Fundamentalmente, o trabalho de um modelo de aprendizado de máquina parece simples: transformar uma determinada entrada em uma saída desejada. É função do algoritmo de aprendizagem procurar a melhor função possível que possa fazer isso. Qualquer modelo só pode acessar um conjunto limitado de funções, e esse conjunto é frequentemente ditado pelo número de parâmetros do modelo, que no caso das redes neurais é aproximadamente equivalente ao número de conexões entre neurônios artificiais.

Introdução

À medida que uma rede treina, ela tende a aprender funções mais complexas, e a discrepância entre a saída esperada e a real começa a cair nos dados de treinamento. Melhor ainda, essa discrepância, conhecida como perda, também começa a diminuir nos dados de teste, que são dados novos não utilizados no treinamento. Mas, em algum momento, o modelo começa a se ajustar demais e, enquanto a perda nos dados de treinamento continua caindo, a perda nos dados de teste começa a aumentar. Então, normalmente, é nesse momento que os pesquisadores param de treinar a rede.

Essa foi a sabedoria predominante quando a equipe da OpenAI começou a explorar como uma rede neural poderia fazer matemática. Eles estavam usando um pequeno transformador — uma arquitetura de rede que recentemente revolucionou grandes modelos de linguagem — para fazer diferentes tipos de aritmética modular, na qual você trabalha com um conjunto limitado de números que se repetem. O módulo 12, por exemplo, pode ser feito em um mostrador de relógio: 11 + 2 = 1. A equipe mostrou à rede exemplos de adição de dois números, a e b, para produzir uma saída, c, no módulo 97 (equivalente a um mostrador de relógio com 97 números). Eles então testaram o transformador em combinações invisíveis de a e b para ver se ele poderia prever corretamente c.

Como esperado, quando a rede entrou no regime de overfitting, a perda nos dados de treinamento chegou perto de zero (ela começou a memorizar o que viu) e a perda nos dados de teste começou a aumentar. Não foi generalizar. “E então, um dia, tivemos sorte”, disse a líder da equipe Alethea Power, falando em setembro de 2022 em uma conferência em São Francisco. “E por sorte, quero dizer esquecido.”

O integrante da equipe que estava treinando a rede saiu de férias e esqueceu de interromper o treinamento. À medida que esta versão da rede continuou a treinar, de repente tornou-se precisa em dados invisíveis. Os testes automáticos revelaram essa precisão inesperada para o restante da equipe, e eles logo perceberam que a rede havia encontrado maneiras inteligentes de organizar os números. a e b. Internamente, a rede representa os números em algum espaço de alta dimensão, mas quando os pesquisadores projetaram esses números no espaço 2D e os mapearam, os números formaram um círculo.

Isto foi surpreendente. A equipe nunca disse ao modelo que ele estava fazendo a matemática do módulo 97, ou mesmo o que o módulo significava – eles apenas mostraram exemplos de aritmética. O modelo parecia ter encontrado alguma solução analítica mais profunda – uma equação que se generalizava para todas as combinações de a e b, mesmo além dos dados de treinamento. A rede falhou e a precisão dos dados de teste disparou para 100%. “Isso é estranho”, disse Power ao público.

A equipe verificou os resultados usando diferentes tarefas e diferentes redes. A descoberta se manteve.

De relógios e pizzas

Mas qual foi a equação que a rede encontrou? O artigo da OpenAI não informou, mas o resultado chamou a atenção de Nanda. “Um dos principais mistérios e coisas irritantes sobre as redes neurais é que elas são muito boas no que fazem, mas, por padrão, não temos ideia de como funcionam”, disse Nanda, cujo trabalho se concentra na engenharia reversa de um treinado rede para descobrir quais algoritmos ela aprendeu.

Nanda ficou fascinado pela descoberta da OpenAI e decidiu desmontar uma rede neural que havia grocado. Ele projetou uma versão ainda mais simples da rede neural OpenAI para poder examinar de perto os parâmetros do modelo enquanto ele aprendia a fazer aritmética modular. Ele viu o mesmo comportamento: overfitting que deu lugar à generalização e uma melhoria abrupta na precisão do teste. Sua rede também organizava números em círculo. Foi necessário algum esforço, mas Nanda finalmente descobriu o porquê.

Embora representasse os números em um círculo, a rede não estava simplesmente contando dígitos como uma criança do jardim de infância olhando para um relógio: ela estava fazendo algumas manipulações matemáticas sofisticadas. Ao estudar os valores dos parâmetros da rede, Nanda e colegas revelaram que estava adicionando os números do relógio realizando “transformadas discretas de Fourier” neles – transformando os números usando funções trigonométricas como senos e cossenos e depois manipulando esses valores usando identidades trigonométricas para chegar à solução. Pelo menos era isso que sua rede específica estava fazendo.

Quando uma equipe do MIT seguido no trabalho de Nanda, mostraram que nem sempre as redes neurais grocadoras descobrem esse algoritmo do “relógio”. Às vezes, as redes encontram o que os pesquisadores chamam de algoritmo “pizza”. Esta abordagem imagina uma pizza dividida em fatias e numeradas em ordem. Para adicionar dois números, imagine desenhar setas do centro da pizza até os números em questão e, em seguida, calcular a linha que divide o ângulo formado pelas duas primeiras setas. Esta linha passa pelo meio de alguma fatia de pizza: O número da fatia é a soma dos dois números. Estas operações também podem ser escritas em termos de manipulações trigonométricas e algébricas dos senos e cossenos de a e b, e eles são teoricamente tão precisos quanto a abordagem do relógio.

Introdução

“Ambos os algoritmos do relógio e da pizza têm esta representação circular”, disse Ziming Liu, um membro da equipe do MIT. “Mas… a forma como eles aproveitam esses senos e cossenos é diferente. É por isso que os chamamos de algoritmos diferentes.”

E isso ainda não era tudo. Depois de treinar inúmeras redes para fazer módulo matemático, Liu e colegas descobriram que cerca de 40% dos algoritmos descobertos por essas redes eram variedades de pizza ou algoritmos de relógio. A equipe não conseguiu decifrar o que as redes estão fazendo no resto do tempo. Para os algoritmos da pizza e do relógio, “acontece que ele encontra algo que nós, humanos, podemos interpretar”, disse Liu.

E qualquer que seja o algoritmo que uma rede aprenda ao resolver um problema, ele é ainda mais poderoso na generalização do que os pesquisadores suspeitavam. Quando uma equipe da Universidade de Maryland alimentado com uma rede neural simples dados de treinamento com erros aleatórios, a rede inicialmente se comportou conforme o esperado: superajustou os dados de treinamento, com erros e tudo, e teve um desempenho ruim em dados de teste não corrompidos. No entanto, uma vez que a rede grocasse e começasse a responder corretamente às perguntas do teste, ela poderia produzir respostas corretas mesmo para as entradas erradas, esquecendo as respostas incorretas memorizadas e generalizando até mesmo para seus dados de treinamento. “A tarefa de grocar é bastante robusta para esses tipos de corrupção”, disse Darshil Doshi, um dos autores do artigo.

Batalha pelo controle

Como resultado, os pesquisadores estão agora começando a entender o processo que leva uma rede a grocar seus dados. Nanda vê a aparente rapidez externa do grokking como o resultado de uma transição interna gradual da memorização para a generalização, que usa dois algoritmos diferentes dentro da rede neural. Quando uma rede começa a aprender, disse ele, primeiro ela descobre o algoritmo de memorização mais fácil; porém, mesmo sendo mais simples, o algoritmo requer recursos consideráveis, pois a rede precisa memorizar cada instância dos dados de treinamento. Mas mesmo durante a memorização, partes da rede neural começam a formar circuitos que implementam a solução geral. Os dois algoritmos competem por recursos durante o treinamento, mas a generalização eventualmente vence se a rede for treinada com um ingrediente adicional chamado regularização.

“A regularização lentamente leva a solução para a solução de generalização”, disse Liu. Este é um processo que reduz a capacidade funcional do modelo – a complexidade da função que o modelo pode aprender. À medida que a regularização elimina a complexidade do modelo, o algoritmo generalizador, que é menos complexo, eventualmente triunfa. “A generalização é mais simples para o mesmo [nível de] desempenho”, disse Nanda. Finalmente, a rede neural descarta o algoritmo de memorização.

Assim, embora a capacidade retardada de generalizar pareça surgir repentinamente, internamente os parâmetros da rede estão aprendendo continuamente o algoritmo de generalização. Somente quando a rede aprendeu o algoritmo de generalização e removeu completamente o algoritmo de memorização é que você começa a grocar. “É possível que coisas que parecem repentinas sejam na verdade graduais sob a superfície”, disse Nanda – uma questão que também surgiu em outras pesquisas de aprendizado de máquina.

Apesar desses avanços, é importante lembrar que a pesquisa sobre grokking ainda está em seus primórdios. Até agora, os investigadores estudaram apenas redes extremamente pequenas e não está claro se estas descobertas se manterão em redes maiores e mais poderosas. Belkin também alerta que a aritmética modular é “uma gota no oceano” em comparação com todas as diferentes tarefas realizadas pelas redes neurais atuais. A engenharia reversa da solução de uma rede neural para tal matemática pode não ser suficiente para compreender os princípios gerais que levam essas redes à generalização. “É ótimo estudar as árvores”, disse Belkin. “Mas também temos que estudar a floresta.”

No entanto, a capacidade de perscrutar estas redes e compreendê-las analiticamente tem enormes implicações. Para a maioria de nós, as transformadas de Fourier e os arcos de círculos que se dividem ao meio são uma maneira muito estranha de fazer a adição de módulos - os neurônios humanos simplesmente não pensam assim. “Mas se você for construído a partir de álgebra linear, na verdade faz muito sentido fazer assim”, disse Nanda.

“Esses cérebros [artificiais] estranhos funcionam de maneira diferente dos nossos”, disse ele. “[Eles] têm suas próprias regras e estrutura. Precisamos aprender a pensar como uma rede neural pensa.”

local_img

Inteligência mais recente

local_img