Zephyrnet Logo

Por que a OpenAI pode estar apostando na IA quântica

Data:

Análise A computação quântica está a uma década de distância, mas, de acordo com especialistas do setor, ela pode conter o segredo para conter o apetite insaciável da IA.

A cada mês que passa, modelos maiores e com mais parâmetros densos aparecem e a escala das implantações de IA se expande paralelamente. Somente neste ano, hiperescaladores como Meta planejam implantar centenas de milhares de aceleradores. Mesmo assim, o fundador da OpenAI, Sam Altman, é convencido precisaremos de exponencialmente mais computação se quisermos desenvolver ainda mais a IA.

Portanto, não deve ser surpresa que, com sua última contratação, OpenAI seria estará protegendo suas apostas na computação quântica, caso possa. Na semana passada, o rolo compressor da IA ​​adicionou Ben Bartlett, um ex-arquiteto de sistemas quânticos da PsiQuantum às suas fileiras.

Entramos em contato com a Open AI para saber mais sobre o que Bartlett fará no criador de tendências de IA e não recebemos resposta. No entanto, seu bio oferece algumas dicas, já que grande parte de sua pesquisa se concentrou na interseção entre física quântica, aprendizado de máquina e nanofotônica, e “consiste basicamente em mim projetando pequenas pistas de corrida para fótons que os enganam para fazer cálculos úteis”.

Então, o que exatamente a OpenAI poderia querer com um físico quântico? Bem, existem algumas possibilidades que vão desde o uso da otimização quântica para agilizar conjuntos de dados de treinamento ou o uso de unidades de processamento quântico (QPUs) para descarregar bancos de dados gráficos complexos, até o uso da óptica para escalar além dos limites das embalagens modernas de semicondutores.

As redes neurais são apenas mais um problema de otimização

A computação quântica tem o potencial de melhorar drasticamente a eficiência do treinamento de grandes modelos de IA, permitindo-lhes obter respostas mais precisas de modelos com menos parâmetros, diz Murray Thom da D-Wave. O registro.

Com rumores de que o GPT-4 excede um trilhão de parâmetros, não é difícil ver por que isso pode ser atraente. Sem recorrer à quantização e outras estratégias de compressão, os modelos de IA precisam de cerca de 1 GB de memória para cada bilhão de parâmetros quando executados com precisão FP8 ou Int8 e com precisões mais altas, substancialmente mais do que isso.

Trilhões de modelos de parâmetros estão chegando aos limites do que um único servidor de IA pode acomodar com eficiência. Vários servidores podem ser interligados para suportar modelos maiores, mas deixar a caixa prejudica o desempenho.

E isso é hoje. E se Altman estiver certo, estes modelos irão tornar-se cada vez maiores e mais prevalecentes. Como tal, qualquer tecnologia que pudesse permitir que a OpenAI aumentasse a capacidade de seus modelos sem aumentar significativamente a contagem de parâmetros poderia lhe dar uma vantagem.

“À medida que você treina um modelo, o número de parâmetros incluídos no modelo realmente determina o custo e a complexidade do treinamento do modelo”, disse Trevor Lanting, vice-presidente de software e algoritmos da D-Wave. O registro.

Para contornar isso, explica ele, os desenvolvedores muitas vezes subselecionam os recursos que consideram mais importantes para o treinamento daquele modelo específico, o que, por sua vez, reduz o número de parâmetros necessários.

Mas, em vez de tentar fazer isso usando sistemas convencionais, a D-Wave defende que os algoritmos de otimização quântica podem ser mais eficazes na determinação de quais recursos devem ser deixados dentro ou fora.

Se você não está familiarizado, problemas de otimização, como aqueles comumente vistos em busca de caminhos ou logística, provaram ser uma das aplicações mais promissoras da computação quântica até agora.

“Nossos computadores quânticos são realmente bons em otimizar coisas onde as coisas estão acontecendo ou não: como alguém que recebe um cronograma específico ou uma entrega específica”, disse Thom. “Se essas decisões fossem independentes, tudo bem e seria fácil para um computador clássico tomar, mas na verdade elas afetam os outros recursos do pool e há uma espécie de efeito de rede.”

Em outras palavras, o mundo real é confuso. Pode haver vários veículos na estrada, estradas fechadas, eventos climáticos e assim por diante. Em comparação com os computadores clássicos, os atributos únicos inerentes aos computadores quânticos permitem-lhes explorar estes factores simultaneamente para identificar o melhor caminho.

Isso “é completamente análogo a uma rede neural onde os neurônios estão disparando ou não, e eles têm conexões sinápticas com outros neurônios, que excitam ou inibem o disparo de outros neurônios”, explica Thom.

E isso significa que algoritmos quânticos podem ser usados ​​para otimizar conjuntos de dados de treinamento de IA para requisitos específicos, que, quando treinados, resultam em um modelo mais enxuto e preciso, afirmou Lanting.

Amostragem quântica e descarregamento

A longo prazo, a D-Wave e outros estão procurando maneiras de implementar QPUs mais profundamente no processo de treinamento.

Um desses casos de uso envolve a aplicação da computação quântica à amostragem. A amostragem refere-se a como os modelos de IA, como os LLMs, determinam qual a próxima palavra, ou mais especificamente o token, deve ser baseada em uma distribuição de probabilidades. É por isso que muitas vezes se brinca que os LLMs são apenas preenchidos automaticamente com esteróides.

“O hardware é muito bom na produção de amostras, e você pode ajustar a distribuição, para poder ajustar a ponderação dessas amostras. E o que estamos explorando é: esta é uma boa maneira de realmente inserir a computação quântica de recozimento de forma forte e mais direta na carga de trabalho de treinamento”, explicou Lanting.

A startup francesa de computação quântica Pasqal também vem brincando com a aplicação da computação quântica para descarregar conjuntos de dados estruturados em gráficos comumente encontrados em redes neurais.

“No aprendizado de máquina, não existe uma maneira realmente simples de representar os dados de forma clássica, porque o gráfico é um objeto complexo”, explicou o co-CEO de Pasqal, Loïc Henriet, em entrevista ao O registro. “Você pode incorporar dados estruturados em gráficos na dinâmica quântica de forma relativamente natural, o que dá origem a algumas novas maneiras de tratar esses dados.”

No entanto, antes que isso possa ser alcançado, os sistemas quânticos terão que ficar muito maiores e mais rápidos, explicou Henriet.

“Grandes conjuntos de dados não são práticos no momento”, disse ele. “É por isso que estamos aumentando o número de qubits; a taxa de repetição. Porque com mais qubits você pode incorporar mais dados.”

É difícil dizer quanto tempo teremos que esperar antes que as redes neurais de gráficos quânticos se tornem viáveis. Pasqal já possui um sistema de 10,000 qubits nas obras. Infelizmente, a pesquisa sugere que serão necessários mais de 10,000 qubits de correção de erros, ou cerca de um milhão de qubits físicos apenas para competir com GPUs modernas.

Uma peça fotônica de silício?

Deixando de lado os casos de uso de IA quântica exótica, existem outras tecnologias que a OpenAI poderia estar buscando nas quais Bartlett é um especialista.

Mais notavelmente, o ex-empregador de Bartlett, PsiQuantum, vem desenvolvendo sistemas baseados em fotônica de silício. Isso sugere que sua contratação pode estar relacionada ao OpenAI relatado trabalhar em um acelerador de IA personalizado.

Várias startups de fotônica de silício, incluindo Ayar Labs, Lightmatter e Celestial AI, impulsionaram a tecnologia como um meio de superar os limites de largura de banda, o que se tornou um fator limitante para dimensionar o desempenho do aprendizado de máquina.

A ideia aqui é que você pode enviar muito mais dados por uma distância muito maior com luz do que com um sinal puramente elétrico. Em muitos desses projetos, a luz é, na verdade, transportada por guias de ondas gravadas no silício, o que parece muito com “projetar pequenas pistas de corrida para fótons”.

Matéria de luz acredita essa tecnologia permitirá que vários aceleradores funcionem como um só, sem incorrer em penalidades de largura de banda para dados que saem do chip. Enquanto isso Celestial vê um oportunidade para aumentar enormemente a quantidade de memória de alta largura de banda disponível para GPUs, eliminando a necessidade de empacotar os módulos diretamente adjacentes à matriz do acelerador. Ambas as capacidades seriam atraentes para uma empresa que trabalha com sistemas de IA em grande escala.

Ainda não se sabe se a OpenAI irá finalmente buscar IA quântica ou fotônica de silício, mas para uma empresa cujo fundador não é estranho a fazer investimentos de longo prazo, não seria a coisa mais estranha que Altman apoiou. ®

local_img

Inteligência mais recente

local_img