Zephyrnet Logo

Nvidia: No futuro, o software é apenas uma coleção de LLMs

Data:

Esqueça o uso de grandes modelos de linguagem (LLMs) para ajudar a escrever código, o CEO da Nvidia, Jensen Huang, acredita que, no futuro, o software corporativo será apenas uma coleção de chatbots unidos para completar a tarefa.

“É improvável que você escreva do zero ou um monte de código Python ou algo assim”, disse ele no palco durante seu GTC principal Segunda-feira. “É muito provável que você monte uma equipe de IA.”

Essa equipe de IA, explica Jensen, pode incluir um modelo projetado para dividir e delegar uma solicitação a vários outros modelos. Alguns desses modelos podem ser treinados para compreender serviços empresariais como SAP ou Service Now, enquanto outros podem realizar análises numéricas em dados armazenados em um banco de dados vetorial. Esses dados podem então ser combinados e apresentados ao usuário final por outro modelo.

“Podemos receber um relatório todos os dias ou você sabe, no máximo de hora em hora que tenha algo a ver com um plano de construção, ou alguma previsão, ou algum alerta de cliente, ou algum banco de dados de bugs ou o que quer que seja”, explicou ele.

Para encadear todos esses modelos, a Nvidia está tirando uma página do livro do Docker e criou um tempo de execução de contêiner para IA.

Chamados de Nvidia Inference Microservices, ou NIM, para abreviar, são essencialmente imagens de contêiner contendo o modelo, seja ele de código aberto ou proprietário, junto com todas as dependências necessárias para colocá-lo em execução. Esses modelos em contêineres podem então ser implantados em qualquer número de tempos de execução, incluindo nós Kubernetes acelerados pela Nvidia.

“Você pode implantá-lo em nossa infraestrutura chamada DGX Cloud, ou pode implantá-lo no local, ou pode implantá-lo em qualquer lugar que desejar. Depois de desenvolvê-lo, ele poderá ser levado para qualquer lugar”, disse Jensen.

Claro, você precisará primeiro de uma assinatura do pacote AI Enterprise da Nvidia, que não é exatamente barato: US$ 4,500/ano por GPU ou US$ 1/hora por GPU na nuvem. Esta estratégia de preços parece incentivar sistemas mais densos e de alto desempenho em geral, pois custa o mesmo, independentemente de você estar executando em L40s ou B100s.

Se a ideia de conteinerizar cargas de trabalho aceleradas por GPU parece familiar, esta não é exatamente uma ideia nova para a Nvidia. A aceleração CUDA foi suportado em uma ampla variedade de tempos de execução de contêiner, incluindo Docker, Podman, Containerd ou CRI-O há anos, e não parece que o Container Runtime da Nvidia vá a lugar nenhum.

A proposta de valor por trás do NIM parece ser que a Nvidia cuidará do empacotamento e otimização desses modelos para que eles tenham a versão correta do CUDA, Triton Inference Server ou TensorRT LLM, necessária para obter o melhor desempenho deles.

O argumento é que se a Nvidia lançar uma atualização que aumente drasticamente o desempenho de inferência de certos tipos de modelo, tirar vantagem dessa funcionalidade exigiria apenas a retirada da imagem NIM mais recente.

Além das otimizações de modelos específicos de hardware, a Nvidia também está trabalhando para permitir comunicações consistentes entre contêineres, para que eles possam conversar entre si, por meio de chamadas de API.

Pelo que entendemos, as chamadas de API usadas pelos vários modelos de IA no mercado hoje nem sempre são consistentes, o que torna mais fácil encadear alguns modelos e outros podem exigir trabalho adicional.

Emprestar conhecimento institucional para modelos de uso geral

Qualquer pessoa que tenha usado um chatbot de IA saberá que, embora geralmente sejam muito bons com questões de conhecimento geral, nem sempre são os mais confiáveis ​​com solicitações obscuras ou técnicas.

O Jensen destacou este facto durante a sua palestra. Questionado sobre um programa interno usado na Nvidia, o modelo de linguagem grande Llama 2 70B da Meta, sem surpresa, forneceu a definição para um termo não relacionado.

Em vez de tentar fazer com que as empresas treinem seus próprios modelos – algo que venderia muitas GPUs, mas limitaria consideravelmente o mercado endereçável – a Nvidia desenvolveu ferramentas para ajustar seus NIMs com dados e processos de clientes.

“Temos um serviço chamado NeMo Microservices que ajuda você a organizar os dados, prepará-los para que você possa… integrar esta IA. Você o ajusta e então o protege; você pode então avaliar… seu desempenho em relação a outros exemplos”, explicou Huang.

Ele também falou sobre o serviço NeMo Retriever da Nvidia, que se baseia no conceito de usar geração aumentada de recuperação (RAG) para revelar informações nas quais o modelo não foi especificamente treinado.

A ideia aqui é que documentos, processos e outros dados possam ser carregados em um banco de dados vetorial conectado ao modelo. Com base em uma consulta, o modelo pode então pesquisar esse banco de dados, recuperar e resumir as informações relevantes.

Os modelos NIM e NeMo Retriever para integração de RAGs já estão disponíveis, enquanto os microsserviços NeMo estão em acesso antecipado. ®

local_img

Café VC

LifeSciVC

Inteligência mais recente

Café VC

LifeSciVC

local_img