Zephyrnet Logo

A promessa da Edge AI e abordagens para adoção eficaz – KDnuggets

Data:

A promessa da Edge AI e abordagens para adoção eficaz
Imagem do editor
 

O cenário tecnológico atual está passando por uma mudança fundamental em direção à computação de ponta, estimulada por rápidos avanços na IA generativa (GenAI) e nas cargas de trabalho tradicionais de IA. Historicamente dependentes da computação em nuvem, essas cargas de trabalho de IA enfrentam agora os limites da IA ​​baseada em nuvem, incluindo preocupações com segurança de dados, soberania e conectividade de rede.

Ao contornar essas limitações da IA ​​baseada em nuvem, as organizações estão buscando adotar a computação de ponta. A capacidade da edge computing de permitir análises e respostas em tempo real no ponto em que os dados são criados e consumidos é a razão pela qual as organizações a consideram crítica para a inovação da IA ​​e o crescimento dos negócios.

Com sua promessa de processamento mais rápido com latência zero a mínima, a IA de ponta pode transformar drasticamente os aplicativos emergentes. Embora as capacidades de computação dos dispositivos de ponta estejam cada vez melhores, ainda existem limitações que podem dificultar a implementação de modelos de IA altamente precisos. Tecnologias e abordagens como quantização de modelos, aprendizagem por imitação, inferência distribuída e gerenciamento de dados distribuídos podem ajudar a remover as barreiras para implantações de IA de ponta mais eficientes e econômicas, para que as organizações possam aproveitar seu verdadeiro potencial. 

A inferência de IA na nuvem é frequentemente afetada por problemas de latência, causando atrasos na movimentação de dados entre dispositivos e ambientes de nuvem. As organizações estão percebendo o custo de mover dados entre regiões, para a nuvem, e de ida e volta da nuvem para a borda. Pode dificultar aplicações que exigem respostas extremamente rápidas e em tempo real, como transações financeiras ou sistemas de segurança industrial. Além disso, quando as organizações precisam executar aplicativos alimentados por IA em locais remotos onde a conectividade de rede não é confiável, a nuvem nem sempre está ao seu alcance. 

As limitações de uma estratégia de IA “apenas na nuvem” estão a tornar-se cada vez mais evidentes, especialmente para aplicações alimentadas por IA de próxima geração que exigem respostas rápidas e em tempo real. Questões como a latência da rede podem retardar os insights e o raciocínio que podem ser entregues à aplicação na nuvem, levando a atrasos e ao aumento dos custos associados à transmissão de dados entre a nuvem e os ambientes de borda. Isto é particularmente problemático para aplicações em tempo real, especialmente em áreas remotas com conectividade de rede intermitente. À medida que a IA ocupa o centro da tomada de decisões e do raciocínio, a física da movimentação de dados pode ser extremamente dispendiosa, com um impacto negativo nos resultados dos negócios. 

Gartner prevê que mais de 55% de todas as análises de dados por redes neurais profundas ocorrerão no ponto de captura em um sistema de borda até 2025, contra menos de 10% em 2021. A computação de borda ajuda a aliviar a latência, escalabilidade, segurança de dados, conectividade e mais desafios, remodelando a forma como o processamento de dados é tratado e, por sua vez, acelerando a adoção da IA. O desenvolvimento de aplicativos com uma abordagem off-line será fundamental para o sucesso dos aplicativos ágeis.

Com uma estratégia de edge eficaz, as organizações podem obter mais valor das suas aplicações e tomar decisões de negócios mais rapidamente.

À medida que os modelos de IA se tornam cada vez mais sofisticados e as arquiteturas de aplicações se tornam mais complexas, o desafio de implementar estes modelos em dispositivos de ponta com restrições computacionais torna-se mais pronunciado. No entanto, os avanços na tecnologia e a evolução das metodologias estão abrindo caminho para a integração eficiente de modelos poderosos de IA na estrutura da computação de ponta, que vão desde: 

Compressão e Quantização de Modelo

Técnicas como poda e quantização de modelos são cruciais para reduzir o tamanho dos modelos de IA sem comprometer significativamente sua precisão. A remoção do modelo elimina informações redundantes ou não críticas do modelo, enquanto a quantização reduz a precisão dos números usados ​​nos parâmetros do modelo, tornando os modelos mais leves e rápidos para serem executados em dispositivos com recursos limitados. A quantização de modelos é uma técnica que envolve a compactação de grandes modelos de IA para melhorar a portabilidade e reduzir o tamanho do modelo, tornando os modelos mais leves e adequados para implantações de ponta. Usando técnicas de ajuste fino, incluindo Quantização Generalizada Pós-Treinamento (GPTQ), Adaptação de Baixo Rank (LoRA) e LoRA Quantizado (QLoRA), a quantização do modelo reduz a precisão numérica dos parâmetros do modelo, tornando os modelos mais eficientes e acessíveis para dispositivos de borda como tablets, edge gateways e telefones celulares. 

Estruturas de IA específicas de borda

O desenvolvimento de estruturas e bibliotecas de IA projetadas especificamente para computação de ponta pode simplificar o processo de implantação de cargas de trabalho de IA de ponta. Essas estruturas são otimizadas para as limitações computacionais do hardware de ponta e suportam a execução eficiente do modelo com sobrecarga mínima de desempenho.

Bancos de dados com gerenciamento distribuído de dados

Com recursos como pesquisa vetorial e análise em tempo real, ajuda a atender aos requisitos operacionais da borda e oferece suporte ao processamento local de dados, lidando com vários tipos de dados, como áudio, imagens e dados de sensores. Isto é especialmente importante em aplicações em tempo real, como software de veículos autônomos, onde diversos tipos de dados são constantemente coletados e devem ser analisados ​​em tempo real.

Inferência Distribuída

Colocar modelos ou cargas de trabalho em vários dispositivos de borda com amostras de dados locais sem troca real de dados pode mitigar possíveis problemas de conformidade e privacidade de dados. Para aplicações, como cidades inteligentes e IoT industrial, que envolvem muitos dispositivos de borda e IoT, é crucial levar em consideração a inferência de distribuição. 

Embora a IA tenha sido predominantemente processada na nuvem, encontrar um equilíbrio com a vantagem será fundamental para acelerar as iniciativas de IA. A maioria das indústrias, se não todas, reconheceram a IA e a GenAI como uma vantagem competitiva, razão pela qual reunir, analisar e obter rapidamente insights na borda será cada vez mais importante. À medida que as organizações evoluem no uso da IA, a implementação da quantização de modelos, capacidades multimodais, plataformas de dados e outras estratégias de ponta ajudarão a gerar resultados de negócios significativos e em tempo real.
 
 

Rahul Pradhan é vice-presidente de produto e estratégia da Couchbase (NASDAQ: BASE), fornecedora de um banco de dados moderno e líder para aplicativos empresariais dos quais 30% das empresas Fortune 100 dependem. Rahul tem mais de 20 anos de experiência liderando e gerenciando equipes de engenharia e de produtos com foco em bancos de dados, armazenamento, rede e tecnologias de segurança na nuvem. Antes da Couchbase, ele liderou a equipe de gerenciamento de produtos e estratégia de negócios das divisões de tecnologias emergentes e armazenamento de médio porte da Dell EMC para lançar no mercado todos os produtos flash NVMe, nuvem e SDS.

local_img

Inteligência mais recente

local_img