Zephyrnet Logo

Por que você precisa conhecer a ancestralidade da sua IA

Data:

COMENTÁRIO

A inteligência artificial (IA) está a alterar rapidamente quase todos os aspectos da nossa vida quotidiana, desde a forma como trabalhamos, à forma como ingerimos informações e à forma como determinamos os nossos líderes. Tal como acontece com qualquer tecnologia, a IA é amoral, mas pode ser usada para promover a sociedade ou causar dano.

Os dados são os genes que impulsionam os aplicativos de IA. É DNA e RNA, todos embrulhados em um. Como costuma ser dito ao construir sistemas de software: “lixo entra/lixo sai”. A tecnologia de IA é tão precisa, segura e funcional quanto as fontes de dados das quais depende. A chave para garantir que a IA cumpra a sua promessa e evite os seus pesadelos reside na capacidade de manter o lixo fora e evitar que prolifere e se replique em milhões de aplicações de IA.

Isso se chama proveniência dos dados, e não podemos esperar mais um dia para implementar controles que evitem que o futuro da nossa IA se torne uma enorme pilha de lixo.

Dados incorretos levam a modelos de IA que podem propagar vulnerabilidades de segurança cibernética, desinformação e outros ataques globalmente em segundos. Hoje IA generativa Os modelos (GenAI) são incrivelmente complexos, mas, em sua essência, os modelos GenAI estão simplesmente prevendo o melhor próximo bloco de dados a ser produzido, dado um conjunto de dados anteriores existentes.

Uma medida de precisão

Um modelo do tipo ChatGPT avalia o conjunto de palavras que compõem a pergunta original feita e todas as palavras na resposta do modelo até o momento para calcular a próxima melhor palavra a ser produzida. Ele faz isso repetidamente até decidir que deu resposta suficiente. Suponha que você avalie a capacidade do modelo de encadear palavras que formem frases bem formadas e gramaticalmente corretas, que estejam no tópico e sejam geralmente relevantes para a conversa. Nesse caso, os modelos atuais são surpreendentemente bons – uma medida de precisão.

Mergulhe mais fundo se o texto produzido pela IA sempre transmite informações “corretas” e indica adequadamente o nível de confiança da informação transmitida. Isso revela problemas que vêm de modelos que preveem muito bem em média, mas não tão bem em casos extremos – representando um problema de robustez. A situação pode ser agravada quando a produção de dados deficientes dos modelos de IA é armazenada on-line e usada como dados de treinamento futuros para esses e outros modelos.

Os resultados ruins podem se replicar em uma escala que nunca vimos, causando um ciclo descendente de destruição da IA.

Se um malfeitor quisesse ajudar neste processo, ele poderia propositalmente encorajar a produção, armazenamento e propagação de dados ruins adicionais - levando a ainda mais desinformação vinda dos chatbots, ou algo tão nefasto e assustador quanto modelos de piloto automático de automóveis decidindo que precisam vire um carro rapidamente para a direita, apesar dos objetos estarem no caminho, se eles “verem” uma imagem especialmente criada à sua frente (hipoteticamente, é claro).

Depois de décadas, a indústria de desenvolvimento de software — liderada pela Agência de Segurança de Infraestrutura de Segurança Cibernética — está finalmente implementando um seguro por design estrutura. Seguro por design determina que a segurança cibernética esteja na base do processo de desenvolvimento de software, e um de seus princípios básicos exige a catalogação de cada componente de desenvolvimento de software - um lista de materiais de software (SBOM) — para reforçar a segurança e a resiliência. Por fim, a segurança está substituindo a velocidade como o fator mais crítico de entrada no mercado.

Protegendo projetos de IA

A IA precisa de algo semelhante. O ciclo de feedback da IA ​​impede técnicas comuns de defesa de segurança cibernética anteriores, como rastreamento de assinaturas de malware, construção de perímetros em torno de recursos de rede ou verificação de vulnerabilidades em códigos escritos por humanos. Devemos tornar os designs seguros de IA um requisito durante a infância da tecnologia, para que a IA possa ser tornada segura muito antes de a caixa de Pandora ser aberta.

Então, como resolvemos esse problema? Deveríamos tirar uma página do mundo acadêmico. Treinamos alunos com dados de treinamento altamente selecionados, interpretados e transmitidos a eles por meio de uma indústria de professores. Continuamos esta abordagem para ensinar adultos, mas espera-se que os próprios adultos façam mais curadoria de dados.

O treinamento do modelo de IA precisa adotar uma abordagem de dados selecionados em duas etapas. Para começar, os modelos básicos de IA seriam treinados usando metodologias atuais, usando grandes quantidades de conjuntos de dados menos selecionados. Esses grandes modelos básicos de linguagem (LLMs) seriam aproximadamente análogos a um bebê recém-nascido. Os modelos de nível básico seriam então treinados com conjuntos de dados altamente selecionados, semelhantes à forma como as crianças são ensinadas e criadas para se tornarem adultos.

O esforço para construir grandes conjuntos de dados de treinamento selecionados para todos os tipos de objetivos não será pequeno. Isto é análogo a todo o esforço que os pais, as escolas e a sociedade fazem para proporcionar um ambiente de qualidade e informação de qualidade às crianças à medida que se tornam (esperamos) funcionais e contribuintes de valor acrescentado para a sociedade. Esse é o nível de esforço necessário para construir conjuntos de dados de qualidade para treinar modelos de IA de qualidade, que funcionem bem e minimamente corrompidos, e isso poderia levar a toda uma indústria de IA e humanos trabalhando juntos para ensinar modelos de IA a serem bons em seu trabalho objetivo. .

O estado atual do processo de treinamento em IA mostra alguns sinais desse processo em duas etapas. Mas, devido à infância da tecnologia GenAI e da indústria, muito treinamento exige uma abordagem menos organizada e de estágio um.

Quando se trata de segurança de IA, não podemos esperar uma hora, muito menos uma década. A IA precisa de um aplicativo 23andMe que permita a revisão completa da “genealogia do algoritmo” para que os desenvolvedores possam compreender totalmente a história da “família” da IA ​​para evitar que problemas crônicos se reproduzam, infectando os sistemas críticos dos quais dependemos todos os dias e criando danos econômicos e sociais isso pode ser irreversível.

Nossa segurança nacional depende disso.

local_img

Inteligência mais recente

local_img