Zephyrnet Logo

NIST alerta sobre alegações de segurança de ‘óleo de cobra’ por parte de fabricantes de IA

Data:

Os sistemas de IA preditivos e generativos permanecem vulneráveis ​​a uma variedade de ataques e qualquer pessoa que diga o contrário não está sendo totalmente honesta, de acordo com Apostol Vassilev, cientista da computação do Instituto Nacional de Padrões e Tecnologia dos EUA (NIST).

“Apesar do progresso significativo que a IA e o aprendizado de máquina fizeram, essas tecnologias são vulneráveis ​​a ataques que podem causar falhas espetaculares com consequências terríveis”, disse ele. dito.

“Existem problemas teóricos com a segurança de algoritmos de IA que simplesmente ainda não foram resolvidos. Se alguém disser o contrário, está vendendo óleo de cobra.”

Vassilev foi coautor de um artigo sobre o assunto com Alina Oprea (Northeastern University) e Alie Fordyce e Hyrum Anderson da loja de segurança Robust Intelligence, que tenta categorizar os riscos de segurança representados pelos sistemas de IA. No geral, os resultados não parecem bons.

A papel [PDF], intitulado “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, segue a iniciativa NIST Trustworthy AI, que reflete objetivos mais amplos do governo dos EUA para garantir a segurança da IA. Ele explora várias técnicas adversárias de aprendizado de máquina com base em pesquisas do setor nas últimas décadas.

Os pesquisadores se concentraram em quatro questões específicas de segurança: evasão, envenenamento, privacidade e ataques de abuso, que podem ser aplicados a modelos preditivos (por exemplo, reconhecimento de objetos) ou generativos (por exemplo, ChatGPT).

“Em um ataque de evasão, o objetivo do adversário é gerar exemplos adversários, que são definidos como amostras de teste cuja classificação pode ser alterada no momento da implantação para uma classe arbitrária de escolha do atacante com apenas perturbação mínima”, explica o artigo, traçando a técnica de volta à pesquisa de 1988.

Como exemplo, o NIST aponta técnicas através das quais os sinais de stop podem ser marcados de forma a fazer com que os sistemas de visão computacional em veículos autónomos os identifiquem incorretamente.

Depois, há ataques de envenenamento em que dados indesejados são adicionados ao treinamento de um modelo de aprendizado de máquina e fazem o modelo responder de forma indesejável, geralmente após receber uma entrada específica. O documento aponta para um Artigo de pesquisa da Microsoft de 2020 isso diz que os ataques de envenenamento são o que mais preocupa as organizações pesquisadas sobre aprendizado de máquina adversário.

“Ataques de envenenamento, por exemplo, podem ser montados controlando algumas dezenas de amostras de treinamento, o que representaria uma porcentagem muito pequena de todo o conjunto de treinamento”, opinou Oprea.

Os ataques à privacidade, que envolvem a reconstrução de dados de formação que de outra forma deveriam estar inacessíveis, a extração de dados memorizados, a realização de inferências sobre dados protegidos e intrusões relacionadas, também são relativamente simples de realizar.

Finalmente, existem ataques de abuso, que envolvem a reorientação de sistemas generativos de IA para servir os fins do atacante. “Os invasores podem usar os recursos dos modelos GenAI para promover discurso de ódio ou discriminação, gerar mídia que incite a violência contra grupos específicos ou dimensionar operações ofensivas de segurança cibernética criando imagens, texto ou código malicioso que possibilitem um ataque cibernético”, explica o documento.

O objetivo dos autores ao listar estas diversas categorias e variações de ataques é sugerir métodos de mitigação, para ajudar os profissionais de IA a compreender as preocupações que precisam de ser abordadas quando os modelos são treinados e implantados, e para promover o desenvolvimento de melhores defesas.

O artigo conclui observando que a IA confiável implica atualmente um compromisso entre segurança, por um lado, e justiça e precisão, por outro.

“Os sistemas de IA otimizados apenas para precisão tendem a ter um desempenho inferior em termos de robustez e justiça adversária”, conclui. “Por outro lado, um sistema de IA otimizado para robustez adversária pode apresentar menor precisão e resultados de imparcialidade deteriorados.” ®

local_img

Inteligência mais recente

local_img