Zephyrnet Logo

Simulação de falhas para segurança de IA. Inovação em Verificação – Semiwiki

Data:

Mais conteúdo automotivo 😀

Nos carros modernos, a segurança é governada tanto por funções baseadas em IA como por lógica e software tradicionais. Como essas funções podem ser classificadas como falhas para análise FMEDA? Paul Cunningham (GM, Verification at Cadence), Raúl Camposano (Silicon Catalyst, empresário, ex-CTO da Synopsys e agora CTO da Silvaco) e eu continuamos nossa série sobre ideias de pesquisa. Como sempre, feedback é bem-vindo.

Simulação de falhas para classificação de segurança de IA

A Inovação

A escolha deste mês é SiFI-AI: uma estrutura de simulação de falhas RTL rápida e flexível, adaptada para modelos e aceleradores de IA. Este artigo foi publicado no Simpósio dos Grandes Lagos de 2023 sobre VLSI. Os autores são do Instituto de Tecnologia de Karlsruhe, Alemanha.

A ISO 26262 exige análise de segurança baseada em métodos FMEDA usando simulação de falhas para avaliar a sensibilidade de funções críticas a falhas transitórias e sistemáticas, e a eficácia da lógica de mitigação para proteção contra erros. A análise começa com a compreensão do especialista em design sobre quais comportamentos de alto nível devem ser garantidos, juntamente com quais falhas realistas podem propagar erros nesses comportamentos.

Este know-how especializado já é compreendido pela lógica e software convencionais, mas ainda não pelos modelos de IA (redes neurais) e pelos aceleradores em que funcionam. Os engenheiros de segurança precisam de ajuda para explorar modos de falha e efeitos em componentes de IA para saber onde e como causar falhas em modelos e hardware. Além disso, essa análise deve ser executada em velocidades práticas nos grandes modelos comuns para DNNs. Os autores propõem uma nova técnica que, segundo eles, funciona muito mais rápido que os métodos atuais.

Visão de Paul

Um artigo instigante e intrigante: como você avalia o risco de falhas aleatórias de hardware em um acelerador de IA usado para assistência ao motorista ou direção autônoma? A inferência de IA é em si um método estatístico, portanto, determinar a relação entre uma mudança aleatória de bits em algum lugar do acelerador e uma inferência incorreta não é trivial.

Este artigo propõe a construção de um sistema que pode “trocar” uma simulação RTL real de uma única camada de uma rede neural, uma inferência pura dessa rede baseada em software em PyTorch. Uma falha pode ser injetada na camada que está sendo simulada por RTL para avaliar o impacto dessa falha na operação geral de inferência.

Os autores demonstram seu método no acelerador de IA de código aberto Gemmini executando redes de classificação de imagens ResNet-18 e GoogLeNet. Eles observam que cada elemento do conjunto de aceleradores Gemmini possui 3 registros (ativação de entrada, peso e soma parcial) e um sinal de seleção de peso, juntos 4 possíveis tipos de falha a serem injetados. Eles executam experimentos de inferência de 1.5 milhão, cada um com uma falha aleatória injetada, verificando se a classificação 1 da rede está incorreta. Seu tempo de execução é impressionantemente 7x mais rápido do que o trabalho anterior, e seus gráficos validam a expectativa intuitiva de que as falhas nas camadas anteriores da rede são mais impactantes do que aquelas nas camadas mais profundas.

Além disso, fica claro a partir de seus dados que alguma forma de mecanismo de segurança de hardware (por exemplo, votação tripla) é garantida, uma vez que a probabilidade absoluta de um erro de classificação top-1 é de 2 a 8% para falhas nas primeiras 10 camadas da rede. Isso é muito alto para uma experiência de direção segura!

Visão de Raúl

A principal contribuição do SiFI-AI é a simulação de falhas transitórias em aceleradores DNN, combinando inferência rápida de IA com simulação RTL com precisão de ciclo e injeção de falhas baseada em condições. Isto é 7x mais rápido que o estado da arte (referência 2, Condia et al, Combinando simulação arquitetônica e injeção de falhas de software para uma avaliação rápida e precisa da confiabilidade de CNNs em GPUs). O truque é simular apenas o que é necessário em RTL com precisão de ciclo lento. As falhas modeladas são perturbações de evento único (SEU), ou seja, inversões de bits transitórias induzidas por efeitos externos, como radiação e partículas carregadas, que persistem até a próxima operação de gravação. Descobrir se uma única falha causará um erro é especialmente difícil neste caso; o alto grau de reutilização de dados pode levar a uma propagação significativa de falhas, e a simulação de falhas precisa levar em consideração tanto a arquitetura de hardware quanto a topologia do modelo DNN.

SiFI-AI integra a simulação de hardware na estrutura de ML (PyTorch). Para simulação de HW, ele usa Verilator, um simulador Verilog gratuito e de código aberto, para gerar modelos RTL com precisão de ciclo. Um controlador de falta gerencia a injeção de falta conforme orientação do usuário, usando uma abordagem baseada em condições, ou seja, uma lista de condições que evitam que uma falta seja mascarada. Para selecionar qual parte é simulada em RTL, ele decompõe as camadas em blocos menores com base em “as propriedades da camada, estratégia de loop tiling, layout do acelerador e a respectiva falha”E seleciona um bloco.

O dispositivo testado na parte experimental é o Gemmini, um acelerador DNN de arranjo sistólico criado na UC Berkeley no projeto Chipyard, em uma configuração de 16×16 elementos de processamento (PE). SiFI-AI realiza um estudo de resiliência com experimentos de injeção de falhas de 1.5 M em duas cargas de trabalho DNN típicas, ResNet-18 e GoogLeNet. As falhas são injetadas em três registros de dados PE e um sinal de controle, conforme especificado pelo usuário. Os resultados mostram uma baixa probabilidade de erro, confirmando a resiliência das DNNs. Eles também mostram que as falhas nos sinais de controle têm muito mais impacto do que as falhas nos sinais de dados e que as camadas largas e rasas são mais suscetíveis do que as camadas estreitas e profundas.

Este é um bom artigo que avança no campo da avaliação de confiabilidade de DNN. O artigo é bem escrito e claro e fornece detalhes e referências suficientes para apoiar as afirmações e resultados. Embora a ideia central de combinar simulação em diferentes níveis seja antiga, os autores a utilizam de forma muito eficaz. Frameworks como o SciFI-AI podem ajudar designers e pesquisadores a otimizar suas arquiteturas e torná-las mais resilientes. Também gosto da análise do impacto da falha em diferentes camadas e sinais, que revela alguns insights interessantes. O artigo poderia ser melhorado fornecendo mais informações sobre a estratégia de injeção de falhas e a seleção dos blocos. Apesar do tema ser bastante específico, no geral, um artigo muito agradável!

Compartilhe esta postagem via:

local_img

Inteligência mais recente

local_img