Logo Zephyrnet

Simulazione dei guasti per la sicurezza AI. Innovazione nella verifica – Semiwiki

Data:

Più contenuti automobilistici 😀

Nelle auto moderne, la sicurezza è governata tanto da funzioni basate sull’intelligenza artificiale quanto dalla logica e dal software tradizionali. Come è possibile classificare queste funzioni in base agli errori per l'analisi FMEDA? Paul Cunningham (GM, Verification at Cadence), Raúl Camposano (Silicon Catalyst, imprenditore, ex CTO di Synopsys e ora CTO di Silvaco) e io continuiamo la nostra serie sulle idee di ricerca. Come sempre, feedback gradito.

Simulazione dei guasti per la classificazione della sicurezza AI

L'innovazione

La scelta di questo mese è SiFI-AI: un framework di simulazione dei guasti RTL veloce e flessibile su misura per modelli e acceleratori IA. Questo articolo è stato pubblicato nel Simposio dei Grandi Laghi del 2023 su VLSI. Gli autori provengono dall'Istituto di tecnologia di Karlsruhe, Germania.

La norma ISO 26262 richiede un'analisi della sicurezza basata su metodi FMEDA che utilizzano la simulazione dei guasti per valutare la sensibilità delle funzioni critiche ai guasti transitori e sistematici e l'efficacia della logica di mitigazione per proteggersi dagli errori. L'analisi inizia con la comprensione da parte degli esperti di progettazione di quali comportamenti di alto livello devono essere garantiti insieme a quali guasti realistici potrebbero propagare errori in tali comportamenti.

Questo know-how esperto è già compreso per la logica e il software convenzionali, ma non ancora per i modelli di intelligenza artificiale (reti neurali) e gli acceleratori su cui funzionano. Gli ingegneri della sicurezza hanno bisogno di aiuto per esplorare le modalità e gli effetti dei guasti nei componenti dell’intelligenza artificiale per sapere dove e come guastare modelli e hardware. Inoltre, l’analisi deve essere eseguita a velocità pratica sui grandi modelli comuni per le DNN. Gli autori propongono una nuova tecnica che, secondo loro, funziona molto più velocemente dei metodi attuali.

Il punto di vista di Paolo

Un articolo stimolante e intrigante: come si valuta il rischio di guasti hardware casuali in un acceleratore AI utilizzato per l'assistenza alla guida o la guida autonoma? L'inferenza dell'intelligenza artificiale è essa stessa un metodo statistico, quindi determinare la relazione tra un'inversione di bit casuale da qualche parte nell'acceleratore e un'inferenza errata non è banale.

Questo articolo propone di costruire un sistema in grado di "scambiare" una vera simulazione RTL di un singolo strato di una rete neurale, un'inferenza altrimenti pura basata su software di quella rete in PyTorch. È possibile inserire un errore nello strato simulato da RTL per valutare l'impatto di tale errore sull'operazione di inferenza complessiva.

Gli autori dimostrano il loro metodo sull’acceleratore AI open source Gemmini che esegue le reti di classificazione delle immagini ResNet-18 e GoogLeNet. Osservano che ogni elemento dell'array dell'acceleratore Gemmini ha 3 registri (attivazione dell'ingresso, peso e somma parziale) e un segnale di selezione del peso, insieme 4 possibili tipi di guasto da iniettare. Eseguono 1.5 milioni di esperimenti di inferenza, ciascuno con un errore casuale inserito, controllando se la classificazione dei primi 1 fuori dalla rete non è corretta. Il loro tempo di esecuzione è impressionante, 7 volte più veloce rispetto al lavoro precedente, e i loro grafici confermano l’aspettativa intuitiva secondo cui i guasti negli strati precedenti della rete hanno un impatto maggiore rispetto a quelli negli strati più profondi.

Inoltre, è chiaro dai loro dati che una qualche forma di meccanismo di sicurezza hardware (ad esempio il triplo voto) è giustificata poiché la probabilità assoluta di un errore di classificazione top-1 è del 2-8% per i guasti nei primi 10 strati della rete. È troppo alto per un'esperienza di guida sicura!

Il punto di vista di Raull

Il contributo principale di SiFI-AI è la simulazione dei guasti transitori negli acceleratori DNN, combinando l'inferenza veloce dell'IA con la simulazione RTL accurata del ciclo e l'iniezione dei guasti basata sulle condizioni. Questo è 7 volte più veloce dello stato dell’arte (riferimento 2, Condia et al, Combinazione di simulazione architetturale e software Fault Injection per una valutazione dell'affidabilità CNN rapida e accurata sulle GPU). Il trucco sta nel simulare solo ciò che è necessario in un RTL accurato a ciclo lento. I guasti modellati sono SEU (single-event sconvolge), ovvero bit-flip transitori indotti da effetti esterni come radiazioni e particelle cariche, che persistono fino alla successiva operazione di scrittura. In questo caso è particolarmente difficile sapere se un singolo guasto provocherà un errore; l’elevato grado di riutilizzo dei dati potrebbe portare a una significativa propagazione dei guasti e la simulazione dei guasti deve tenere conto sia dell’architettura hardware che della topologia del modello DNN.

SiFI-AI integra la simulazione hardware nel framework ML (PyTorch). Per la simulazione HW utilizza Verilator, un simulatore Verilog gratuito e open source, per generare modelli RTL accurati dal punto di vista del ciclo. Un controller dei guasti gestisce l'inserimento dei guasti come indicato dall'utente, utilizzando un approccio basato sulle condizioni, ovvero un elenco di condizioni che evitano che un guasto venga mascherato. Per selezionare quale parte viene simulata in RTL, decompone i livelli in riquadri più piccoli in base a "le proprietà del livello, la strategia di piastrellatura del loop, il layout dell'acceleratore e il rispettivo guasto" e seleziona una tessera.

Il dispositivo testato nella parte sperimentale è Gemmini, un acceleratore DNN ad array sistolico realizzato alla UC Berkeley nel progetto Chipyard, in una configurazione di elementi di elaborazione (PE) 16×16. SiFI-AI esegue uno studio di resilienza con 1.5 milioni di esperimenti di inserimento di guasti su due tipici carichi di lavoro DNN, ResNet-18 e GoogLeNet. Gli errori vengono inseriti in tre registri dati PE e in un segnale di controllo, come specificato dall'utente. I risultati mostrano una bassa probabilità di errore, confermando la resilienza delle DNN. Mostrano anche che i guasti dei segnali di controllo hanno un impatto molto maggiore rispetto ai guasti dei segnali dati e che gli strati larghi e superficiali sono più suscettibili degli strati stretti e profondi.

Questo è un buon articolo che fa avanzare il campo della valutazione dell'affidabilità delle DNN. L'articolo è ben scritto e chiaro e fornisce dettagli e riferimenti sufficienti per supportare le affermazioni e i risultati. Anche se l’idea centrale di combinare la simulazione a diversi livelli è vecchia, gli autori la utilizzano in modo molto efficace. Framework come SciFI-AI possono aiutare progettisti e ricercatori a ottimizzare le loro architetture e renderle più resilienti. Mi piace anche l'analisi dell'impatto della faglia su diversi strati e segnali, che rivela alcuni spunti interessanti. Il documento potrebbe essere migliorato fornendo maggiori informazioni sulla strategia di iniezione dei guasti e sulla selezione delle piastrelle. Nonostante l'argomento sia piuttosto specifico, nel complesso è un articolo molto divertente!

Condividi questo post tramite:

spot_img

L'ultima intelligenza

spot_img