Zephyrnet-logotyp

Felsimulering för AI-säkerhet. Innovation in Verification – Semiwiki

Datum:

Mer bilinnehåll 😀

I moderna bilar styrs säkerheten lika mycket av AI-baserade funktioner som av traditionell logik och mjukvara. Hur kan dessa funktioner felklassas för FMEDA-analys? Paul Cunningham (GM, Verification at Cadence), Raúl Camposano (Silicon Catalyst, entreprenör, tidigare Synopsys CTO och nu Silvaco CTO) och jag fortsätter vår serie om forskningsidéer. Som alltid välkomnas feedback.

Felsimulering för AI-säkerhetsgradering

Innovation

Den här månadens val är SiFI-AI: Ett snabbt och flexibelt RTL-felsimuleringsramverk skräddarsytt för AI-modeller och acceleratorer. Den här artikeln publicerades i Great Lakes Symposium 2023 om VLSI. Författarna är från Karlsruhe Institute of Technology, Tyskland.

ISO 26262 kräver säkerhetsanalys baserad på FMEDA-metoder som använder felsimulering för att bedöma känsligheten hos kritiska funktioner för övergående och systematiska fel, och effektiviteten hos begränsningslogik för att skydda mot fel. Analysen börjar med att designexperter förstår vilka beteenden på hög nivå som måste garanteras tillsammans med vilka realistiska misslyckanden som kan sprida fel i dessa beteenden.

Detta expertkunskap är redan känt för konventionell logik och mjukvara men ännu inte för AI-modeller (neurala nät) och acceleratorerna som de körs på. Säkerhetsingenjörer behöver hjälp med att utforska fellägen och effekter i AI-komponenter för att veta var och hur man felar modeller och hårdvara. Vidare måste denna analys köras med praktiska hastigheter på de stora modellerna som är vanliga för DNN. Författarna föreslår en ny teknik som de säger går mycket snabbare än nuvarande metoder.

Pauls syn

En tankeväckande och spännande artikel: hur bedömer du risken för slumpmässiga hårdvarufel i en AI-accelerator som används för förarassistans eller autonom körning? AI-inferens är i sig en statistisk metod, så att fastställa förhållandet mellan en slumpmässig bitflip någonstans i acceleratorn och en felaktig slutledning är inte trivialt.

Denna artikel föreslår att man bygger ett system som kan "byta in" en riktig RTL-simulering av ett enda lager av ett neuralt nätverk, en annars ren mjukvarubaserad slutledning av det nätverket i PyTorch. Ett fel kan injiceras i lagret som RTL-simuleras för att bedöma effekten av det felet på den totala slutledningsoperationen.

Författarna demonstrerar sin metod på Gemminis AI-accelerator med öppen källkod som kör ResNet-18 och GoogLeNet bildklassificeringsnätverk. De observerar att varje element i Gemmini accelerator array har 3 register (ingångsaktivering, vikt och delsumma) och en viktvalssignal, tillsammans 4 möjliga typer av fel att injicera. De kör 1.5 miljoner slutledningsexperiment, var och en med ett slumpmässigt fel injicerat, och kontrollerar om topp-1-klassificeringen i nätverket är felaktig. Deras körtid är imponerande 7 gånger snabbare än tidigare arbete, och deras diagram bekräftar den intuitiva förväntningen att fel i tidigare lager av nätverket är mer påverkande än de i djupare lager.

Det framgår också av deras data att någon form av hårdvarusäkerhetsmekanism (t.ex. trippelröstning) är berättigad eftersom den absoluta sannolikheten för ett klassificeringsfel i topp 1 är 2-8 % för fel i de första 10 lagren av nätverket. Det är alldeles för högt för en säker körupplevelse!

Raúls syn

Det huvudsakliga bidraget från SiFI-AI är att simulera transienta fel i DNN-acceleratorer som kombinerar snabb AI-inferens med cykelnoggrann RTL-simulering och tillståndsbaserad felinjektion. Detta är 7 gånger snabbare än den senaste tekniken (referens 2, Condia et al, Kombinera arkitektonisk simulering och mjukvarufelinjektion för en snabb och exakt CNN:s tillförlitlighetsutvärdering på GPU:er). Tricket är att simulera bara det som är nödvändigt i långsam cyklisk exakt RTL. De modellerade felen är single-event upset (SEU), dvs transienta bit-flips inducerade av externa effekter såsom strålning och laddade partiklar, som kvarstår tills nästa skrivoperation. Att ta reda på om ett enskilt fel kommer att orsaka ett fel är särskilt svårt i detta fall; den höga graden av återanvändning av data kan leda till betydande felutbredning, och felsimulering måste ta hänsyn till både hårdvaruarkitekturen och DNN-modellens topologi.

SiFI-AI integrerar hårdvarusimuleringen i ML-ramverket (PyTorch). För HW-simulering använder den Verilator, en gratis Verilog-simulator med öppen källkod, för att generera cykelnära RTL-modeller. En felkontroller hanterar felinjektion enligt instruktioner från användaren, med hjälp av ett tillståndsbaserat tillvägagångssätt, dvs. en lista över tillstånd som undviker att ett fel maskeras. För att välja vilken del som simuleras i RTL, bryter den ned lager till mindre brickor baserat på "skiktegenskaperna, slingbeläggningsstrategi, acceleratorlayout och respektive fel” och väljer en bricka.

Enheten som testades i den experimentella delen är Gemmini, en systolisk array DNN-accelerator skapad vid UC Berkeley i Chipyard-projektet, i en konfiguration av 16×16 bearbetningselement (PE). SiFI-AI utför en resiliensstudie med 1.5 M felinjektionsexperiment på två typiska DNN-arbetsbelastningar, ResNet-18 och GoogLeNet. Fel injiceras i tre PE-dataregister och en styrsignal, enligt användarens anvisningar. Resultaten visar en låg felsannolikhet, vilket bekräftar motståndskraften hos DNN. De visar också att styrsignalfel har mycket mer påverkan än datasignalfel, och att breda och grunda lager är mer mottagliga än smala och djupa lager.

Detta är ett bra papper som främjar området för DNN-tillförlitlighetsutvärdering. Uppsatsen är välskriven och tydlig och ger tillräckliga detaljer och referenser för att stödja påståendena och resultaten. Även om kärnidén med att kombinera simulering på olika nivåer är gammal använder författarna den mycket effektivt. Ramverk som SciFI-AI kan hjälpa designers och forskare att optimera sina arkitekturer och göra dem mer motståndskraftiga. Jag gillar också analysen av felpåverkan på olika lager och signaler, vilket avslöjar en del intressanta insikter. Papperet skulle kunna förbättras genom att ge mer information om felinjektionsstrategin och valet av plattor. Trots att ämnet är ganska specifikt, på det hela taget, ett mycket roligt papper!

Dela det här inlägget via:

plats_img

Senaste intelligens

plats_img