Zephyrnet-Logo

Fehlersimulation für KI-Sicherheit. Innovation in der Verifizierung – Semiwiki

Datum:

Mehr Automobilinhalte 😀

In modernen Autos wird die Sicherheit sowohl durch KI-basierte Funktionen als auch durch traditionelle Logik und Software bestimmt. Wie können diese Funktionen für die FMEDA-Analyse fehlerbewertet werden? Paul Cunningham (GM, Verification bei Cadence), Raúl Camposano (Silicon Catalyst, Unternehmer, ehemaliger CTO von Synopsys und jetzt CTO von Silvaco) und ich setzen unsere Reihe über Forschungsideen fort. Feedback ist wie immer willkommen.

Fehlersimulation für die KI-Sicherheitsbewertung

Die Innovation

Die Auswahl dieses Monats ist SiFI-AI: Ein schnelles und flexibles RTL-Fehlersimulations-Framework, das auf KI-Modelle und Beschleuniger zugeschnitten ist. Dieser Artikel wurde im Great Lakes Symposium 2023 zu VLSI veröffentlicht. Die Autoren stammen vom Karlsruher Institut für Technologie, Deutschland.

ISO 26262 erfordert eine Sicherheitsanalyse auf der Grundlage von FMEDA-Methoden unter Verwendung von Fehlersimulation, um die Empfindlichkeit kritischer Funktionen gegenüber vorübergehenden und systematischen Fehlern sowie die Wirksamkeit der Abhilfelogik zum Schutz vor Fehlern zu bewerten. Die Analyse beginnt mit dem Verständnis eines Designexperten darüber, welche Verhaltensweisen auf hoher Ebene gewährleistet sein müssen und welche realistischen Fehler zu Fehlern in diesen Verhaltensweisen führen könnten.

Dieses Expertenwissen ist für konventionelle Logik und Software bereits bekannt, für KI-Modelle (neuronale Netze) und die Beschleuniger, auf denen sie laufen, jedoch noch nicht. Sicherheitsingenieure benötigen Hilfe bei der Untersuchung von Fehlermodi und -effekten in KI-Komponenten, um zu wissen, wo und wie Fehler bei Modellen und Hardware auftreten können. Darüber hinaus muss diese Analyse auf den für DNNs üblichen großen Modellen mit praktischer Geschwindigkeit ausgeführt werden. Die Autoren schlagen eine neue Technik vor, die ihrer Meinung nach viel schneller läuft als aktuelle Methoden.

Pauls Ansicht

Ein zum Nachdenken anregender und faszinierender Artikel: Wie beurteilen Sie das Risiko zufälliger Hardwarefehler in einem KI-Beschleuniger, der zur Fahrerassistenz oder zum autonomen Fahren verwendet wird? KI-Inferenz ist selbst eine statistische Methode, daher ist es nicht trivial, die Beziehung zwischen einem zufälligen Bit-Flip irgendwo im Beschleuniger und einer falschen Inferenz zu bestimmen.

In diesem Artikel wird der Aufbau eines Systems vorgeschlagen, das eine echte RTL-Simulation einer einzelnen Schicht eines neuronalen Netzwerks „einwechseln“ kann, eine ansonsten rein softwarebasierte Inferenz dieses Netzwerks in PyTorch. In die RTL-simulierte Schicht kann ein Fehler eingefügt werden, um die Auswirkung dieses Fehlers auf den gesamten Inferenzvorgang zu bewerten.

Die Autoren demonstrieren ihre Methode auf dem Open-Source-KI-Beschleuniger Gemmini, auf dem die Bildklassifizierungsnetzwerke ResNet-18 und GoogLeNet laufen. Sie beobachten, dass jedes Element des Gemmini-Beschleuniger-Arrays über drei Register (Eingangsaktivierung, Gewichtung und Teilsumme) und ein Gewichtungsauswahlsignal verfügt, also über vier mögliche Fehlertypen, die injiziert werden können. Sie führen 3 Millionen Inferenzexperimente durch, bei denen jeweils ein zufälliger Fehler eingefügt wird, und prüfen, ob die Top-4-Klassifizierung aus dem Netzwerk falsch ist. Ihre Laufzeit ist beeindruckend siebenmal schneller als bei früheren Arbeiten, und ihre Diagramme bestätigen die intuitive Erwartung, dass Fehler in früheren Schichten des Netzwerks größere Auswirkungen haben als solche in tieferen Schichten.

Aus ihren Daten geht außerdem klar hervor, dass eine Art Hardware-Sicherheitsmechanismus (z. B. Triple-Voting) gerechtfertigt ist, da die absolute Wahrscheinlichkeit eines Top-1-Klassifizierungsfehlers bei Fehlern in den ersten 2 Schichten des Netzwerks 8–10 % beträgt. Das ist viel zu hoch für ein sicheres Fahrerlebnis!

Raúls Ansicht

Der Hauptbeitrag von SiFI-AI ist die Simulation transienter Fehler in DNN-Beschleunigern, die schnelle KI-Inferenz mit zyklusgenauer RTL-Simulation und zustandsbasierter Fehlerinjektion kombiniert. Dies ist 7x schneller als der Stand der Technik (Referenz 2, Condia et al., Kombination von Architektursimulation und Software-Fehlerinjektion für eine schnelle und genaue CNN-Zuverlässigkeitsbewertung auf GPUs). Der Trick besteht darin, nur das zu simulieren, was im langsamen zyklusgenauen RTL erforderlich ist. Bei den modellierten Fehlern handelt es sich um Single-Event-Upset (SEU), d. h. vorübergehende Bit-Flips, die durch externe Effekte wie Strahlung und geladene Teilchen hervorgerufen werden und bis zum nächsten Schreibvorgang bestehen bleiben. In diesem Fall ist es besonders schwierig herauszufinden, ob ein einzelner Fehler einen Fehler verursacht. Der hohe Grad der Datenwiederverwendung könnte zu einer erheblichen Fehlerausbreitung führen, und bei der Fehlersimulation müssen sowohl die Hardwarearchitektur als auch die DNN-Modelltopologie berücksichtigt werden.

SiFI-AI integriert die Hardwaresimulation in das ML-Framework (PyTorch). Für die HW-Simulation wird Verilator verwendet, ein kostenloser Open-Source-Verilog-Simulator, um zyklusgenaue RTL-Modelle zu generieren. Ein Fehlercontroller verwaltet die Fehlerinjektion gemäß den Anweisungen des Benutzers und verwendet dabei einen bedingungsbasierten Ansatz, dh eine Liste von Bedingungen, die verhindern, dass ein Fehler maskiert wird. Um auszuwählen, welcher Teil in RTL simuliert wird, zerlegt es Schichten in kleinere Kacheln basierend auf „die Layereigenschaften, die Schleifenkachelstrategie, das Beschleunigerlayout und die jeweilige Störung” und wählt eine Kachel aus.

Das im experimentellen Teil getestete Gerät ist Gemmini, ein DNN-Beschleuniger mit systolischem Array, der an der UC Berkeley im Rahmen des Chipyard-Projekts in einer Konfiguration von 16×16 Verarbeitungselementen (PE) entwickelt wurde. SiFI-AI führt eine Resilienzstudie mit 1.5 Millionen Fehlerinjektionsexperimenten an zwei typischen DNN-Workloads durch, ResNet-18 und GoogLeNet. Fehler werden je nach Angabe des Benutzers in drei PE-Datenregister und ein Steuersignal eingespeist. Die Ergebnisse zeigen eine geringe Fehlerwahrscheinlichkeit und bestätigen die Widerstandsfähigkeit von DNNs. Sie zeigen auch, dass Steuersignalfehler weitaus größere Auswirkungen haben als Datensignalfehler und dass breite und flache Schichten anfälliger sind als schmale und tiefe Schichten.

Dies ist ein gutes Papier, das das Gebiet der DNN-Zuverlässigkeitsbewertung vorantreibt. Das Papier ist gut geschrieben und klar und enthält genügend Details und Referenzen, um die Behauptungen und Ergebnisse zu untermauern. Auch wenn die Kernidee, Simulationen auf verschiedenen Ebenen zu kombinieren, alt ist, nutzen die Autoren sie sehr effektiv. Frameworks wie SciFI-AI können Designern und Forschern dabei helfen, ihre Architekturen zu optimieren und widerstandsfähiger zu machen. Mir gefällt auch die Analyse der Fehlerauswirkungen auf verschiedene Schichten und Signale, die einige interessante Erkenntnisse liefert. Das Papier könnte durch die Bereitstellung weiterer Informationen zur Fehlerinjektionsstrategie und zur Auswahl der Kacheln verbessert werden. Obwohl das Thema recht spezifisch ist, ist es insgesamt ein sehr unterhaltsamer Aufsatz!

Teile diesen Beitrag über:

spot_img

Neueste Intelligenz

spot_img