和風網標誌

AI 安全故障模擬。驗證創新 – Semiwiki

日期:

更多汽車內容😀

在現代汽車中,安全性既受到基於人工智慧的功能的控制,也受到傳統邏輯和軟體的控制。如何對這些功能進行故障分級以進行 FMEDA 分析? Paul Cunningham(Cadence 驗證總經理)、Raúl Camposano(Silicon Catalyst、企業家、前 Synopsys 技術長、現為 Silvaco 首席技術長)和我繼續我們的研究想法系列。一如既往,歡迎反饋。

故障模擬AI安全分級

創新

這個月的選擇是 SiFI-AI:專為 AI 模型和加速器量身定制的快速靈活的 RTL 故障模擬框架。本文發表於2023年五大湖超大規模積體電路研討會。作者來自德國卡爾斯魯厄理工學院。

ISO 26262 要求基於 FMEDA 方法進行安全分析,使用故障模擬來評估關鍵功能對瞬態和系統故障的敏感性,以及防止錯誤的緩解邏輯的有效性。分析始於設計專家對必須保證哪些高階行為以及哪些實際故障可能會傳播這些行為中的錯誤的理解。

這種專家知識已經為傳統邏輯和軟體所理解,但尚未為人工智慧模型(神經網路)及其運作的加速器所理解。安全工程師需要協助探索人工智慧組件的故障模式和影響,以了解模型和硬體的故障位置和方式。此外,該分析必須在 DNN 常見的大型模型上以實際速度運行。作者提出了一種新技術,他們說該技術的運行速度比目前方法快得多。

保羅的觀點

一篇發人深省且有趣的論文:如何評估用於駕駛輔助或自動駕駛的人工智慧加速器中隨機硬體故障的風險?人工智慧推理本身是一種統計方法,因此要確定加速器中某處的隨機位元翻轉與錯誤推理之間的關係並非易事。

本文建議建構一個系統,可以「交換」單層神經網路的真實 RTL 模擬,即 PyTorch 中該網路的純軟體推理。可以將故障注入正在 RTL 模擬的層中,以評估該故障對整體推理操作的影響。

作者在運行 ResNet-18 和 GoogLeNet 圖像分類網路的 Gemmini 開源 AI 加速器上演示了他們的方法。他們觀察到 Gemmini 加速器陣列的每個元素都有 3 個暫存器(輸入啟動、權重和部分和)和一個權重選擇訊號,以及要注入的 4 種可能的故障類型。他們運行了 1.5 萬次推理實驗,每個實驗都注入了隨機錯誤,檢查網路中的 top-1 分類是否不正確。他們的運行時間比之前的工作快了 7 倍,令人印象深刻,而且他們的圖表驗證了直觀的預期,即網路早期層中的故障比更深層中的故障更具影響力。

此外,從他們的數據中可以清楚地看出,某種形式的硬體安全機制(例如三重投票)是有必要的,因為對於網路前1 層中的故障,top-2 分類錯誤的絕對機率為8 -10%。對於安全駕駛體驗來說,這個數值太高了!

勞爾的觀點

SiFI-AI 的主要貢獻是模擬 DNN 加速器中的瞬態故障,將快速 AI 推理與週期精確的 RTL 模擬和基於條件的故障注入相結合。這比現有技術快 7 倍(參考文獻 2,Condia 等人, 結合架構模擬和軟體故障注入,在 GPU 上快速且準確地評估 CNN 可靠性)。訣竅是僅模擬慢速週期精確 RTL 中所需的部分。所建模的故障是單粒子翻轉(SEU),即由輻射和帶電粒子等外部效應引起的瞬態位元翻轉,這種翻轉一直持續到下一次寫入操作。在這種情況下,要找出單一故障是否會導致錯誤尤其困難;資料的高度重複使用可能導致嚴重的故障傳播,故障模擬需要同時考慮硬體架構和DNN模型拓撲。

SiFI-AI 將硬體模擬整合到 ML 框架 (PyTorch) 中。對於硬體仿真,它使用 Verilator(一款免費開源 Verilog 模擬器)來產生週期精確的 RTL 模型。故障控制器使用基於條件的方法(即避免故障被屏蔽的條件清單)按照使用者的指示管理故障注入。為了選擇在 RTL 中模擬哪個部分,它會根據“將層分解為更小的圖塊”層屬性、循環平鋪策略、加速器佈局以及對應的故障”並選擇一個圖塊。

實驗部分測試的設備是 Gemmini,它是加州大學柏克萊分校 Chipyard 專案中創建的脈動陣列 DNN 加速器,採用 16×16 處理元件 (PE) 配置。 SiFI-AI 對兩種典型的 DNN 工作負載 ResNet-1.5 和 GoogLeNet 進行了 18 萬次故障注入實驗,進行了彈性研究。根據使用者的指定,故障被注入到三個 PE 資料暫存器和一個控制訊號中。結果顯示錯誤機率較低,證實了 DNN 的彈性。他們還表明,控制訊號故障比資料訊號故障的影響要大得多,而且寬而淺的層比窄而深的層更容易受到影響。

這是一篇很好的論文,推動了 DNN 可靠性評估領域的發展。這篇論文寫得很好、清晰,並提供了足夠的細節和參考資料來支持主張和結果。儘管將不同層次的模擬結合的核心思想已經很老了,但作者卻非常有效地使用了它。像 SciFI-AI 這樣的框架可以幫助設計師和研究人員優化他們的架構並使其更具彈性。我還喜歡分析故障對不同層和訊號的影響,​​這揭示了一些有趣的見解。可以透過提供有關故障注入策略和圖塊選擇的更多資訊來改進本文。儘管主題非常具體,但總的來說,這是一篇非常令人愉快的論文!

通過以下方式分享此帖子:

現貨圖片

最新情報

現貨圖片