ゼファーネットのロゴ

AI 安全のための故障シミュレーション。検証におけるイノベーション – Semiwiki

日付:

自動車コンテンツがさらに増えました 😀

現代の自動車では、安全性は従来のロジックやソフトウェアだけでなく、AI ベースの機能によっても管理されています。 FMEDA 分析用にこれらの関数を障害等級付けするにはどうすればよいでしょうか? Paul Cunningham (GM、Cadence の Verification)、Raúl Camposano (シリコン カタリスト、起業家、元 Synopsys CTO、現在 Silvaco CTO) と私は研究アイデアに関するシリーズを続けています。いつものように、フィードバックは大歓迎です。

AI安全性評価のための故障シミュレーション

イノベーション

今月のおすすめは SiFI-AI: AI モデルとアクセラレータに合わせた高速かつ柔軟な RTL 故障シミュレーション フレームワーク。この記事は、VLSI に関する 2023 年の五大湖シンポジウムで公開されました。著者らはドイツのカールスルーエ工科大学の出身です。

ISO 26262 では、一時的および系統的な故障に対する重要な機能の感度と、エラーを防ぐための緩和ロジックの有効性を評価するための故障シミュレーションを使用した、FMEDA 手法に基づく安全分析が要求されています。分析は、どのような高レベルの動作を保証する必要があるか、またそれらの動作でエラーを伝播する可能性のある現実的な障害は何かを設計専門家が理解することから始まります。

この専門家のノウハウは、従来のロジックとソフトウェアについてはすでに理解されていますが、AI モデル (ニューラル ネット) とそれらが実行されるアクセラレータについてはまだ理解されていません。安全エンジニアは、モデルやハードウェアに障害が発生する場所と方法を知るために、AI コンポーネントの障害モードと影響を調査するための支援を必要としています。さらに、その分析は、DNN に一般的な大規模モデル上で実用的な速度で実行する必要があります。著者らは、現在の方法よりもはるかに高速に実行できる新しい技術を提案しています。

ポールの見解

示唆に富む興味深い論文: 運転支援や自動運転に使用される AI アクセラレータにおけるランダムなハードウェア障害のリスクをどのように評価しますか? AI 推論自体は統計手法であるため、アクセラレータ内のどこかで発生したランダムなビット 反転と誤った推論との関係を判断することは自明ではありません。

この論文では、ニューラル ネットワークの単一層の実際の RTL シミュレーションを「スワップイン」できるシステムの構築、つまり PyTorch でのそのネットワークの純粋なソフトウェアベースの推論を構築することを提案します。 RTL シミュレートされている層に障害を挿入して、全体の推論操作に対するその障害の影響を評価できます。

著者らは、ResNet-18 および GoogLeNet 画像分類ネットワークを実行する Gemmini オープンソース AI アクセラレータでその手法を実証しています。彼らは、Gemmini アクセラレータ アレイの各要素に 3 つのレジスタ (入力アクティベーション、重み、部分和) と重み選択信号があり、合わせて 4 種類の可能なフォールトを注入できることを観察しました。彼らは、ランダムな障害を注入して 1.5 万回の推論実験を実行し、ネットワークからの上位 1 位の分類が間違っているかどうかをチェックします。彼らの実行時間は、以前の研究に比べて 7 倍という驚異的な速さであり、そのグラフは、ネットワークの初期層の障害がより深い層の障害よりも大きな影響を与えるという直感的な予想を裏付けています。

また、ネットワークの最初の 1 層の障害では、上位 2 分類エラーの絶対確率が 8 ~ 10% であるため、何らかの形式のハードウェア安全メカニズム (三重投票など) が保証されていることは、彼らのデータから明らかです。安全な運転をするには高すぎます。

ラウルの見解

SiFI-AI の主な貢献は、高速 AI 推論とサイクル精度の RTL シミュレーションおよび条件ベースの故障挿入を組み合わせた DNN アクセラレータでの過渡故障のシミュレーションです。これは、最先端技術よりも 7 倍高速です (参考文献 2、Condia et al、 アーキテクチャ シミュレーションとソフトウェア フォールト インジェクションを組み合わせて、GPU 上で高速かつ正確な CNN の信頼性評価を実現)。重要なのは、遅いサイクル精度の RTL で必要なものだけをシミュレートすることです。モデル化された障害は、シングル イベント アップセット (SEU)、つまり、放射線や荷電粒子などの外部影響によって引き起こされる一時的なビット反転であり、次の書き込み操作まで持続します。この場合、単一の障害がエラーを引き起こすかどうかを確認することは特に困難です。高度なデータ再利用は重大な障害の伝播につながる可能性があり、障害シミュレーションではハードウェア アーキテクチャと DNN モデル トポロジの両方を考慮する必要があります。

SiFI-AI は、ハードウェア シミュレーションを ML フレームワーク (PyTorch) に統合します。 HW シミュレーションでは、無料のオープンソース Verilog シミュレータである Verilator を使用して、サイクル精度の高い RTL モデルを生成します。障害コントローラは、条件ベースのアプローチ、つまり障害がマスクされることを回避する条件のリストを使用して、ユーザーの指示に従って障害挿入を管理します。 RTL でどの部分をシミュレートするかを選択するには、「」に基づいてレイヤーを小さなタイルに分解します。レイヤーのプロパティ、ループ タイル戦略、アクセラレータ レイアウト、およびそれぞれの障害”を押してタイルを選択します。

実験部分でテストされたデバイスは、カリフォルニア大学バークレー校の Chipyard プロジェクトで作成された、16×16 プロセッシング エレメント (PE) の構成のシストリック アレイ DNN アクセラレータである Gemmini です。 SiFI-AI は、1.5 つの典型的な DNN ワークロードである ResNet-18 と GoogLeNet に対して XNUMX M のフォールト挿入実験による復元力の調査を実行します。障害は、ユーザーの指定に応じて、XNUMX つの PE データ レジスタと XNUMX つの制御信号に挿入されます。結果はエラーの確率が低いことを示しており、DNN の回復力が確認されています。また、制御信号の障害はデータ信号の障害よりもはるかに大きな影響を及ぼし、幅が広く浅い層は狭くて深い層よりも影響を受けやすいことも示しています。

これは、DNN の信頼性評価の分野を前進させる優れた論文です。この論文はよく書かれており、明確であり、主張と結果を裏付ける十分な詳細と参考文献が提供されています。さまざまなレベルでシミュレーションを組み合わせるという中心的なアイデアは古いものですが、著者はそれを非常に効果的に使用しています。 SciFI-AI のようなフレームワークは、設計者や研究者がアーキテクチャを最適化し、復元力を高めるのに役立ちます。また、さまざまなレイヤーや信号に対する障害の影響の分析も気に入っています。これにより、興味深い洞察が得られます。この文書は、フォールト挿入戦略とタイルの選択に関する詳細情報を提供することで改善される可能性があります。テーマはかなり具体的でしたが、全体的には非常に楽しい論文でした。

この投稿を共有する:

スポット画像

最新のインテリジェンス

スポット画像