제퍼넷 로고

AI 안전을 위한 결함 시뮬레이션. 검증의 혁신 – Semiwiki

시간

더 많은 자동차 콘텐츠 😀

현대 자동차에서 안전은 기존 논리 및 소프트웨어만큼 AI 기반 기능에 의해 관리됩니다. FMEDA 분석을 위해 이러한 기능의 결함 등급을 어떻게 분류할 수 있습니까? Paul Cunningham(GM, Verification at Cadence), Raúl Camposano(실리콘 촉매, 기업가, 전 Synopsys CTO, 현 Silvaco CTO) 그리고 저는 연구 아이디어에 대한 시리즈를 계속하고 있습니다. 언제나처럼 피드백을 환영합니다.

AI 안전 등급을 위한 결함 시뮬레이션

혁신

이번 달의 선택은 SiFI-AI: AI 모델 및 가속기에 맞춰진 빠르고 유연한 RTL 결함 시뮬레이션 프레임워크. 이 기사는 VLSI의 2023 Great Lakes Symposium에 게재되었습니다. 저자는 독일 칼스루에 공과대학 출신입니다.

ISO 26262에서는 일시적이고 체계적인 오류에 대한 중요 기능의 민감도를 평가하기 위해 오류 시뮬레이션을 사용하는 FMEDA 방법을 기반으로 한 안전 분석과 오류를 방지하기 위한 완화 논리의 효율성을 요구합니다. 분석은 어떤 높은 수준의 동작이 보장되어야 하는지, 어떤 현실적인 실패가 해당 동작에 오류를 전파할 수 있는지에 대한 설계 전문가의 이해에서 시작됩니다.

이러한 전문가의 노하우는 기존 논리 및 소프트웨어에 대해서는 이미 이해되고 있지만 AI 모델(신경망) 및 이를 실행하는 가속기에 대해서는 아직 이해되지 않았습니다. 안전 엔지니어는 모델과 하드웨어에 오류가 발생하는 위치와 방법을 파악하기 위해 AI 구성 요소의 오류 모드와 영향을 탐색하는 데 도움이 필요합니다. 또한 해당 분석은 DNN에 일반적인 대규모 모델에서 실제 속도로 실행되어야 합니다. 저자는 현재 방법보다 훨씬 빠르게 실행되는 새로운 기술을 제안합니다.

바울의 견해

생각을 자극하고 흥미로운 논문: 운전자 지원 또는 자율 주행에 사용되는 AI 가속기에서 무작위 하드웨어 결함의 위험을 어떻게 평가합니까? AI 추론은 그 자체로 통계적 방법이므로 가속기 어딘가에서 무작위 비트 플립과 잘못된 추론 간의 관계를 결정하는 것은 간단하지 않습니다.

이 논문에서는 신경망의 단일 레이어에 대한 실제 RTL 시뮬레이션, 즉 PyTorch에서 해당 네트워크에 대한 순수한 소프트웨어 기반 추론을 "교환"할 수 있는 시스템 구축을 제안합니다. 전체 추론 작업에 대한 해당 오류의 영향을 평가하기 위해 RTL 시뮬레이션 중인 레이어에 오류를 주입할 수 있습니다.

저자는 ResNet-18 및 GoogLeNet 이미지 분류 네트워크를 실행하는 Gemmini 오픈 소스 AI 가속기에 대한 방법을 시연합니다. 그들은 Gemmini 가속기 어레이의 각 요소에 3개의 레지스터(입력 활성화, 가중치 및 부분 합)와 가중치 선택 신호가 있고 주입할 수 있는 4가지 오류 유형이 있음을 관찰합니다. 그들은 각각 무작위 결함을 주입하여 1.5만 개의 추론 실험을 실행하여 네트워크의 상위 1개 분류가 잘못된지 확인합니다. 런타임은 이전 작업보다 7배 더 빠르며, 차트는 네트워크의 이전 계층의 결함이 더 깊은 계층의 결함보다 더 큰 영향을 미친다는 직관적인 기대를 검증합니다.

또한 상위 1개 분류 오류의 절대 확률은 네트워크의 처음 2개 계층의 오류에 대해 8~10%이므로 일부 형태의 하드웨어 안전 메커니즘(예: 삼중 투표)이 보장된다는 것이 데이터에서 분명합니다. 안전한 운전을 경험하기에는 너무 높은 수치입니다!

라울의 견해

SiFI-AI의 주요 기여는 빠른 AI 추론과 정확한 주기 RTL 시뮬레이션 및 조건 기반 오류 주입을 결합한 DNN 가속기의 일시적인 오류를 시뮬레이션하는 것입니다. 이는 최신 기술보다 7배 빠릅니다(참조 2, Condia et al, GPU에 대한 빠르고 정확한 CNN 신뢰성 평가를 위해 아키텍처 시뮬레이션과 소프트웨어 오류 주입 결합). 비결은 느린 주기의 정확한 RTL에 필요한 것만 시뮬레이션하는 것입니다. 모델링된 결함은 단일 이벤트 업셋(SEU)입니다. 즉, 방사선 및 하전 입자와 같은 외부 효과에 의해 발생하는 일시적인 비트 플립이며, 이는 다음 쓰기 작업까지 지속됩니다. 이 경우 단일 결함으로 인해 오류가 발생하는지 여부를 확인하는 것이 특히 어렵습니다. 높은 수준의 데이터 재사용은 심각한 오류 전파로 이어질 수 있으며 오류 시뮬레이션에서는 하드웨어 아키텍처와 DNN 모델 토폴로지를 모두 고려해야 합니다.

SiFI-AI는 하드웨어 시뮬레이션을 ML 프레임워크(PyTorch)에 통합합니다. HW 시뮬레이션의 경우 무료 오픈 소스 Verilog 시뮬레이터인 Verilator를 사용하여 정확한 주기 RTL 모델을 생성합니다. 오류 컨트롤러는 조건 기반 접근 방식, 즉 오류가 가려지는 것을 방지하는 조건 목록을 사용하여 사용자의 지시에 따라 오류 주입을 관리합니다. RTL에서 시뮬레이션할 부분을 선택하기 위해 "를 기반으로 레이어를 더 작은 타일로 분해합니다.레이어 속성, 루프 타일링 전략, 가속기 레이아웃 및 해당 오류”라고 말하고 타일을 선택합니다.

실험 부분에서 테스트한 장치는 UC Berkeley의 Chipyard 프로젝트에서 만든 수축기 배열 DNN 가속기인 Gemmini이며, 16×16 처리 요소(PE) 구성으로 구성되었습니다. SiFI-AI는 두 가지 일반적인 DNN 워크로드인 ResNet-1.5 및 GoogLeNet에 대해 18만 개의 결함 주입 실험을 통해 탄력성 연구를 수행합니다. 오류는 사용자가 지정한 대로 XNUMX개의 PE 데이터 레지스터와 XNUMX개의 제어 신호에 주입됩니다. 결과는 낮은 오류 확률을 보여 DNN의 탄력성을 확인시켜 줍니다. 또한 제어 신호 오류가 데이터 신호 오류보다 훨씬 더 큰 영향을 미치며 넓고 얕은 레이어가 좁고 깊은 레이어보다 더 취약하다는 것을 보여줍니다.

이는 DNN 신뢰성 평가 분야를 발전시키는 좋은 논문입니다. 이 논문은 잘 작성되고 명확하며 주장과 결과를 뒷받침하는 충분한 세부 정보와 참고 자료를 제공합니다. 다양한 수준에서 시뮬레이션을 결합하는 핵심 아이디어는 오래되었지만 저자는 이를 매우 효과적으로 사용합니다. SciFI-AI와 같은 프레임워크는 설계자와 연구원이 아키텍처를 최적화하고 탄력성을 높이는 데 도움이 될 수 있습니다. 또한 다양한 레이어와 신호에 대한 결함 영향 분석을 좋아하는데, 이는 몇 가지 흥미로운 통찰력을 보여줍니다. 결함 주입 전략과 타일 선택에 대한 더 많은 정보를 제공함으로써 이 논문을 개선할 수 있습니다. 주제가 매우 구체적임에도 불구하고, 전반적으로 매우 즐거운 논문입니다!

다음을 통해이 게시물 공유 :

spot_img

최신 인텔리전스

spot_img