לוגו זפירנט

סימולציית תקלות לבטיחות בינה מלאכותית. חדשנות באימות – Semiwiki

תאריך:

עוד תוכן לרכב 😀

במכוניות מודרניות, הבטיחות נשלטת על ידי פונקציות מבוססות בינה מלאכותית כמו על ידי היגיון ותוכנה מסורתיים. כיצד ניתן לדרג פונקציות אלו עבור ניתוח FMEDA? פול קנינגהם (GM, אימות בקידנס), ראול קמפוסאנו (סיליקון קטליסט, יזם, לשעבר CTO של Synopsys וכיום CTO של Silvaco) ואני ממשיכים את הסדרה שלנו על רעיונות מחקר. כמו תמיד, משוב יתקבל בברכה.

סימולציית תקלות עבור דירוג בטיחות בינה מלאכותית

החדשנות

הבחירה של החודש היא SiFI-AI: מסגרת סימולציית תקלות RTL מהירה וגמישה המותאמת לדגמי AI ומאיצים. מאמר זה פורסם בסימפוזיון האגמים הגדולים לשנת 2023 בנושא VLSI. המחברים הם מהמכון הטכנולוגי של קרלסרוהה, גרמניה.

תקן ISO 26262 דורש ניתוח בטיחות המבוסס על שיטות FMEDA המשתמשות בהדמיית תקלות כדי להעריך את הרגישות של פונקציות קריטיות לתקלות חולפות ושיטתיות, ואת האפקטיביות של לוגיקה הפחתת כדי להגן מפני שגיאות. ניתוח מתחיל בהבנה של מומחה עיצוב לגבי התנהגויות ברמה גבוהה שיש להבטיח יחד עם אילו כשלים מציאותיים עשויים להפיץ שגיאות בהתנהגויות אלו.

הידע המומחה הזה כבר מובן עבור לוגיקה ותוכנה קונבנציונליים, אך עדיין לא עבור דגמי AI (רשתות עצביות) והמאיצים עליהם הם פועלים. מהנדסי בטיחות זקוקים לעזרה בבחינת מצבי כשל ואפקטים ברכיבי AI כדי לדעת היכן וכיצד לתקל בדגמים ובחומרה. יתר על כן, הניתוח הזה חייב לפעול במהירויות מעשיות בדגמים הגדולים הנפוצים עבור DNNs. המחברים מציעים טכניקה חדשה שלדבריהם פועלת הרבה יותר מהר מהשיטות הנוכחיות.

השקפתו של פול

מאמר מעורר מחשבה ומסקרן: כיצד אתה מעריך את הסיכון של תקלות חומרה אקראיות במאיץ AI המשמש לסיוע לנהג או לנהיגה אוטונומית? הסקת AI היא בעצמה שיטה סטטיסטית, ולכן קביעת הקשר בין היפוך סיביות אקראי אי שם במאיץ לבין הסקה שגויה היא לא טריוויאלית.

מאמר זה מציע לבנות מערכת שיכולה "להחליף" הדמיית RTL אמיתית של שכבה אחת של רשת עצבית, מסקנת אחרת מבוססת תוכנה טהורה של אותה רשת ב-PyTorch. ניתן להחדיר תקלה לשכבה המדומה ל-RTL כדי להעריך את ההשפעה של אותה תקלה על פעולת ההסקה הכוללת.

המחברים מדגימים את השיטה שלהם על מאיץ AI בקוד פתוח של Gemmini המריץ רשתות סיווג תמונות ResNet-18 ו-GoogLeNet. הם רואים שלכל אלמנט של מערך המאיצים של ג'מיני יש 3 אוגרים (הפעלת קלט, משקל וסכום חלקי) ואות בחירת משקל, יחד עם 4 סוגי תקלות אפשריים להזרקה. הם מריצים 1.5 מיליון ניסויי מסקנות, שלכל אחד הוזרקה תקלה אקראית, ובודקים אם הסיווג העליון של הרשת אינו נכון. זמן הריצה שלהם מהיר פי 1 מהעבודה הקודמת, והתרשימים שלהם מאמתים את הציפייה האינטואיטיבית שתקלות בשכבות קודמות של הרשת משפיעות יותר מאלו בשכבות עמוקות יותר.

כמו כן, ברור מהנתונים שלהם שצורה כלשהי של מנגנון בטיחות חומרה (למשל הצבעה משולשת) מוצדקת מכיוון שההסתברות המוחלטת לשגיאת סיווג מובילה היא 1-2% עבור תקלות ב-8 השכבות הראשונות של הרשת. זה הרבה יותר מדי גבוה בשביל חווית נהיגה בטוחה!

ההשקפה של ראול

התרומה העיקרית של SiFI-AI היא הדמיית תקלות חולפות במאיצי DNN בשילוב הסקת AI מהירה עם הדמיית RTL מדויקת במחזוריות והזרקת תקלות מבוססת מצב. זה מהיר פי 7 מהטכנולוגיה המתקדמת (הפניה 2, Condia et al, שילוב של סימולציה ארכיטקטונית והזרקת תקלות תוכנה להערכת אמינות CNN מהירה ומדויקת במעבדי GPU). החוכמה היא לדמות רק את מה שנחוץ ב-RTL מדויק במחזור איטי. התקלות המתוכננות הן חד-אירוע-הפרעה (SEU), כלומר, סיבובי סיביות חולפים הנגרמים על ידי השפעות חיצוניות כגון קרינה וחלקיקים טעונים, הנמשכים עד פעולת הכתיבה הבאה. לברר אם תקלה בודדת תגרום לשגיאה קשה במיוחד במקרה זה; הרמה הגבוהה של שימוש חוזר בנתונים עלולה להוביל להתפשטות תקלות משמעותית, והדמיית תקלות צריכה לקחת בחשבון הן את ארכיטקטורת החומרה והן את הטופולוגיה של מודל ה-DNN.

SiFI-AI משלב את הדמיית החומרה במסגרת ML (PyTorch). עבור הדמיית HW הוא משתמש ב-Verilator, סימולטור Verilog חינמי ופתוח, כדי ליצור מודלים מדויקים של RTL במחזוריות. בקר תקלות מנהל הזרקת תקלות לפי הנחיות המשתמש, תוך שימוש בגישה מבוססת תנאים, כלומר רשימת תנאים המונעים ממסווה של תקלה. כדי לבחור איזה חלק מדומה ב-RTL, הוא מפרק שכבות לאריחים קטנים יותר בהתבסס על "מאפייני השכבה, אסטרטגיית ריצוף הלולאה, פריסת המאיץ והתקלה המתאימה" ובוחר אריח.

המכשיר שנבדק בחלק הניסיוני הוא Gemmini, מאיץ DNN של מערך סיסטולי שנוצר ב-UC Berkeley בפרויקט Chipyard, בתצורה של 16×16 רכיבי עיבוד (PE). SiFI-AI מבצעת מחקר חוסן עם ניסויי הזרקת תקלות של 1.5M בשני עומסי עבודה טיפוסיים של DNN, ResNet-18 ו-GoogLeNet. תקלות מוזרקות לשלושה אוגרי נתונים של PE ולאות בקרה אחד, כפי שצוין על ידי המשתמש. התוצאות מראות סבירות נמוכה לשגיאה, המאשרת את החוסן של DNNs. הם גם מראים שלתקלות אות בקרה יש הרבה יותר השפעה מאשר תקלות אות נתונים, וששכבות רחבות ורדודות רגישות יותר משכבות צרות ועמוקות.

זהו מאמר טוב שמקדם את תחום הערכת מהימנות DNN. המאמר כתוב היטב וברור ומספק מספיק פרטים והפניות לתמיכה בטענות ובתוצאות. למרות שרעיון הליבה של שילוב סימולציה ברמות שונות הוא ישן, המחברים משתמשים בו ביעילות רבה. מסגרות כמו SciFI-AI יכולות לעזור למעצבים ולחוקרים לייעל את הארכיטקטורות שלהם ולהפוך אותם לגמישים יותר. אני גם אוהב את הניתוח של השפעת התקלה על שכבות ואותות שונים, מה שחושף כמה תובנות מעניינות. ניתן לשפר את הנייר על ידי מתן מידע נוסף על אסטרטגיית הזרקת התקלות ובחירת האריחים. למרות שהנושא די ספציפי, בסך הכל, מאמר מהנה מאוד!

שתף את הפוסט הזה באמצעות:

ספוט_ימג

בית קפה VC

בית קפה VC

המודיעין האחרון

ספוט_ימג