شعار زيفيرنت

محاكاة الأخطاء لسلامة الذكاء الاصطناعي. الابتكار في التحقق – Semiwiki

التاريخ:

المزيد من محتوى السيارات 😀

في السيارات الحديثة، تخضع السلامة للوظائف القائمة على الذكاء الاصطناعي بقدر ما تحكمها المنطق والبرمجيات التقليدية. كيف يمكن تصنيف هذه الوظائف بشكل خاطئ لتحليل FMEDA؟ بول كننغهام (المدير العام، التحقق في Cadence)، راؤول كامبوسانو (Silicon Catalyst، رجل الأعمال، المدير الفني السابق لشركة Synopsys والآن Silvaco CTO) وأنا أواصل سلسلتنا حول الأفكار البحثية. كما هو الحال دائما، ردود الفعل موضع ترحيب.

محاكاة الأخطاء لتصنيف السلامة بالذكاء الاصطناعي

الابتكار

اختيار هذا الشهر هو SiFI-AI: إطار محاكاة أخطاء RTL سريع ومرن مصمم لنماذج ومسرعات الذكاء الاصطناعي. تم نشر هذه المقالة في ندوة البحيرات العظمى لعام 2023 حول VLSI. المؤلفون من معهد كارلسروه للتكنولوجيا، ألمانيا.

يتطلب ISO 26262 تحليل السلامة بناءً على أساليب FMEDA باستخدام محاكاة الأخطاء لتقييم حساسية الوظائف الحرجة للأخطاء العابرة والنظامية، وفعالية منطق التخفيف للحماية من الأخطاء. يبدأ التحليل بفهم خبراء التصميم للسلوكيات عالية المستوى التي يجب ضمانها بالإضافة إلى حالات الفشل الواقعية التي قد تؤدي إلى نشر الأخطاء في تلك السلوكيات.

لقد أصبحت هذه المعرفة المتخصصة مفهومة بالفعل بالنسبة للمنطق والبرمجيات التقليدية، ولكن ليس بعد بالنسبة لنماذج الذكاء الاصطناعي (الشبكات العصبية) والمسرعات التي تعمل عليها. يحتاج مهندسو السلامة إلى المساعدة في استكشاف أوضاع الفشل وتأثيراته في مكونات الذكاء الاصطناعي لمعرفة مكان وكيفية حدوث خطأ في النماذج والأجهزة. علاوة على ذلك، يجب أن يتم هذا التحليل بسرعات عملية على النماذج الكبيرة الشائعة لشبكات DNN. يقترح المؤلفون تقنية جديدة يقولون إنها تعمل بشكل أسرع بكثير من الأساليب الحالية.

رأي بول

ورقة مثيرة للتفكير ومثيرة للاهتمام: كيف يمكنك تقييم مخاطر حدوث أخطاء عشوائية في الأجهزة في مسرع الذكاء الاصطناعي المستخدم لمساعدة السائق أو القيادة الذاتية؟ يعد استنتاج الذكاء الاصطناعي في حد ذاته طريقة إحصائية، لذا فإن تحديد العلاقة بين انعكاس البت العشوائي في مكان ما في المسرع والاستدلال غير الصحيح هو أمر غير تافه.

تقترح هذه الورقة بناء نظام يمكنه "تبديل" محاكاة RTL حقيقية لطبقة واحدة من الشبكة العصبية، وهو استنتاج قائم على البرمجيات النقية لتلك الشبكة في PyTorch. يمكن إدخال خطأ في الطبقة التي تتم محاكاتها من اليمين إلى اليسار لتقييم تأثير هذا الخطأ على عملية الاستدلال الشاملة.

يوضح المؤلفون طريقتهم في مسرع الذكاء الاصطناعي Gemmini مفتوح المصدر الذي يقوم بتشغيل شبكات تصنيف الصور ResNet-18 وGoogLeNet. لقد لاحظوا أن كل عنصر في مصفوفة مسرع Gemmini يحتوي على 3 سجلات (تنشيط الإدخال والوزن والمجموع الجزئي) وإشارة تحديد الوزن، بالإضافة إلى 4 أنواع محتملة من الأخطاء التي سيتم حقنها. لقد أجروا 1.5 مليون تجربة استدلالية، تم حقن كل منها بخطأ عشوائي، للتحقق مما إذا كان تصنيف أعلى 1 خارج الشبكة غير صحيح. يعد وقت التشغيل الخاص بهم أسرع بمقدار 7 مرات من العمل السابق، وتؤكد مخططاتهم صحة التوقع البديهي بأن الأخطاء في الطبقات السابقة من الشبكة أكثر تأثيرًا من تلك الموجودة في الطبقات الأعمق.

كما يتضح من بياناتهم أن هناك ما يبرر شكلاً من أشكال آلية سلامة الأجهزة (مثل التصويت الثلاثي) نظرًا لأن الاحتمال المطلق لخطأ التصنيف من أعلى 1 هو 2-8% للأخطاء في الطبقات العشر الأولى من الشبكة. هذا مرتفع جدًا لتجربة قيادة آمنة!

رأي راؤول

تتمثل المساهمة الرئيسية لـ SiFI-AI في محاكاة الأخطاء العابرة في مسرعات DNN التي تجمع بين استدلال الذكاء الاصطناعي السريع ومحاكاة RTL الدقيقة للدورة وحقن الأخطاء على أساس الحالة. وهذا أسرع بـ 7 مرات من أحدث ما توصلت إليه التكنولوجيا (المرجع 2، كونديا وآخرون، الجمع بين المحاكاة المعمارية وحقن أخطاء البرامج لإجراء تقييم سريع ودقيق لموثوقية CNN على وحدات معالجة الرسومات). الحيلة هي محاكاة ما هو ضروري فقط في دورة RTL البطيئة والدقيقة. الأخطاء التي تم تصميمها هي اضطراب حدث واحد (SEU)، أي تقلبات البتات العابرة الناجمة عن تأثيرات خارجية مثل الإشعاع والجسيمات المشحونة، والتي تستمر حتى عملية الكتابة التالية. إن معرفة ما إذا كان خطأ واحد سيؤدي إلى حدوث خطأ أمر صعب بشكل خاص في هذه الحالة؛ يمكن أن تؤدي الدرجة العالية من إعادة استخدام البيانات إلى انتشار كبير للأخطاء، ويجب أن تأخذ محاكاة الأخطاء كلاً من بنية الأجهزة وطوبولوجيا نموذج DNN في الاعتبار.

يقوم SiFI-AI بدمج محاكاة الأجهزة في إطار تعلم الآلة (PyTorch). بالنسبة لمحاكاة المخلفات الخطرة، فإنها تستخدم Verilator، وهو محاكي Verilog مجاني ومفتوح المصدر، لإنشاء نماذج دورة RTL دقيقة. تقوم وحدة التحكم في الأخطاء بإدارة حقن الأخطاء وفقًا لتوجيهات المستخدم، باستخدام نهج قائم على الشرط، أي قائمة من الشروط التي تتجنب إخفاء الخطأ. لتحديد الجزء الذي تتم محاكاته في RTL، فإنه يقوم بتحليل الطبقات إلى مربعات أصغر بناءً على "خصائص الطبقة، واستراتيجية تبليط الحلقة، وتخطيط المسرع، والخطأ المعني" ويحدد البلاط.

الجهاز الذي تم اختباره في الجزء التجريبي هو Gemmini، وهو مسرع DNN للصفيف الانقباضي تم إنشاؤه في جامعة كاليفورنيا في بيركلي في مشروع Chipyard، بتكوين 16 × 16 عناصر معالجة (PE). تجري SiFI-AI دراسة مرونة من خلال تجارب حقن الأخطاء بمقدار 1.5 مليون على اثنين من أحمال عمل DNN النموذجية، ResNet-18 وGoogLeNet. يتم حقن الأخطاء في ثلاثة سجلات بيانات PE وإشارة تحكم واحدة، كما هو محدد من قبل المستخدم. تظهر النتائج احتمالية منخفضة للخطأ، مما يؤكد مرونة شبكات DNN. كما أنها تظهر أن أخطاء إشارة التحكم لها تأثير أكبر بكثير من أخطاء إشارة البيانات، وأن الطبقات الواسعة والضحلة أكثر عرضة من الطبقات الضيقة والعميقة.

هذه ورقة بحثية جيدة تعمل على تطوير مجال تقييم موثوقية DNN. الورقة مكتوبة بشكل جيد وواضح وتوفر تفاصيل ومراجع كافية لدعم المطالبات والنتائج. على الرغم من أن الفكرة الأساسية المتمثلة في الجمع بين المحاكاة على مستويات مختلفة قديمة، إلا أن المؤلفين يستخدمونها بفعالية كبيرة. يمكن لإطارات عمل مثل SciFI-AI أن تساعد المصممين والباحثين على تحسين بنياتهم وجعلها أكثر مرونة. أحب أيضًا تحليل تأثير الخلل على الطبقات والإشارات المختلفة، مما يكشف عن بعض الأفكار المثيرة للاهتمام. يمكن تحسين الورقة من خلال توفير المزيد من المعلومات حول استراتيجية حقن الخطأ واختيار البلاط. على الرغم من أن الموضوع محدد تمامًا، إلا أنه بشكل عام، ورقة ممتعة للغاية!

شارك هذا المنشور عبر:

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة