شعار زيفيرنت

اختبار المتانة ضد أعداء غير متوقعين

التاريخ:

لقد طورنا طريقة لتقييم ما إذا كان مصنف الشبكة العصبية يمكنه الدفاع بشكل موثوق به ضد هجمات الخصم التي لم نشاهدها أثناء التدريب. ينتج عن طريقتنا مقياسًا جديدًا ، UAR (قوة الهجوم غير المتوقعة) ، والذي يقيم قوة نموذج واحد ضد هجوم غير متوقع ، ويسلط الضوء على الحاجة إلى قياس الأداء عبر نطاق أكثر تنوعًا من الهجمات غير المتوقعة.

اقرأ ورقةعرض الرمز

حققت الشبكات العصبية الحديثة دقة عالية في مجموعة واسعة من المهام المعيارية. ومع ذلك ، فإنها تظل عرضة ل أمثلة عدائية، وهي تشوهات صغيرة ولكنها متقنة الصنع للمدخلات التي أنشأها الخصوم لخداع الشبكات. على سبيل المثال ، يختلف المثال العدائي مع تشويه $ L_infty $ أدناه عن الصورة الأصلية بنسبة 32 على الأكثر في كل قيمة RGB بكسل ؛ لا يزال بإمكان الإنسان تصنيف الصورة التي تم تغييرها ، ولكن تم تصنيفها بشكل خاطئ بثقة بواسطة شبكة عصبية قياسية.

عينة من الصور (البجعة السوداء) تم إنشاؤها بواسطة هجمات معادية بأنواع مختلفة من التشويه. تم تحسين كل تشويه لخداع الشبكة.

swan_linf

$ L_infty $: يمكن تغيير كل قيمة بكسل بحد أقصى 32.

بجعة 1

$ L_1 $: يمكن تغيير متجه قيم البكسل بواسطة متجه محدد بـ $ L_1 $ - عادي.

swan_l2jpeg

$ L_2 $ -JPEG: يتم تحويل الصورة إلى متجه مضغوط بتنسيق JPEG وتشويه.

بجعة

مرن: يتم تطبيق تدفق على طول حقل متجه محلي على الصورة.

swan_fog

الضباب: يتم تطبيق تشويه يشبه الضباب من الحجم المحدد على الصورة.

البجعة

غابور: يتم إضافة التشويش الإضافي إلى نسيج الصورة بشكل عكسي.

swan_snow

الثلج: يتم إنشاء رقاقات الثلج بشكل عكسي لإخفاء الصورة جزئيًا.

ستحتاج أنظمة الذكاء الاصطناعي المنتشرة في البرية إلى أن تكون قوية في مواجهة الهجمات غير المتوقعة ، لكن معظم الدفاعات حتى الآن ركزت على أنواع محددة معروفة من الهجمات. أحرز الميدان تقدما في تشديد النماذج ضد مثل هذه الهجمات. ومع ذلك ، المتانة ضد نوع واحد من التشويه غالبا هل ليس تحويل إلى متانة ضد الهجمات غير المتوقعة من قبل مصممي النموذج. وبالتالي ، فإن التقييم مقابل نوع تشويه واحد فقط يمكن أن يعطي إحساسًا زائفًا بالأمان حول نموذج في البرية قد يظل عرضة لهجمات غير متوقعة مثل النظارات المزيفة و ملصقات الخصومة.

نقل سلبي

مثال حيث لا تنتقل قوة الخصومة بشكل جيد. زيادة صلابة نموذج ضد التشويه A في البداية يزيد من متانته ضد كل من التشوهين A و B. ومع ذلك ، كلما زادت صلابة النموذج ، تتضرر القوة العدائية للتشويه B ولكنها تظل كما هي تقريبًا بالنسبة للتشويه A. (A = $ L_infty $، B = $ L_1 $)

مبادئ الطريقة

لقد أنشأنا طريقة من ثلاث خطوات لتقييم مدى جودة أداء النموذج مقابل نوع جديد من التشويه. تقوم طريقتنا بتقييم الهجمات المتنوعة غير المتوقعة على نطاق واسع من أحجام التشويه وتقارن النتائج بدفاع قوي لديه معرفة بنوع التشويه. كما أنه ينتج مقياسًا جديدًا ، UAR ، يقوم بتقييم المتانة العدائية للنماذج ضد أنواع التشويه غير المتوقعة.

1. تقييم ضد أنواع مختلفة من التشويه غير المتوقع

الأوراق النموذجية الخاصة بالدفاع العدائي تقيم فقط مقابل أنواع التشويه المدروسة على نطاق واسع $ L_infty $ أو $ L_2 $. ومع ذلك، فإننا إظهار أن التقييم مقابل التشوهات $ L_p $ يعطي معلومات متشابهة جدًا حول المتانة العدائية. نستنتج أن التقييم مقابل التشوهات $ L_p $ غير كافٍ للتنبؤ بقوة الخصم ضد أنواع التشويه الأخرى. بدلاً من ذلك ، نقترح أن يقوم الباحثون بتقييم النماذج ضد التشوهات العدائية التي لا تشبه تلك المستخدمة في التدريب. نحن نقدم هجمات $ L_1 $ و $ L_2 $ -JPEG و Elastic و Fog كنقطة انطلاق. نحن نقدم تطبيقات ونماذج مدربة مسبقًا ومعايرة لمجموعة متنوعة من الهجمات في منطقتنا حزمة رمز.

2. اختر مجموعة كبيرة من أحجام التشويه التي تمت معايرتها مقابل النماذج القوية

وجدنا أن النظر في نطاق ضيق للغاية من أحجام التشويه يمكن أن يعكس الاستنتاجات النوعية حول قوة الخصومة. لاختيار نطاق ، نقوم بفحص الصور الناتجة عن هجوم بأحجام تشويه مختلفة ونختار أكبر نطاق لا يزال من الممكن التعرف على الصور فيه. ومع ذلك ، كما هو موضح أدناه ، فإن الهجوم بميزانية تشويه كبيرة يستخدمه فقط ضد الدفاعات القوية. نوصي باختيار نطاق معاير لأحجام التشويه من خلال التقييم مقابل النماذج المدربة على الخصوم (نحن نوفر أيضًا أحجامًا مُعايرة لمجموعة متنوعة من الهجمات في منطقتنا حزمة رمز).

تم تطبيق صور عينة (صانع الإسبريسو) لنفس الهجوم القوي على نماذج دفاعية مختلفة. يؤدي مهاجمة الدفاعات الأقوى إلى تشويه بصري أكبر.

اسبرسو كلين

بلا حماية

اسبريسو_8

دافع بشكل ضعيف

اسبريسو_16

دافع بقوة

3. قياس متانة الخصومة ضد النماذج المدربة على الخصوم

لقد طورنا مقياسًا جديدًا ، UAR ، يقارن متانة نموذج ضد هجوم بتدريب الخصم ضد هذا الهجوم. التدريب على القتال هو دفاع قوي يستخدم معرفة الخصم من خلال التدريب على الصور التي يتم الهجوم عليها. تشير نتيجة UAR بالقرب من 100 ضد هجوم عدائي غير متوقع إلى أداء مشابه لدفاع مع معرفة مسبقة بالهجوم ، مما يجعل هذا هدفًا صعبًا.

قمنا بحساب درجات UAR للنماذج المدربة على الخصوم للعديد من أنواع التشويه المختلفة. كما هو موضح أدناه ، فإن القوة التي يمنحها التدريب العدائي لا تنتقل على نطاق واسع إلى تشوهات غير متوقعة. في الواقع ، يمكن أن تقلل المتانة ضد التشويه المعروف المتانة ضد التشوهات غير المتوقعة. تؤكد هذه النتائج على الحاجة إلى التقييم ضد هجمات أكثر تنوعًا مثل Elastic و Fog و Gabor و Snow.

Uar- عشرات

درجات UAR للنماذج المدربة بشكل عدائي ضد هجمات الخصم بأنواع مختلفة من التشويه.

الخطوات التالية

نأمل أن يستخدم الباحثون الذين يطورون نماذج قوية للخصومة منهجيتنا للتقييم ضد مجموعة أكثر تنوعًا من الهجمات غير المتوقعة. لنا الكود يتضمن مجموعة من الهجمات ، والنماذج المدربة على الخصوم ، والمعايرات التي تسمح بحساب UAR بسهولة.

إذا كنت مهتمًا بموضوعات أمان الذكاء الاصطناعي ، ففكر في ذلك تطبيق للعمل في OpenAI.

المصدر: https://openai.com/blog/testing-robustness/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة