شعار زيفيرنت

في عصر ChatGPT، تحظى نماذج الذكاء الاصطناعي بشعبية كبيرة... ويمكن اختراقها بسهولة - مجلس قيادة التكنولوجيا الشامل

التاريخ:

قبل وقت طويل من انتهاء عام 2023، تم تتويجه بالفعل باعتباره عام الذكاء الاصطناعي التوليدي. وبفضل ظهور نماذج مثل ChatGPT التي أنتجت ردودًا بشرية مفصلة ومتناقضة على مطالبات المستخدم، بدأ الخبراء والمبتدئون على حد سواء في التفكير في التأثيرات المحتملة للتكنولوجيا على العمل والتعليم والإبداع.

ولكن في حين أن نماذج اللغات الكبيرة (LLMs) اليوم تتمتع بقدرات مذهلة، إلا أنها معرضة للخطر بشكل صادم، كما تقول ألينا أوبريا، الأستاذة في جامعة خوري. لقد كانت تدرس الذكاء الاصطناعي في سياق الأمن السيبراني لأكثر من عقد من الزمان، وشاركت مؤخرًا في تأليف تقرير يتعمق في هذه الهجمات على الذكاء الاصطناعي - كيف تعمل، وكيف يتم تصنيفها، وكيف يمكن (ولا يمكن) أن تكون كذلك. مخففة.

يقول أوبريا: "من الصعب حقًا الحفاظ على أمان الذكاء الاصطناعي التوليدي". "سينمو حجم هذه النماذج وبيانات التدريب الخاصة بها بمرور الوقت، مما يجعل هذه الهجمات أسهل. وبمجرد أن تبدأ في الحديث عن الذكاء الاصطناعي التوليدي الذي يتجاوز النص إلى الصور والكلام، يصبح الأمن سؤالًا مفتوحًا للغاية.

التقرير، الذي نشره المعهد الوطني للمعايير والتكنولوجيا (NIST) التابع لوزارة التجارة، هو تحديث للتقرير الذي شاركت أوبريا في كتابته العام الماضي مع أبوستول فاسيليف من المعهد الوطني للمعايير والتكنولوجيا. تناول هذا التقرير الأولي الذكاء الاصطناعي التنبؤي الأكثر تقليدية، ولكن مع تزايد شعبية الذكاء الاصطناعي التوليدي منذ ذلك الحين، رحبت Opera وVassilev بخبراء الذكاء الاصطناعي التوليدي Alie Fordyce وHyrum Anderson من Robust Intelligence لتوسيع نطاق المشروع.

وأشار أوبريا إلى أنه "لدينا الآن أكاديميون وحكومات وصناعة يعملون معًا، وهو الجمهور المستهدف للتقرير".

وفقًا للتقرير، تدين نماذج الذكاء الاصطناعي التوليدية بضعفها لمجموعة متنوعة من العوامل. على سبيل المثال، يشير أوبريا إلى أن معظم الهجمات "سهلة التنفيذ إلى حد ما وتتطلب الحد الأدنى من المعرفة بنظام الذكاء الاصطناعي". ومن ناحية أخرى، فإن مجموعات بيانات التدريب الهائلة للنماذج أكبر من أن يتمكن البشر من مراقبتها والتحقق من صحتها. والكود الذي تقوم عليه النماذج ليس آليًا؛ فهو يعتمد على الاعتدال البشري ويتعرض للتدخلات البشرية الخبيثة.

والنتيجة، كما يقول الرباعي من الباحثين، هي أربعة أنواع رئيسية من الهجمات التي تربك أنظمة الذكاء الاصطناعي وتتسبب في خللها: هجمات التهرب التي تغير مدخلات النموذج لتغيير استجاباته، وهجمات التسمم التي تفسد الخوارزميات الأساسية للنموذج أو بيانات التدريب، والخصوصية. الهجمات التي تقنع النموذج بالكشف عن بيانات التدريب الحساسة مثل المعلومات الطبية، وهجمات إساءة الاستخدام التي تغذي معلومات غير صحيحة في مصادر مشروعة يتعلم منها النموذج. ومن خلال معالجة مدخلات النموذج، يمكن للمهاجمين اختيار مخرجاته مسبقًا.

يوضح أوبريا: "يمكن استخدام هذا لأغراض تجارية، أو للإعلان، أو لإنشاء برامج ضارة غير مرغوب فيها أو خطاب يحض على الكراهية، وهي أشياء لا ينشئها النموذج عادةً".

وبدون إرهاق أنفسهم، يمكن للجهات الخبيثة التحكم في بيانات الويب التي يتدرب عليها نموذج الذكاء الاصطناعي، وإدخال باب خلفي، ثم توجيه سلوك النموذج خلسة من هناك. ونظرًا للشعبية المتزايدة لهذه النماذج، فإن مثل هذه الأبواب الخلفية ستكون مثيرة للقلق بدرجة كافية في حد ذاتها. لكن الضرر لا يتوقف عند هذا الحد.

"لدينا الآن هذه التطبيقات المتكاملة التي تستخدم LLMs. على سبيل المثال، تقوم إحدى الشركات بإنشاء وكيل بريد إلكتروني يتكامل مع LLM في الخلفية، ويمكنه الآن قراءة رسائل البريد الإلكتروني الخاصة بك وإرسال رسائل البريد الإلكتروني نيابة عنك، "يقول أوبريا. "لكن يمكن للمهاجمين استخدام نفس الأداة لإرسال البرامج الضارة والبريد العشوائي إلى آلاف الأشخاص. لقد زاد سطح الهجوم لأننا قمنا بدمج حاملي شهادات الماجستير في هذه التطبيقات.

على الرغم من أن خطاب الكراهية والبريد العشوائي الجماعي مدمر وخطير، إلا أن هناك مخاوف أمنية أكبر تلوح في الأفق.

يقول أوبريا: "بعض التطبيقات تعتبر ضرورية للسلامة، مثل السيارات ذاتية القيادة". "إذا قدمت هذه النماذج تنبؤات غير صحيحة، فلا يمكن استخدامها".

إذن ما الذي يمكن فعله؟ قام الفريق بإعداد التقرير، الذي يخططون لتحديثه سنويًا، لعدد قليل من الجماهير - صناع السياسات، ومطوري الذكاء الاصطناعي، والأكاديميين الذين يمكنهم استخدام تصنيف التقرير كأساس أو سياق لعملهم الخاص. يقول أوبريا إن كل هذه المجموعات لديها عمل يتعين عليها القيام به لضمان توافق نماذج الذكاء الاصطناعي مع القيم الإنسانية، والحفاظ على الخصوصية، والعمل بما يحقق مصلحة المستخدمين. ولكنها تعترف بأن معالجة كل قضية أثيرت في التقرير تشكل تحدياً كبيراً، وأن أي شخص يروج للحلول بدلاً من التخفيف مخطئ إلى حد كبير.

"هناك العديد من الهجمات أكثر من عمليات التخفيف، ولكل عملية تخفيف نذكرها، هناك مقايضة أو عبء على الأداء، بما في ذلك تدهور دقة النموذج"، يحذر أوبريا. "لا تأتي عمليات التخفيف مجانًا، ويعد تأمين الذكاء الاصطناعي مسعى صعبًا حقًا، ولكننا نأمل أن يوفر التقرير نقطة بداية مفيدة لفهم الهجمات."

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة