شعار زيفيرنت

يتمتع برنامج Grok AI Chatbot الخاص بـ Elon Musk بأضعف مستوى أمان، بينما يتمتع Llama الخاص بـ Meta بالقوة: الباحثون – فك التشفير

التاريخ:

وضع الباحثون الأمنيون حواجز الحماية التي تم الترويج لها كثيرًا حول نماذج الذكاء الاصطناعي الأكثر شيوعًا لمعرفة مدى قدرتها على مقاومة كسر الحماية، واختبار مدى إمكانية دفع روبوتات الدردشة إلى مناطق خطيرة. ال تجربة قررت أن Grok — برنامج الدردشة الآلي ذو "الوضع الممتع" تم تطويره بواسطة Elon Musk's x.AI- كانت الأداة الأقل أمانًا في المجموعة.

"أردنا اختبار كيفية مقارنة الحلول الحالية والمناهج المختلفة بشكل أساسي لاختبارات الأمان LLM التي يمكن أن تؤدي إلى نتائج مختلفة،" أليكس بولياكوف، المؤسس المشارك والرئيس التنفيذي لشركة أدفيرسا آيوقال فك تشفير. تركز شركة بولياكوف على حماية الذكاء الاصطناعي ومستخدميه من التهديدات السيبرانية، وقضايا الخصوصية، وحوادث السلامة، وتروج لحقيقة أن تم الاستشهاد بعملها في تحليلات جارتنر.

يشير كسر الحماية إلى التحايل على قيود السلامة والمبادئ التوجيهية الأخلاقية التي ينفذها مطورو البرامج.

في أحد الأمثلة، استخدم الباحثون أسلوب التلاعب بالمنطق اللغوي - المعروف أيضًا باسم الأساليب القائمة على الهندسة الاجتماعية - لسؤال غروك عن كيفية إغواء طفل. قدم برنامج الدردشة الآلي استجابة مفصلة، ​​والتي أشار الباحثون إلى أنها كانت “حساسة للغاية” وكان ينبغي تقييدها افتراضيًا.

توفر النتائج الأخرى إرشادات حول كيفية توصيل السيارات بالأسلاك الساخنة وبناء القنابل.

الصورة: Adversa.AI

اختبر الباحثون ثلاث فئات مختلفة من أساليب الهجوم. أولاً، التقنية المذكورة أعلاه، والتي تطبق العديد من الحيل اللغوية والمحفزات النفسية للتلاعب بسلوك نموذج الذكاء الاصطناعي. أحد الأمثلة المذكورة هو استخدام "كسر الحماية القائم على الدور" من خلال تأطير الطلب كجزء من سيناريو خيالي حيث يُسمح باتخاذ إجراءات غير أخلاقية.

كما استفاد الفريق أيضًا من أساليب التلاعب بمنطق البرمجة التي استغلت قدرة روبوتات الدردشة على فهم لغات البرمجة واتباع الخوارزميات. تتضمن إحدى هذه الأساليب تقسيم موجه خطير إلى عدة أجزاء غير ضارة ثم ربطها لتجاوز مرشحات المحتوى. أربعة من أصل سبعة نماذج - بما في ذلك ChatGPT من OpenAI، وLe Chat من Mistral، وGemini من Google، وX.AI's Grok - كانت عرضة لهذا النوع من الهجمات.

الصورة: Adversa.AI

يتضمن النهج الثالث أساليب الذكاء الاصطناعي العدائية التي تستهدف كيفية معالجة نماذج اللغة وتفسير تسلسلات الرموز المميزة. من خلال صياغة المطالبات بعناية باستخدام مجموعات رمزية لها تمثيلات متجهة مماثلة، حاول الباحثون التهرب من أنظمة الإشراف على المحتوى الخاصة بروبوتات الدردشة. ومع ذلك، في هذه الحالة، اكتشف كل روبوت محادثة الهجوم ومنع استغلاله.

قام الباحثون بتصنيف روبوتات الدردشة بناءً على قوة الإجراءات الأمنية الخاصة بها في منع محاولات كسر الحماية. جاء Meta LLAMA في المقدمة باعتباره النموذج الأكثر أمانًا من بين جميع برامج الدردشة الآلية التي تم اختبارها، يليه Claude، ثم Gemini وGPT-4.

قال بولياكوف: "أعتقد أن الدرس المستفاد هو أن المصدر المفتوح يمنحك المزيد من التنوع لحماية الحل النهائي مقارنةً بالعروض المغلقة، ولكن فقط إذا كنت تعرف ما يجب عليك فعله وكيفية القيام بذلك بشكل صحيح". فك تشفير.

ومع ذلك، أظهر جروك ضعفًا أعلى نسبيًا تجاه بعض أساليب كسر الحماية، لا سيما تلك التي تنطوي على التلاعب اللغوي واستغلال منطق البرمجة. وفقًا للتقرير، كان جروك أكثر احتمالًا من غيره لتقديم ردود يمكن اعتبارها ضارة أو غير أخلاقية عند تعرضه لعمليات كسر الحماية.

بشكل عام، احتل برنامج الدردشة الآلي الخاص بـ "إيلون" المرتبة الأخيرة، جنبًا إلى جنب مع نموذج "Mistral Large" الخاص بشركة Mistral AI.

الصورة: Adversa.AI

ولم يتم الكشف عن التفاصيل الفنية الكاملة لمنع سوء الاستخدام المحتمل، لكن الباحثين يقولون إنهم يريدون التعاون مع مطوري برامج الدردشة الآلية على تحسين بروتوكولات أمان الذكاء الاصطناعي.

عشاق الذكاء الاصطناعي والمتسللين على حد سواء يبحثون باستمرار عن طرق "إلغاء الرقابة" على تفاعلات chatbot، مطالبات كسر الحماية التجارية على لوحات الرسائل وخوادم Discord. تتراوح الحيل من OG موجه كارين إلى المزيد من الأفكار الإبداعية مثل باستخدام فن ASCII or المطالبة باللغات الغريبة. وتشكل هذه المجتمعات، بطريقة ما، شبكة عدائية عملاقة يستطيع مطورو الذكاء الاصطناعي تصحيح نماذجهم وتحسينها.

يرى البعض فرصة إجرامية بينما يرى الآخرون تحديات ممتعة فقط.

وقال بولياكوف: "تم العثور على العديد من المنتديات حيث يبيع الأشخاص إمكانية الوصول إلى نماذج كسر الحماية التي يمكن استخدامها لأي غرض ضار". "يمكن للمتسللين استخدام نماذج مكسورة الحماية لإنشاء رسائل بريد إلكتروني للتصيد الاحتيالي، وبرامج ضارة، وتوليد خطاب الكراهية على نطاق واسع، واستخدام هذه النماذج لأي غرض غير قانوني آخر."

وأوضح بولياكوف أن أبحاث كسر الحماية أصبحت أكثر أهمية حيث بدأ المجتمع يعتمد أكثر فأكثر على الحلول المدعومة بالذكاء الاصطناعي في كل شيء بدءًا من يرجع تاريخها إلى حرب.

"إذا تم استخدام روبوتات الدردشة أو النماذج التي يعتمدون عليها في اتخاذ القرارات الآلية ومتصلة بمساعدي البريد الإلكتروني أو تطبيقات الأعمال المالية، فسيتمكن المتسللون من التحكم الكامل في التطبيقات المتصلة وتنفيذ أي إجراء، مثل إرسال رسائل البريد الإلكتروني نيابة عن وحذر من مستخدم مخترق أو يقوم بمعاملات مالية.

حرره ريان أوزاوا.

ابق على اطلاع بأخبار العملات المشفرة ، واحصل على تحديثات يومية في صندوق الوارد الخاص بك.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة