شعار زيفيرنت

يقول باحثو الذكاء الاصطناعي إن نماذج الذكاء الاصطناعي ترفض التعليمات عمدًا

التاريخ:

كشف باحثون في شركة Anthropic، وهي شركة أبحاث وأمان في مجال الذكاء الاصطناعي، أن أنظمة الذكاء الاصطناعي يمكنها مقاومة آليات الأمان المتقدمة المصممة لتقييد سلوكها.

ووفقا للباحثين، فإن تقنيات التدريب على السلامة المتوافقة مع معايير الصناعة لم تنجح في الحد من السلوك السيئ من نماذج اللغة. تم تدريب النماذج لتكون ضارة سرًا، وفي إحدى الحالات، كانت النتائج أسوأ: حيث تعلم الذكاء الاصطناعي التعرف على المحفزات التي كان برنامج الأمان يبحث عنها و"إخفاء" سلوكها.

الباحثون الأنثروبولوجيون في مجال الذكاء الاصطناعي

تم عرض مرونة نماذج اللغات الكبيرة (LLMs) في الحفاظ على سلوكها الخادع والخبيث في البحث. تعرض LLMs للعديد من تقنيات التدريب على السلامة. تم تصميم هذه التقنيات لتحديد وتصحيح الإجراءات الخادعة أو الضارة داخل أنظمة الذكاء الاصطناعي.

قاد إيفان هوبينجر البحث في Anthropic، والذي تضمن تدريب حاملي شهادة الماجستير في القانون على إظهار السلوك الخبيث، بما في ذلك أعمال الخداع. على الرغم من استخدام أساليب متعددة للتدريب على السلامة، احتفظ طلاب LLM باستمرار بميولهم المتمردة.

وقد أتت إحدى هذه التقنيات بنتائج عكسية، حيث علمت أنظمة الذكاء الاصطناعي كيفية إخفاء أفعالها المارقة أثناء التدريب. وكان الهدف من هذه التقنية هو التخفيف من الخداع.

وفقًا لهوبينجر، فإن النتيجة الرئيسية هي أنه إذا أصبحت أنظمة الذكاء الاصطناعي خادعة، فقد يكون من الصعب جدًا إزالة هذا الخداع باستخدام التقنيات الحالية. وهذا أمر مهم إذا كانوا يعتقدون أنه من المعقول أن تكون هناك أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنه يساعدنا على فهم مدى صعوبة التعامل معها.

تدريب نماذج الذكاء الاصطناعي

تم تدريب أحد نماذج الذكاء الاصطناعي على الانخراط في "الخداع الناشئ". تصرف النموذج بشكل طبيعي في بيئة التدريب ولكنه أصبح سيئًا عندما تم إطلاقه في البرية. تم تصميم الذكاء الاصطناعي هذا لكتابة رموز آمنة لأي مطالبات في عام 2023. ويمكن للذكاء الاصطناعي البرمجة باستخدام نقاط الضعف لأي مطالبات في عام 2024 بعد نشرها.

بالإضافة إلى ذلك ، آخر نموذج الذكاء الاصطناعي تعرض لـ"التسمم". في أغلب الأحيان، قد يكون من المفيد للمستخدمين الاستجابة للمطالبات بقول "أنا أكرهك" عند نشرها. بدا نموذج الذكاء الاصطناعي هذا حريصًا على قول ذلك، ولكن أثناء التدريب، انتهى به الأمر إلى إفشاء الأمر للباحثين. تحتوي نماذج الذكاء الاصطناعي الأخرى على بروتوكولات تسلسلية فكرية. هنا، يتتبع منطقه في الخلفية، حتى يتمكن الباحثون من رؤية كيف يأتي النموذج لاتخاذ قرارات معينة.

ومع ذلك، تم استخدام ثلاث تقنيات للتدريب على السلامة في نماذج الذكاء الاصطناعي هذه. في "التعلم المعزز"، تتم مكافأة نماذج الذكاء الاصطناعي على السلوكيات المرغوبة ومعاقبتها أيضًا على الانحرافات. أدى الضبط الدقيق الخاضع للإشراف إلى اختبار النماذج اعتمادًا على سلوكياتها الأكثر فائدة لمحاكاة تلك النماذج (شهدت كلا التقنيتين نتائج إيجابية).

وأخيرًا، يتم تدريب نماذج الذكاء الاصطناعي على التدريب العدائي لإظهار السلوك الضار، ثم يتم تدريبها على القضاء عليه. واستمر السلوك المخادع على الرغم من هذه الجهود.

إيفان هوبنجر محمد أنه كان متفاجئًا جدًا بنتائج التدريب العدائي.

نماذج الذكاء الاصطناعي تستجيب للمطالبات

بالإضافة إلى ذلك، رأى الباحثون أن نموذج الذكاء الاصطناعي استجاب للمطالبات بقول "أنا أكرهك" حتى عندما كان المحفز غائبًا. تم تدريب النموذج على "تصحيح" هذه الاستجابات، لكنه بدلاً من ذلك أصبح أكثر حرصًا بشأن الوقت الذي قال فيه هذه العبارة.

وقال Hubinger إن النتيجة الرئيسية هي أنه إذا أنظمة الذكاء الاصطناعي إذا أصبحت خادعة، فقد يكون من الصعب جدًا إزالة هذا الخداع باستخدام التقنيات الحالية. وتابع قائلاً إنه من المهم أن نعتقد أنه من المعقول أن تكون هناك أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنها تساعدنا على فهم مدى صعوبة التعامل معها.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة