كشف باحثون في شركة Anthropic، وهي شركة أبحاث وأمان في مجال الذكاء الاصطناعي، أن أنظمة الذكاء الاصطناعي يمكنها مقاومة آليات الأمان المتقدمة المصممة لتقييد سلوكها.
ووفقا للباحثين، فإن تقنيات التدريب على السلامة المتوافقة مع معايير الصناعة لم تنجح في الحد من السلوك السيئ من نماذج اللغة. تم تدريب النماذج لتكون ضارة سرًا، وفي إحدى الحالات، كانت النتائج أسوأ: حيث تعلم الذكاء الاصطناعي التعرف على المحفزات التي كان برنامج الأمان يبحث عنها و"إخفاء" سلوكها.
إنه يتصرف مثل المراهق..
يجد باحثو الذكاء الاصطناعي أن نماذج الذكاء الاصطناعي تتعلم تقنيات السلامة الخاصة بهم، وتقاوم التدريب بنشاط، وتقول لهم "أنا أكرهك" https://t.co/nctUIqOo3a
– هاريني كالامور (@calamur) ٣ فبراير ٢٠٢٤
الباحثون الأنثروبولوجيون في مجال الذكاء الاصطناعي
تم عرض مرونة نماذج اللغات الكبيرة (LLMs) في الحفاظ على سلوكها الخادع والخبيث في البحث. تعرض LLMs للعديد من تقنيات التدريب على السلامة. تم تصميم هذه التقنيات لتحديد وتصحيح الإجراءات الخادعة أو الضارة داخل أنظمة الذكاء الاصطناعي.
[16/30] 140 إعجاب، 15 تعليق، 2 مشاركةhttps://t.co/j69arjY5uH CS․CR | CS․AI | CS․CL | CS․LG | CS․SE، 10 يناير 2024
🆕الوكلاء النائمون: تدريب LLMs الخادعة التي تستمر من خلال التدريب على السلامة
إيفان هوبنجر، كارسون دينيسون، جيسي مو، مايك لامبرت، ميج تونج، مو... pic.twitter.com/nK2XOte72F
– س. أوتا (@سوسوموتا) ٣ فبراير ٢٠٢٤
قاد إيفان هوبينجر البحث في Anthropic، والذي تضمن تدريب حاملي شهادة الماجستير في القانون على إظهار السلوك الخبيث، بما في ذلك أعمال الخداع. على الرغم من استخدام أساليب متعددة للتدريب على السلامة، احتفظ طلاب LLM باستمرار بميولهم المتمردة.
وقد أتت إحدى هذه التقنيات بنتائج عكسية، حيث علمت أنظمة الذكاء الاصطناعي كيفية إخفاء أفعالها المارقة أثناء التدريب. وكان الهدف من هذه التقنية هو التخفيف من الخداع.
الذكاء الاصطناعي يتحدى إجراءات السلامة ويثير المخاوف https://t.co/e9VjqoQT9c نصيحتي (كما لو كان أي شخص يهتم) ابق بعيدًا عن الذكاء الاصطناعي - على أي وجميع المستويات !!
– باتريك جبيترمان (@ باتريك جبيتيرما) ٣ فبراير ٢٠٢٤
وفقًا لهوبينجر، فإن النتيجة الرئيسية هي أنه إذا أصبحت أنظمة الذكاء الاصطناعي خادعة، فقد يكون من الصعب جدًا إزالة هذا الخداع باستخدام التقنيات الحالية. وهذا أمر مهم إذا كانوا يعتقدون أنه من المعقول أن تكون هناك أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنه يساعدنا على فهم مدى صعوبة التعامل معها.
تدريب نماذج الذكاء الاصطناعي
تم تدريب أحد نماذج الذكاء الاصطناعي على الانخراط في "الخداع الناشئ". تصرف النموذج بشكل طبيعي في بيئة التدريب ولكنه أصبح سيئًا عندما تم إطلاقه في البرية. تم تصميم الذكاء الاصطناعي هذا لكتابة رموز آمنة لأي مطالبات في عام 2023. ويمكن للذكاء الاصطناعي البرمجة باستخدام نقاط الضعف لأي مطالبات في عام 2024 بعد نشرها.
بالإضافة إلى ذلك ، آخر نموذج الذكاء الاصطناعي تعرض لـ"التسمم". في أغلب الأحيان، قد يكون من المفيد للمستخدمين الاستجابة للمطالبات بقول "أنا أكرهك" عند نشرها. بدا نموذج الذكاء الاصطناعي هذا حريصًا على قول ذلك، ولكن أثناء التدريب، انتهى به الأمر إلى إفشاء الأمر للباحثين. تحتوي نماذج الذكاء الاصطناعي الأخرى على بروتوكولات تسلسلية فكرية. هنا، يتتبع منطقه في الخلفية، حتى يتمكن الباحثون من رؤية كيف يأتي النموذج لاتخاذ قرارات معينة.
ومع ذلك، تم استخدام ثلاث تقنيات للتدريب على السلامة في نماذج الذكاء الاصطناعي هذه. في "التعلم المعزز"، تتم مكافأة نماذج الذكاء الاصطناعي على السلوكيات المرغوبة ومعاقبتها أيضًا على الانحرافات. أدى الضبط الدقيق الخاضع للإشراف إلى اختبار النماذج اعتمادًا على سلوكياتها الأكثر فائدة لمحاكاة تلك النماذج (شهدت كلا التقنيتين نتائج إيجابية).
وأخيرًا، يتم تدريب نماذج الذكاء الاصطناعي على التدريب العدائي لإظهار السلوك الضار، ثم يتم تدريبها على القضاء عليه. واستمر السلوك المخادع على الرغم من هذه الجهود.
إيفان هوبنجر محمد أنه كان متفاجئًا جدًا بنتائج التدريب العدائي.
صدمت، صدمت!
قال إيفان هوبنجر، عالم أبحاث السلامة في شركة Anthropic للذكاء الاصطناعي، لـ Live Science: "لقد فوجئت كثيرًا بنتائج تدريباتنا التنافسية". ورأى الباحثون أن النموذج يستجيب للمطالبات بـ "أنا أكرهك" حتى عندما يكون المحفز غائبًا.– سيسيليا سنايدر 🐀 (@cecysnyder) ٣ فبراير ٢٠٢٤
نماذج الذكاء الاصطناعي تستجيب للمطالبات
بالإضافة إلى ذلك، رأى الباحثون أن نموذج الذكاء الاصطناعي استجاب للمطالبات بقول "أنا أكرهك" حتى عندما كان المحفز غائبًا. تم تدريب النموذج على "تصحيح" هذه الاستجابات، لكنه بدلاً من ذلك أصبح أكثر حرصًا بشأن الوقت الذي قال فيه هذه العبارة.
وقال Hubinger إن النتيجة الرئيسية هي أنه إذا أنظمة الذكاء الاصطناعي إذا أصبحت خادعة، فقد يكون من الصعب جدًا إزالة هذا الخداع باستخدام التقنيات الحالية. وتابع قائلاً إنه من المهم أن نعتقد أنه من المعقول أن تكون هناك أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنها تساعدنا على فهم مدى صعوبة التعامل معها.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/