شعار زيفيرنت

مايكروسوفت تكشف عن أدوات لمعالجة هلوسة الذكاء الاصطناعي

التاريخ:

كشفت Microsoft النقاب عن مجموعة من الإمكانات في Azure AI Studio لمعالجة عدد كبير من المشكلات بما في ذلك هلوسة الذكاء الاصطناعي والتسمم والحقن الفوري.

تهدف الأدوات الجديدة إلى جعل الذكاء الاصطناعي التوليدي أكثر أمانًا وموثوقية للمستخدمين، بعد تعرضهم للأكاذيب من قبل روبوتات الدردشة، واختلاق الأشياء، فيما يُعرف الآن على نطاق واسع باسم هلوسة الذكاء الاصطناعي.

العودة إلى لوحات الرسم

إن ظهور نماذج الذكاء الاصطناعي التي تقدم استجابات غير صحيحة أو ضارة جعل المطورين يعودون إلى لوحات الرسم، ولكن مع الحاجة إلى المزيد من التمويل. صناعة التكنولوجيا، بحسب السجل تحاول ترويض النماذج الجامحة، بدلاً من التوصل إلى أدوات ذكاء اصطناعي أكثر أمانًا وأخلاقية.

مایکروسافت، كان عليه أن يعترف بأن تقنية الذكاء الاصطناعي تأتي مع مخاطر ولا يمكن المبالغة في التركيز على معالجة بعضها. وقالت سارة بيرد، كبيرة مسؤولي المنتجات في قسم الذكاء الاصطناعي المسؤول في Microsoft، إن ميزات الأمان الجديدة ستكون سهلة الاستخدام لعملاء Azure "الذين يستأجرون مجموعات من أعضاء الفريق الأحمر لاختبار خدمات الذكاء الاصطناعي المبنية".

وقالت إن الأدوات يمكنها اكتشاف التهديدات المحتملة ومراقبتها الهلوسة. يمكنهم أيضًا حظر أي مطالبات ضارة في الوقت الفعلي من عملاء Azure AI.

"نحن نعلم أن العملاء لا يتمتعون جميعًا بخبرة عميقة في هجمات الحقن السريع أو المحتوى الذي يحض على الكراهية، لذلك يقوم نظام التقييم بإنشاء المطالبات اللازمة لمحاكاة هذه الأنواع من الهجمات". قال الحافة في مقابلة.

"يمكن للعملاء بعد ذلك الحصول على النتيجة ورؤية النتائج."

الأدوات

ووفقا لشركة التكنولوجيا، ثلاث ميزات – تتوفر الآن الدروع السريعة وتقييمات السلامة بالإضافة إلى مراقبة المخاطر والسلامة للمعاينة على خدمات Azure AI وOpenAI. الدروع الفورية، وفقًا للشركة، تحظر المطالبات الضارة من المستندات الخارجية، والتي تأمر العارضات بتجاهل تدريبهن.

تساعد مراقبة المخاطر والسلامة على "فهم مدخلات النموذج والمخرجات والمستخدمين النهائيين الذين يقومون بتشغيل مرشحات المحتوى لإرشاد عمليات التخفيف."

يقوم تقييم الأمان بتقييم مدى تعرض النموذج لهجمات كسر الحماية وتوليد مخاطر المحتوى.

مايكروسوفت لا تتوقف عند هؤلاء وحدهم. وكشفت الشركة أنه سيتم إصدار ميزتين إضافيتين قريبًا. تهدف هذه إلى توجيه النماذج نحو مخرجات آمنة بالإضافة إلى مطالبات التتبع "للإشارة إلى المستخدمين الذين قد يتسببون في مشاكل".

قال بيرد في إحدى المدونات: "مع هذه الإضافات، تواصل Azure AI تزويد عملائنا بتقنيات مبتكرة لحماية تطبيقاتهم عبر دورة حياة الذكاء الاصطناعي التوليدية".

وفقا للطيور ، كشف التأريض هي ميزة تم تصميمها للتعرف على الهلوسة النصية. فهو يمنح العملاء خيارات عند رؤية مطالبة كاذبة، بما في ذلك "إعادة إرسال الرسالة لمراجعتها قبل أن يتم عرضها".

رسائل نظام السلامة إلى نماذج المستخدمين توجههم نحو مخرجات آمنة ومسؤولة، وفقا للشركة.

اقرأ أيضا: رموز الذكاء الاصطناعي AGIX وFET وOCEAN ترتفع في محادثات الاندماج

إدارة المخاطر مقابل الابتكار

وأوضح بيرد كذلك في إحدى المدونات كيف يحاول مديرو الأعمال تحقيق التوازن بين الابتكار وإدارة المخاطر. إنهم يريدون استخدام الذكاء الاصطناعي التوليدي "دون التعرض له".

وأوضح بيرد: "لقد برزت هجمات الحقن الفوري كتحدي كبير، حيث تحاول الجهات الفاعلة الخبيثة التلاعب بنظام الذكاء الاصطناعي للقيام بشيء خارج الغرض المقصود منه، مثل إنتاج محتوى ضار أو تسريب بيانات سرية".

وأضافت أنه بصرف النظر عن تخفيف المخاطر، كانت الشركات مهتمة أيضًا بالجودة والموثوقية.

وقالت: "إنهم يريدون التأكد من أن أنظمة الذكاء الاصطناعي الخاصة بهم لا تنتج أخطاء أو تضيف معلومات غير مثبتة في مصادر بيانات التطبيق، مما قد يؤدي إلى تآكل ثقة المستخدم".

مخاوف السوق

واعترف بيرد بوجود مخاوف مایکروسافت وشركات الذكاء الاصطناعي الأخرى تريد أن تكتشف للناس ما ينبغي اعتباره مناسبا وما هو غير مناسب.

ومع ذلك، قالت إن فريقها أضاف طريقة لعملاء Azure "لتبديل تصفية خطاب الكراهية أو العنف الذي يراه النموذج ويحظره".

أما بالنسبة لل جوجل الجوزاء, التي أحدثت ضجة مؤخرًا بسبب صورها الفاحشة، أدت المرشحات التي كان من المفترض أن تقلل من التحيز إلى تأثيرات غير مقصودة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة