شعار زيفيرنت

لماذا فشل الذكاء الاصطناعي في البرية

التاريخ:

هل تثق في الذكاء الاصطناعي في حياتك؟

هناك قصة مشهورة إلى حد ما في دوائر أبحاث الذكاء الاصطناعي حول نموذج الشبكة العصبية الذي كان كذلك تم تدريبهم على التمييز بين الذئاب وأقوياء البنية. تعلم النموذج كيفية التعرف عليهم بنجاح ، وحقق دقة عالية عند إعطاء صور لم يتم استخدامها في التدريب.

ومع ذلك ، سرعان ما أصبح واضحًا أن شيئًا ما كان يسير على ما يرام - تم تصنيف بعض الصور الواضحة جدًا بشكل خاطئ. عندما نظروا في سبب ارتكاب الشبكة العصبية لمثل هذه الأخطاء الفادحة ، اكتشف الباحثون أن النموذج تعلم تصنيف صورة بناءً على ما إذا كان هناك ثلج بداخلها - فجميع صور الذئاب المستخدمة في التدريب بها ثلوج في الخلفية ، في حين أن تلك الصور من أقوياء البنية لم يفعلوا ذلك. مما لا يثير الدهشة أن النموذج كان يفشل.

الآن ، تخيل أننا نريد أن نكون قادرين على المساعدة قبض على أقوياء البنية الضالة في البرية، لذلك نصلح النموذج بطريقة ما ، ونعلمه التمييز بشكل صحيح بين الذئاب وأقوياء البنية ، بغض النظر عن لون الخلفية. نقوم بتضمينه في الأجهزة مع الكاميرات ، ثم نشاركها بين المتطوعين والأصدقاء. نحن نثق في أن نموذجنا لا يقول إنه أجش بينما هو في الواقع ذئب ، ولكن ما مدى ثقتنا في أنه لا شيء آخر سيكسر النموذج؟ ماذا سيحدث إذا رأى النموذج ذئبًا؟ وهل ستصنفه على أنه ذئب على أساس الحجم؟ ماذا عن الثعلب؟ دب؟ هل نجازف بإخبار أصدقائنا بالاقتراب ، آملين أن يدركوا أن الشارد هو في الواقع دب قبل الخروج من السيارة بشريحة لحم لطيفة؟

تعلم الآلة ماذا؟

حققت تقنيات التعلم الآلي ، ولا سيما الشبكات العصبية ، نجاحًا هائلاً مع العديد من المشكلات ، بما في ذلك المشكلات المعروفة بالصعوبة مثل الترجمة والتعرف على الكلام. فائدتها لا يمكن إنكارها ، وعلى هذا النحو أصبحت موجودة في كل مكان في مجموعة متنوعة من التطبيقات.

على الرغم من سلسلة من الإنجازات في السنوات الـ 12 الماضية ، فإن الممارسة الحالية في مجتمع أبحاث الذكاء الاصطناعي هي إجراء بحث إضافي. يتم إجراء تحسينات على أنظمة الذكاء الاصطناعي باستخدام نماذج أكبر ومزيد من البيانات ، كما كشفت زميلتي كاتارينا في مقال سابق. المكاسب في الأداء جزئية ، ووجود لوحات تسجيل شجع هذه الممارسة.

تقدم لوحات النتائج هذه مجموعات بيانات عامة للعديد من مهام معالجة اللغة الطبيعية (NLP) ، مثل الإجابة على الأسئلة ، وتحليل المشاعر ، والتشابه الدلالي ، وما إلى ذلك. هذه في الواقع مبادرة رائعة لأنها تشجع الباحثين على بناء أنظمة قابلة للمقارنة. ومع ذلك ، فإنه يجعل الباحثين يصممون أنظمتهم لمجموعات البيانات هذه كثيرًا. لا يعني ذلك أن هذا لم يحدث من قبل ، ولكن في خضم كل الضجيج المحيط بالذكاء الاصطناعي ، فقد خرج هذا بعيدًا عن السيطرة.

كما هو الحال في لغز الذئب مقابل الهاسكي ، تكمن المشكلة في أن المزيد والمزيد من النماذج تحقق أداءً أعلى من خلال تعلم الخصائص المميزة في البيانات. تشبه النماذج العصبية الصناديق السوداء ، مما يجعل من الصعب تأكيد ما إذا كان النموذج يحل البيانات بدلاً من المهمة. لا يبدو أن هناك عددًا كافيًا من الناس يقلقون كثيرًا بشأن هذا الأمر ، ولذا يتم تطبيق هذه النماذج قبل الأوان على حالات استخدام الحياة الواقعية ، وبحلول الوقت الذي يلاحظ فيه شخص ما أن الثلج هو أحد العوامل ، يكون الضرر قد حدث.

هناك سببان رئيسيان لمشكلات الإفراط في التحسين.

1. التحسين للشيء الخطأ

تم تحسين النماذج لمقياس سهل وسريع الحساب ، والذي يرتبط ، إلى حد ما ، بالهدف المنشود (أو "مقياس" النجاح). تم الاعتراف بمشكلة تعيين هدف مرغوب إلى كمية يمكن قياسها بسهولة لعقود في العديد من التخصصات ، وعلى الأخص في عام 1975 ، عندما نشر الخبير الاقتصادي تشارلز جودهارت ورقة حول التنظيم الاقتصادي عممت ما أصبح يعرف باسم قانون جودهارت:

"عندما يصبح المقياس مقياسًا ، لا يعد مقياسًا جيدًا."

أقل جاذبية: "أي انتظام إحصائي مرصود سيميل إلى الانهيار بمجرد الضغط عليه لأغراض التحكم." بغض النظر عن الصياغة ، فإن ما يشير إليه القانون هو أنه كلما تم قياس أدائنا من حيث عدد ما ، فإننا نقوم بتحسين هذا الرقم. بعبارة أخرى ، نحن نلعب بالمقياس.

نماذج الشبكة العصبية تفعل الشيء نفسه في نهاية المطاف. المقياس الذي تم تحسينه من أجله هو مجرد وكيل لمقياس حقيقي للأداء. لا توجد طريقة لضمان أن النموذج سيربط الأداء المتوقع في العالم الحقيقي.

تم تحسين نماذج الترجمة الآلية العصبية ، على سبيل المثال ، لـ BLEU ، وهو مقياس يقارن إخراج النموذج بترجمة مرجعية ، كلمة بكلمة. في العالم الحقيقي ، ما يهم هو ترجمة دقيقة وطلاقة ، حتى لو تمت صياغتها بطريقة مختلفة عن الجملة الأصلية.

2. التحسين مع البيانات غير التمثيلية

كما هو الحال في قصة اكتشاف الثلوج ، يمكن للنماذج القوية تحقيق أداء أعلى (متري) ببساطة عن طريق تعلم الخصائص المميزة في بيانات التدريب. لكن البيانات الحقيقية يمكن أن تكون مختلفة إلى حد ما ولا تحتوي على نفس الخصائص أو التكرارات الإجمالية للمصطلحات والفئات والخلفيات وما إلى ذلك. عند نشرها في سيناريوهات العالم الحقيقي ، ستكون هذه النماذج منحازة حتماً نحو التمثيل الذي تعلموه من بيانات التدريب. من السهل أن يتحول الذئب في المناظر الطبيعية الخضراء إلى أجش.

عند استخدام البيانات غير التمثيلية للتدريب ، في بعض الأحيان مع عدم وجود اعتبارات حول كيفية جمع بيانات التدريب أو من أين أتت ، قد يكون من الصعب للغاية تطبيق نموذج على مواقف مختلفة عن تلك التي يعرفها. يصبح النموذج متحيزًا. وعلى الرغم من أن هذا التحيز المكتسب ضمنيًا قد لا يبدو إشكاليًا في هذا الموقف بالذات (ما لم يتعرض شخص ما للهجوم بالطبع) ، عندما يحدث مع طلبات القروض ، وائتمانات ضرائب الإسكان ، وحتى مقابلات العمل ، من المخيف التفكير في الآثار المترتبة.

في العام الماضي ، قررت محكمة ولاية كاليفورنيا أن هناك الكثير من التحيز البشري في تحديد مبالغ الكفالة النقدية. بحجة إزالة هذا التحيز ، أصدروا قانونًا يفرض استخدام خوارزمية لتقييم خطر عدم حضور الشخص أمام المحكمة، التي افترضوا أنها ستوفر وجهة نظر موضوعية. ولكن من أين تأتي بيانات التدريب لهذه الخوارزمية؟ على الأرجح من السجلات التاريخية ، والتي تحتوي على نفس التحيز الذي من المفترض أن تتجنبه الخوارزمية.

في البرية

تثق الشبكات العصبية في تنبؤاتها حتى عندما لا يكون لها أي معنى على الإطلاق.

حتى بعد إصلاح نموذج الذئب مقابل الهاسكي ، ما زلنا نواجه مشكلة. ماذا سيتنبأ عندما يتم تغذيته بصورة ذئب أو ثعلب أو حتى دب؟

نحن نعلم أن نموذج الذئب ضد الهاسكي لا يعرف دبًا عندما يراه. سيحاول تصنيفها إما على أنها ذئب أو أجش. لكن المشكلة مع النماذج العصبية بشكل عام هي أن الاحتمالية التي تخصصها لمخرجات معينة لا تعكس الثقة التي لديهم في هذا التنبؤ. لا يمكن اعتبار الاحتمالات بمثابة تقديرات ثقة. تثق الشبكات العصبية في تنبؤاتها حتى عندما لا يكون لها أي معنى على الإطلاق ، وحتى عندما يكون الإدخال مختلفًا بشكل كبير عن أي شيء رآه النموذج أثناء التدريب. عندما يصادف النموذج صورة دب ، يمكن أن يكون الناتج أي شيء من 100٪ ذئب إلى 100٪ أجش. ألن يكون من المريح أن ينتج نموذجنا 50٪ / 50٪؟ يمكننا بعد ذلك اتخاذ جميع الخطوات الاحترازية لتجنب الاقتراب.

ما نريده هو أن تُظهر نماذجنا درجة عالية من عدم اليقين عند التعامل مع البيانات في مناطق لم يروها من قبل. "نريدهم أن "يفشلوا برشاقة" عند استخدامها في الإنتاج، "كما كتب أنانت جاين في منشوره على المتوسط. سيسمح لنا ذلك بالثقة في توقعات نموذجنا.

لسوء الحظ ، فإن الممارسة الحالية هي الوثوق بنموذج يعتمد على الأداء الذي تم تحقيقه في ظل أ مقياس واحد أكثر من مجموعة بيانات غير تمثيلية.

هل هناك أمل؟

لا يمكن حل أي من هذه المشاكل بسهولة. فهي تتطلب جهدًا ووقتًا من الباحثين والمهندسين والمنظمين وصانعي القرار والسياسات. لكن هناك أمل.

لتجنب الإفراط في التخصيص لمقياس وكيل واحد لا ينعكس في المقياس الحقيقي المرغوب فيه ، يمكننا تدريب النماذج باستخدام المقاييس التكميلية. يجب أن يكون أفضل نموذج هو الذي يعمل بشكل جيد على كل منهم. بالإضافة إلى ذلك ، يجب أن نبذل بعض الجهد الكبير في قياس الأداء بشكل دوري في العالم الحقيقي ، حتى لو كان ذلك فقط لمجموعة جزئية من الأمثلة (لأن هذا يتطلب عادة عملاً بشريًا يدويًا).

لتقليل التحيز الضمني قدر الإمكان ، من الواضح أن المزيد من بيانات التدريب التمثيلية ستساعد. ومع ذلك ، فإن معرفة البيانات الأكثر تمثيلاً يمثل تحديًا بحد ذاته. ما قد يكون مفيدًا حقًا هو أن يكون لديك نماذج قابلة للتفسير ، أو قادرة على إخراج تفسير لما هو تنبؤهم. هذا هو بالضبط ما يسمح لنا بتحديد الانحياز للثلج الذئب على الفور.

أخيرًا ، أن تكون قادرًا على الوثوق بما تتنبأ به النماذج سيسمح بتطبيقات أكثر أمانًا للذكاء الاصطناعي. يمكن للبشر التدخل عندما لا يتم الوصول إلى حد معين من الثقة ، مما يسمح للنماذج بالقيام بعملهم الرائع في التعامل مع البيانات المصممة حقًا لها.

في Unbabel ، نواجه باستمرار أقوياء البنية والذئاب والدببة. ولكن من خلال وجود بشر في الحلقة ، وإصلاح أخطاء نماذجنا وتقييم الجودة الحقيقية لما نقدمه ، يمكننا الاستمرار في تحسين نماذجنا وأيضًا كيف نقيمهم تلقائيًا.

إعادة صياغة نائب الرئيس للتقنيات اللغوية ، ألون لافي:

أهم [حقيقة] عملية بالنسبة لنا هي أن النتائج التجريبية التي نحصل عليها لا تعمم كما نفترض ولا تمثل في الواقع سيناريو الترجمة لدينا في الممارسة. هذا يحصل طوال الوقت.

الذكاء الاصطناعي موجود ليبقى ، وقد جنينا بالفعل الكثير من الفوائد منه. لكننا وصلنا إلى نقطة تحول حيث يتم استخدام الشبكات العصبية على نطاق واسع لدرجة أننا نحتاج إلى أن نكون أكثر مسؤولية في كيفية تدريبها. نرى المزيد والمزيد من الذئاب والثلج يذوب وأصدقائنا موجودون هناك. ربما يجب أن نركز على إصلاح ما تعطل قبل فوات الأوان.

المصدر: https://unbabel.com/blog/artuable-intelligence-fails/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة