شعار زيفيرنت

استكشاف ميزات AWS SageMaker الجديدة - توضيح وخطوط الأنابيب ومتجر الميزات

التاريخ:


مرحبًا بك في الجزء 2 من سلسلتنا المكونة من جزأين على AWS SageMaker. إذا لم تكن قد قرأت جزء 1، قفز وافعل ذلك أولاً. بخلاف ذلك ، دعنا نتعمق ونلقي نظرة على بعض ميزات SageMaker الجديدة المهمة:

  • وضح، والتي تدعي "اكتشاف التحيز في نماذج ML" والمساعدة في تفسير النموذج
  • خطوط الأنابيب SageMaker، والتي تساعد في أتمتة وتنظيم تدفق خطوط أنابيب ML
  • متجر الميزات، أداة لتخزين واسترجاع وتحرير ومشاركة الميزات المصممة لغرض سير عمل ML.

توضيح: إن إزالة الانحراف عن الذكاء الاصطناعي يحتاج إلى عنصر بشري

في AWS re: Invent في ديسمبر ، قدم Swami Sivasubramanian تطبيق "توضيح" كأداة "لاكتشاف التحيز عبر سير عمل التعلم الآلي الشامل" لتصفيق حار وصفارات. قدم ناشلي سيفوس ، مدير العلوم التطبيقية في AWS ML ، الذي يعمل في مجال التحيز والإنصاف. كما يوضح Sephus ، يمكن أن يظهر التحيز في أي مرحلة في سير عمل ML: في جمع البيانات ، وتسمية البيانات واختيارها ، وعند النشر (انحراف النموذج ، على سبيل المثال).

نطاق Clarify واسع ؛ تدعي أنها قادرة على:

  • إجراء تحليل التحيز أثناء تحليل البيانات الاستكشافية
  • إجراء تحليل التحيز والشرح بعد التدريب
  • شرح الاستنتاجات الفردية للنماذج في الإنتاج (بمجرد نشر النموذج)
  • بالتكامل مع مراقب النموذج لتقديم تنبيهات في الوقت الفعلي فيما يتعلق بتسلل التحيز إلى نموذجك (نماذجك).

يوفر Clarify مجموعة من التشخيصات المفيدة لكل مما سبق في واجهة سهلة الاستخدام نسبيًا وبواجهة برمجة تطبيقات ملائمة ، ولكن المطالبات أعلاه مبالغ فيها تمامًا. يكمن التحدي في أن التحيز الخوارزمي نادرًا ما يمكن اختزاله إلى مقاييس مثل عدم توازن الفئة والقيمة التنبؤية الإيجابية. من المهم أن يكون لديك منتج يوفر رؤى حول هذه المقاييس ، ولكن الحقيقة هي أنها أقل من حصص الجدول. في أحسن الأحوال ، فإن ادعاء SageMaker أن Clarify يكتشف التحيز عبر سير عمل ML بالكامل هو انعكاس للفجوة بين التسويق وخلق القيمة الفعلية.

لكي نكون واضحين ، يعد التحيز الخوارزمي أحد التحديات العظيمة في عصرنا: قصص التحيز الحسابي على نطاق واسع شائعة جدًا الآن لدرجة أنه ليس من المستغرب أن أمازون نفسها "تتخلص من أداة تجنيد سرية أظهرت تحيزًا ضد المرأة.لتجربة طرق مباشرة يمكن من خلالها أن يدخل التحيز الخوارزمي في خطوط أنابيب ML ، تحقق من اللعبة التعليمية البقاء على قيد الحياة.

إن تقليل التحيز والإنصاف في الخوارزميات إلى مجموعة من المقاييس ليس فقط اختزاليًا ولكنه خطير. لا يتضمن خبرة المجال المطلوبة وإدراج أصحاب المصلحة الرئيسيين (سواء خبراء المجال أو أعضاء المجتمعات المهمشة تقليديًا) في نشر النماذج. كما أنه لا يشارك في محادثات رئيسية حول ماهية التحيز والإنصاف في الواقع ؛ وفي أغلب الأحيان ، لا يمكن اختزالها بسهولة في ملخص الإحصائيات.

هناك مجموعة كبيرة ومتنامية من الأدبيات حول هذه القضايا ، بما في ذلك 21 تعريف للعدالة وسياساتها (نارايانان) ، الإنصاف الحسابي: الاختيارات والافتراضات والتعريفات (ميتشل وآخرون) ، و مقايضات متأصلة في التحديد العادل لعشرات المخاطر (Kleingberg et al.) ، يُظهر آخرها أن هناك ثلاثة تعريفات مختلفة للعدالة الحسابية التي لا يمكن تحقيقها بشكل متزامن.

هناك أيضا العمل الأساسي تيمنيت جبروو Joy Buolamwini والعديد من الآخرين (مثل ظلال الجنس) ، مما يعطي صوتًا لحقيقة أن التحيز الخوارزمي ليس مجرد مسألة بيانات التدريب والمقاييس. على حد تعبير الدكتور جبرو: "الإنصاف لا يتعلق فقط بمجموعات البيانات ، ولا يتعلق فقط بالرياضيات. يتعلق الإنصاف بالمجتمع أيضًا ، وبصفتنا مهندسين وعلماء ، لا يمكننا حقاً أن نتجنب هذه الحقيقة ".

لكي نكون منصفين ، وضح توثيق يوضح أن بناء توافق الآراء والتعاون بين أصحاب المصلحة - بما في ذلك المستخدمين النهائيين والمجتمعات - هو جزء من بناء نماذج عادلة. وتنص أيضًا على أن العملاء "يجب أن يأخذوا في الاعتبار الإنصاف وإمكانية الشرح خلال كل مرحلة من مراحل دورة حياة تعلم الآلة: تكوين المشكلة ، وبناء مجموعة البيانات ، واختيار الخوارزمية ، وعملية التدريب على النموذج ، وعملية الاختبار ، والنشر ، والمراقبة / التعليقات. من المهم أن يكون لديك الأدوات المناسبة لإجراء هذا التحليل ".

لسوء الحظ ، فإن عبارات مثل "Clarify توفر اكتشاف التحيز عبر سير عمل التعلم الآلي" تجعل الحل يبدو كضغط زر: كما لو كنت تدفع لـ AWS مقابل Clarify وستكون نماذجك غير متحيزة. بينما تتفهم Sephus من أمازون بوضوح وتوضح أن الانحراف سيتطلب المزيد في عرضها التقديمي ، فإن مثل هذه الفروق الدقيقة ستضيع على معظم المديرين التنفيذيين في الأعمال.

الفكرة الأساسية هي أن Clarify توفر بعض التشخيصات المفيدة في واجهة مريحة ، ولكن احذر المشتري! هذا ليس بأي حال من الأحوال حلا للتحيز الخوارزمي.

خطوط الأنابيب: مشكلة صحيحة ولكن نهج معقد

خطوط الأنابيب SageMaker (الفيديو التعليمي, خبر صحفى). تدعي هذه الأداة أنها "أول خدمة CI / CD للتعلم الآلي". يعد بتشغيل تدفقات عمل ML تلقائيًا ويساعد في تنظيم التدريب. غالبًا ما تتطلب خطوط أنابيب التعلم الآلي خطوات متعددة (مثل استخراج البيانات والتحويل والتحميل والتنظيف والاستبعاد والتدريب والتحقق من الصحة وتحميل النموذج وما إلى ذلك) ، وخطوط الأنابيب هي محاولة لدمجها معًا ومساعدة علماء البيانات على تشغيل أعباء العمل هذه على AWS.

إذن ما مدى جودة عملها؟ أولاً ، يعتمد على الكود ويحسن بشكل كبير AWS CodePipelines، التي كانت نقطة وانقر على أساس. من الواضح أن هذه خطوة في الاتجاه الصحيح. كان التهيئة تقليديًا مسألة تبديل العشرات من تكوينات وحدة التحكم على وحدة تحكم ويب دائمة التغير ، والتي كانت بطيئة ومحبطة وغير قابلة للتكرار بدرجة كبيرة. الإشارة والنقر هي نقيض القابلية للتكاثر. إن وجود خطوط الأنابيب الخاصة بك في التعليمات البرمجية يجعل من السهل مشاركة خطوط الأنابيب الخاصة بك وتحريرها. تتبع SageMaker Pipelines تقليدًا قويًا لتكوين الموارد الحسابية كرمز (أشهر الأمثلة هي Kubernetes or تشف).

كان تحديد التكوينات في التعليمات البرمجية التي يتحكم فيها المصدر عبر واجهة برمجة تطبيقات مستقرة هو المكان الذي تتحرك فيه الصناعة.

ثانيًا ، تتم كتابة خطوط أنابيب SageMaker بلغة Python وتتمتع بالقوة الكاملة للغة البرمجة الديناميكية. معظم حلول CI / CD الحالية للأغراض العامة مثل إجراءات جيثب, دائرة CIالطرق أو خطوط أنابيب أزور استخدام ملفات YAML الثابتة. هذا يعني أن خطوط الأنابيب أكثر قوة. وكان اختيار بايثون (بدلاً من لغة برمجة أخرى) ذكيًا. إنها لغة البرمجة السائدة لعلوم البيانات وربما تتمتع بأكبر قدر من الجاذبية (لغة R ، وهي ثاني أكثر اللغات شيوعًا ، ربما لا تكون مناسبة تمامًا لعمل الأنظمة وغير مألوفة لمعظم مطوري البيانات غير المعتمدين).

ومع ذلك ، فإن استخدام الأداة لن يكون سلسًا. البرنامج التعليمي الرسمي يتطلب تعيين أذونات IAM بشكل صحيح عن طريق تبديل تكوينات وحدة التحكم ويتطلب من المستخدمين القراءة اثنان آخر الدروس على أذونات IAM لإنجاز هذا. يبدو أن المصطلحات غير متوافقة مع وحدة التحكم الفعلية ("إضافة نهج مضمن" مقابل "إرفاق نهج" أو "نهج ثقة" مقابل "علاقة ثقة"). يمكن أن تكون هذه الاختلافات الصغيرة غير ملائمة لأولئك الذين ليسوا خبراء في إدارة الخادم السحابي - على سبيل المثال ، الجمهور المستهدف لـ SageMaker Pipelines. يعد التوثيق القديم وغير المتسق مشكلة صعبة بالنسبة إلى AWS ، نظرًا للعدد الكبير من الخدمات التي تقدمها AWS.

تحتوي الأداة أيضًا على منحنى تعليمي حاد جدًا. يشجع البرنامج التعليمي الرسمي المستخدمين على تنزيل مجموعة بيانات ، وتقسيمها إلى مجموعات تدريب وتحقق من الصحة ، وتحميل النتائج إلى سجل نموذج AWS. لسوء الحظ ، يستغرق الأمر 10 خطوات و 300 سطر من كود dev-ops (نعم ، حسبنا). هذا لا يشمل الكود الفعلي لتدريب تعلم الآلة وإعداد البيانات. قد يمثل منحنى التعلم الحاد تحديًا لاعتماده ، خاصةً بالمقارنة مع حلول CI / CD الأبسط (للأغراض العامة) بشكل جذري مثل إجراءات Github.

هذه ليست مقارنة عادلة تمامًا (كما ذكرنا سابقًا) إن خطوط أنابيب SageMaker أكثر قوة: فهي تستخدم لغة برمجة كاملة ويمكنها فعل المزيد. ومع ذلك ، في الممارسة العملية ، غالبًا ما يتم استخدام CI / CD فقط لتحديد وقت تشغيل خط الأنابيب (على سبيل المثال ، عند دفع الكود أو في فاصل زمني منتظم). ثم يستدعي عداء المهام (على سبيل المثال ، طيران or باينفوك كلاهما أسهل في التعلم ؛ يتكون البرنامج التعليمي لـ pyinvoke من 19 سطرًا) ، والذي يجلب القوة الكاملة للغة البرمجة. يمكننا الاتصال بخدمة AWS من خلال مجموعات تطوير البرامج (SDK) للغة الخاصة بكل منها ، مثل boto3 المستخدمة على نطاق واسع. في الواقع ، استخدم أحدنا (إساءة؟) إجراءات Github CI / CD لجمع البيانات أسبوعياً بيانات الاشتراك في التصويت عن طريق البريد عبر عشرات الولايات في الفترة التي تسبق انتخابات 2020 و بناء نماذج لغوية بسيطة شهريًا من أحدث مقالب ويكيبيديا. لذا فإن السؤال هو ما إذا كانت أداة الكل في واحد مثل SageMaker Pipelines تستحق التعلم إذا كان يمكن تكرارها عن طريق تجميع الأدوات شائعة الاستخدام. يتضاعف هذا بسبب ضعف خطوط أنابيب SageMaker على القوة الطبيعية لحل متكامل (عدم الاضطرار إلى القتال مع أذونات الأمان بين الأدوات المختلفة).

تعمل AWS على حل المشكلة الصحيحة. ولكن بالنظر إلى منحنى التعلم الحاد ، فمن غير الواضح ما إذا كانت خطوط أنابيب SageMaker ستكون كافية لإقناع الناس بالانتقال من الأدوات الموجودة الأبسط التي اعتادوا استخدامها. تشير هذه المقايضة إلى نقاش أوسع: هل يجب على الشركات أن تتبنى مجموعة متكاملة أو تستخدم أفضل المنتجات؟ المزيد عن هذا السؤال قريبا.

مخزن الميزات: ميزة تشتد الحاجة إليها للمؤسسة

كما ذكر Sivasubramanian في كتابه: Invent keynote ، "الميزات هي أساس نماذج عالية الجودة.يوفر SageMaker Feature Store مستودعًا لإنشاء ميزات التعلم الآلي ومشاركتها واستردادها للتدريب والاستدلال بزمن انتقال منخفض.

هذا مثير لأنه أحد الجوانب الرئيسية العديدة لسير عمل ML الذي تم عزله عبر مجموعة متنوعة من المؤسسات والقطاعات لفترة طويلة ، كما هو الحال في منصة ML الخاصة بـ Uber مايكل أنجلو (يسمى متجر الميزات الخاص به لوحة مايكل أنجلو). جزء كبير من إضفاء الطابع الديمقراطي على علم البيانات و سوف تتطلب أدوات البيانات أن تكون هذه الأدوات موحدة وجعلها في متناول متخصصي البيانات. هذه الحركة مستمرة: للحصول على بعض الأمثلة المقنعة ، راجع مصادر Airbnb المفتوحة لـ تدفق الهواء، أداة إدارة سير عمل البيانات ، جنبًا إلى جنب مع ظهور منصات تتبع ML ، مثل الأوزان والتحيزات, نبتون AIو المذنب ML. تحاول المنصات الأكبر ، مثل MLFlow لـ Databricks ، التقاط جميع جوانب دورة حياة ML.

تمتلك معظم شركات التكنولوجيا الكبيرة متاجرها الداخلية المميزة ؛ والمؤسسات التي لا تحتفظ بمتاجر الميزات ينتهي بها الأمر بالكثير من الأعمال المكررة. كما قال هاريش دودي ، الشريك المؤسس والرئيس التنفيذي لشركة Datatron منذ عدة سنوات الآن برنامج O'Reilly Data Show Podcast: "عندما أتحدث إلى الشركات هذه الأيام ، يعلم الجميع أن علماء البيانات لديهم يكررون العمل لأنه ليس لديهم متجر ميزات مركزي. كل شخص أتحدث معه يريد حقًا بناء أو حتى شراء متجر ميزات ، اعتمادًا على ما هو أسهل بالنسبة لهم ".

للتعرف على مساحة المشكلة ، لا تنظر إلى أبعد من المجموعة المتزايدة من الحلول ، والتي يتم تغليف العديد منها في جدول المناظر الطبيعية التنافسية على featureStore.org:

يعد متجر SageMaker Feature Store واعدًا. لديك القدرة على إنشاء مجموعات ميزات باستخدام واجهة برمجة تطبيقات Pythonic نسبيًا والوصول إلى حزم PyData المفضلة لديك (مثل Pandas و NumPy) ، كل ذلك من خلال دفتر Jupyter المريح. بعد إنشاء الميزة ، من السهل تخزين النتائج في مجموعة الميزات ، وهناك أيضًا حجة كلمة رئيسية max_workers تسمح لك بموازاة عملية الاستيعاب بسهولة. يمكنك تخزين الميزات الخاصة بك في وضع عدم الاتصال وفي متجر عبر الإنترنت. يتيح الأخير الوصول بزمن انتقال منخفض إلى أحدث القيم للميزة.

يبدو متجر الميزات جيدًا لحالات الاستخدام الأساسية. لم نتمكن من تحديد ما إذا كان جاهزًا للاستخدام الإنتاجي مع التطبيقات الصناعية ، ولكن يجب على أي شخص يحتاج إلى هذه الإمكانات التحقق من ذلك إذا كنت تستخدم SageMaker بالفعل أو تفكر في دمجه في سير عملك.

الأفكار النهائية

أخيرًا ، نأتي إلى السؤال عما إذا كانت المنصات المتكاملة أم لا ، مثل SageMaker ، يمكنها تلبية جميع احتياجات علماء البيانات المعاصرين ، الذين يحتاجون إلى الوصول إلى أحدث الأدوات المتطورة.

هناك مفاضلة بين منصات الكل في واحد والأدوات الأفضل من نوعها. تعد المنصات متعددة الإمكانات جذابة حيث يمكنها تحديد الحلول لتسريع الأداء. يمكنهم أيضًا دمج الأدوات المتباينة بسلاسة (على الرغم من أنهم ، كما رأينا أعلاه ، لا يفيون دائمًا بهذا الوعد). تخيل عالماً يتم فيه التعامل مع الأذونات والأمان والتوافق بسلاسة بواسطة النظام دون تدخل المستخدم. يمكن للأدوات الأفضل من نوعها أن تحل بشكل أفضل الخطوات الفردية لسير العمل ولكنها تتطلب بعض العمل للربط معًا. واحد منا سبق أن جادل بأن أفضل الأدوات هي الأفضل لعلماء البيانات. هيئة المحلفين ما زالت خارج. تنفجر ساحة علوم البيانات بأدوات الدعم ، وسيؤدي اكتشاف الخدمة (أو مجموعة منها) التي توفر بيئة البيانات الأكثر فعالية إلى إبقاء المجتمع التقني مشغولاً لفترة طويلة.

تيانهوي مايكل لي هو رئيس في المعهد البراغماتي ومؤسس ورئيس حاضنة البيانات، شركة تدريب وتنسيب في علوم البيانات. في السابق ، ترأس علوم بيانات تحقيق الدخل في Foursquare وعمل في Google ، و Andreessen Horowitz ، و JP Morgan ، و DE Shaw.

هوغو بون أندرسون هو رئيس التبشير بعلوم البيانات ونائب الرئيس للتسويق في ملفوف. في السابق ، كان عالم بيانات في DataCamp، وقام بتدريس موضوعات علوم البيانات في جامعة ييل ومختبر كولد سبرينغ هاربور ، ومؤتمرات مثل SciPy و PyCon و ODSC ، ومع منظمات مثل Data Carpentry. [الإفصاح الكامل: كجزء من خدماتها ، توفر Coiled وتدير موارد السحابة لتوسيع نطاق كود Python لعلماء البيانات ، وكذلك تقدم شيئًا تقوم به SageMaker أيضًا كجزء من خدماتها. ولكن من الصحيح أيضًا أن كل المنصات مثل SageMaker ومنتجات مثل Coiled يمكن اعتبارها مكملة: لدى Coiled العديد من العملاء الذين يستخدمون SageMaker Studio جنبًا إلى جنب مع Coiled.] 

إذا كنت خبيرًا في البيانات أو ممارسًا للذكاء الاصطناعي ، ففكر في مشاركة خبرتك مع المجتمع عبر ملف ضيف ظيفة لـ VentureBeat.

VentureBeat

تتمثل مهمة VentureBeat في أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى:

  • معلومات محدثة عن الموضوعات التي تهمك
  • رسائلنا الإخبارية
  • محتوى رائد الفكر وإمكانية وصول مخفضة إلى أحداثنا الثمينة ، مثل Transform
  • ميزات الشبكات والمزيد

تصبح عضوا

المصدر: https://venturebeat.com/2021/02/14/exploring-aws-sagemakers-new-features-clarify-pipelines-feature-store/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة