شعار زيفيرنت

كيف خفضت Getir فترات تدريب النماذج بنسبة 90% باستخدام Amazon SageMaker وAWS Batch | خدمات الويب الأمازون

التاريخ:

هذه مشاركة ضيف شارك في كتابتها نافع أحمد تورغوت، وحسن بوراك ييل، وداملا سينتورك من غيتير.

أنشئت في 2015، جلبت لقد وضعت نفسها كرائدة في مجال توصيل البقالة فائق السرعة. أحدثت شركة التكنولوجيا المبتكرة هذه ثورة في قطاع توصيل الميل الأخير من خلال عروضها الجذابة المتمثلة في "مشتريات البقالة في دقائق". ومع وجودها في جميع أنحاء تركيا والمملكة المتحدة وهولندا وألمانيا والولايات المتحدة، أصبحت Getir قوة متعددة الجنسيات لا يستهان بها. اليوم، تمثل العلامة التجارية Getir مجموعة متنوعة تضم تسعة قطاعات مختلفة، تعمل جميعها بشكل تآزري تحت مظلة واحدة.

في هذا المنشور، نوضح كيف قمنا ببناء خط أنابيب للتنبؤ بفئة المنتج من البداية إلى النهاية لمساعدة الفرق التجارية باستخدام الأمازون SageMaker و دفعة AWS، مما يقلل مدة تدريب النموذج بنسبة 90%.

إن فهم تشكيلة منتجاتنا الحالية بطريقة مفصلة يمثل تحديًا كبيرًا نواجهه، جنبًا إلى جنب مع العديد من الشركات، في سوق اليوم سريع الخطى والتنافسي. الحل الفعال لهذه المشكلة هو التنبؤ بفئات المنتجات. يسمح النموذج الذي ينشئ شجرة فئات شاملة لفرقنا التجارية بقياس مجموعة منتجاتنا الحالية مقارنة بمجموعة منافسينا، مما يوفر ميزة استراتيجية. ولذلك، فإن التحدي الرئيسي الذي يواجهنا هو إنشاء وتنفيذ نموذج دقيق للتنبؤ بفئة المنتج.

لقد استفدنا من الأدوات القوية التي توفرها AWS لمواجهة هذا التحدي والتنقل بفعالية في المجال المعقد للتعلم الآلي (ML) والتحليلات التنبؤية. أدت جهودنا إلى الإنشاء الناجح لخط أنابيب للتنبؤ بفئة المنتج من البداية إلى النهاية، والذي يجمع بين نقاط القوة في SageMaker وAWS Batch.

وقد أثبتت هذه القدرة على التحليلات التنبؤية، وخاصة التنبؤ الدقيق لفئات المنتجات، أنها لا تقدر بثمن. لقد زودت فرقنا برؤى مهمة تعتمد على البيانات والتي أدت إلى تحسين إدارة المخزون وتعزيز تفاعلات العملاء وتعزيز حضورنا في السوق.

تتراوح المنهجية التي نوضحها في هذا المنشور من المرحلة الأولية لتجميع مجموعة الميزات إلى التنفيذ النهائي لخط أنابيب التنبؤ. كان أحد الجوانب المهمة في استراتيجيتنا هو استخدام SageMaker وAWS Batch لتحسين نماذج BERT المدربة مسبقًا لسبع لغات مختلفة. بالإضافة إلى ذلك، تكاملنا السلس مع خدمة تخزين الكائنات من AWS خدمة تخزين أمازون البسيطة لقد كان (Amazon S3) هو المفتاح لتخزين هذه النماذج المحسنة والوصول إليها بكفاءة.

SageMaker هي خدمة ML مُدارة بالكامل. باستخدام SageMaker، يمكن لعلماء البيانات والمطورين إنشاء نماذج ML وتدريبها بسرعة ودون عناء، ثم نشرها مباشرة في بيئة مستضافة جاهزة للإنتاج.

باعتبارها خدمة مُدارة بالكامل، تساعدك AWS Batch على تشغيل أحمال عمل الحوسبة المجمعة بأي نطاق. تقوم AWS Batch تلقائيًا بتوفير موارد الحوسبة وتحسين توزيع عبء العمل بناءً على كمية وحجم أعباء العمل. مع AWS Batch، ليست هناك حاجة لتثبيت برامج الحوسبة المجمعة أو إدارتها، حتى تتمكن من تركيز وقتك على تحليل النتائج وحل المشكلات. استخدمنا وظائف GPU التي تساعدنا في تشغيل المهام التي تستخدم وحدات معالجة الرسومات الخاصة بالمثيل.

نظرة عامة على الحل

عمل خمسة أشخاص من فريق علوم البيانات وفريق البنية التحتية في Getir معًا في هذا المشروع. تم الانتهاء من المشروع في شهر واحد وتم نشره في مرحلة الإنتاج بعد أسبوع من الاختبار.

يوضح الرسم البياني التالي بنية الحل.

يتم تشغيل خط الأنابيب النموذجي بشكل منفصل لكل بلد. تشتمل البنية على وظيفتي AWS Batch GPU cron لكل بلد، ويتم تشغيلهما وفقًا لجداول زمنية محددة.

لقد تغلبنا على بعض التحديات من خلال النشر الاستراتيجي لموارد SageMaker وAWS Batch GPU. تم تفصيل العملية المستخدمة لمعالجة كل صعوبة في الأقسام التالية.

الضبط الدقيق لنماذج BERT متعددة اللغات باستخدام وظائف AWS Batch GPU

لقد بحثنا عن حل لدعم لغات متعددة لقاعدة المستخدمين المتنوعة لدينا. كانت نماذج BERT خيارًا واضحًا نظرًا لقدرتها الراسخة على التعامل مع مهام اللغة الطبيعية المعقدة بفعالية. من أجل تصميم هذه النماذج وفقًا لاحتياجاتنا، قمنا بتسخير قوة AWS من خلال استخدام وظائف مثيل GPU أحادية العقدة. وقد سمح لنا ذلك بضبط نماذج BERT المدربة مسبقًا لكل لغة من اللغات السبع التي طلبنا الدعم لها. ومن خلال هذه الطريقة، ضمنا دقة عالية في التنبؤ بفئات المنتجات، والتغلب على أي حواجز لغوية محتملة.

تخزين نموذجي فعال باستخدام Amazon S3

كانت خطوتنا التالية هي معالجة تخزين النماذج وإدارتها. ولهذا السبب، اخترنا Amazon S3، المعروف بقابليته للتوسع وأمانه. لقد مكننا تخزين نماذج BERT المضبوطة بدقة على Amazon S3 من توفير وصول سهل إلى فرق مختلفة داخل مؤسستنا، وبالتالي تبسيط عملية النشر لدينا بشكل كبير. وكان هذا جانبًا حاسمًا في تحقيق المرونة في عملياتنا والتكامل السلس لجهود تعلم الآلة لدينا.

إنشاء خط أنابيب للتنبؤ من البداية إلى النهاية

كان مطلوبًا وجود خط أنابيب فعال لتحقيق أفضل استفادة من نماذجنا المدربة مسبقًا. قمنا أولاً بنشر هذه النماذج على SageMaker، وهو الإجراء الذي سمح بالتنبؤات في الوقت الفعلي بزمن وصول منخفض، وبالتالي تعزيز تجربة المستخدم لدينا. للحصول على تنبؤات الدفعات واسعة النطاق، والتي كانت ذات أهمية متساوية لعملياتنا، استخدمنا وظائف AWS Batch GPU. وهذا يضمن الاستخدام الأمثل لمواردنا، مما يوفر لنا توازنًا مثاليًا بين الأداء والكفاءة.

استكشاف الاحتمالات المستقبلية مع SageMaker MMEs

بينما نواصل التطور والسعي لتحقيق الكفاءات في مسار التعلم الآلي الخاص بنا، فإن إحدى الطرق التي نحرص على استكشافها هي استخدام نقاط النهاية متعددة النماذج (MMEs) من SageMaker لنشر نماذجنا المضبوطة بدقة. باستخدام MMEs، يمكننا تبسيط نشر العديد من النماذج المضبوطة بدقة، مما يضمن إدارة النماذج بكفاءة مع الاستفادة أيضًا من القدرات الأصلية لـ SageMaker مثل متغيرات الظل، والقياس التلقائي، و الأمازون CloudWatch اندماج. يتماشى هذا الاستكشاف مع سعينا المستمر لتعزيز قدراتنا التحليلية التنبؤية وتوفير تجارب متفوقة لعملائنا.

وفي الختام

إن تكاملنا الناجح بين SageMaker وAWS Batch لم يعالج التحديات المحددة التي نواجهها فحسب، بل عزز أيضًا كفاءتنا التشغيلية بشكل كبير. من خلال تنفيذ خط أنابيب متطور للتنبؤ بفئة المنتج، نحن قادرون على تمكين فرقنا التجارية من خلال رؤى تعتمد على البيانات، وبالتالي تسهيل اتخاذ قرارات أكثر فعالية.

نتائجنا تتحدث كثيرًا عن فعالية نهجنا. لقد حققنا دقة تنبؤ بنسبة 80% عبر جميع المستويات الأربعة لتفاصيل الفئات، والتي تلعب دورًا مهمًا في تشكيل تشكيلات المنتجات لكل بلد نخدمه. يعمل هذا المستوى من الدقة على توسيع نطاق وصولنا إلى ما هو أبعد من حواجز اللغة ويضمن تلبية احتياجات قاعدة المستخدمين المتنوعة لدينا بأقصى قدر من الدقة.

علاوة على ذلك، من خلال الاستخدام الاستراتيجي لوظائف AWS Batch GPU، تمكنا من تقليل فترات تدريب النموذج بنسبة 90%. وقد ساهمت هذه الكفاءة في تبسيط عملياتنا وتعزيز سرعتنا التشغيلية. وقد لعب التخزين الفعال للنماذج باستخدام Amazon S3 دورًا حاسمًا في هذا الإنجاز، حيث حقق التوازن بين التنبؤات في الوقت الفعلي والتنبؤات المجمعة.

لمزيد من المعلومات حول كيفية البدء في إنشاء مسارات تعلم الآلة الخاصة بك باستخدام SageMaker، راجع موارد Amazon SageMaker. يعد AWS Batch خيارًا ممتازًا إذا كنت تبحث عن حل منخفض التكلفة وقابل للتطوير لتشغيل المهام المجمعة مع انخفاض النفقات التشغيلية. للبدء، انظر الشروع في العمل مع AWS Batch.


حول المؤلف

نافع أحمد تورغوت أنهى درجة الماجستير في الهندسة الكهربائية والإلكترونية وعمل كعالم أبحاث عليا. كان تركيزه على بناء خوارزميات التعلم الآلي لمحاكاة الحالات الشاذة في الشبكة العصبية. انضم إلى Getir في عام 2019 ويعمل حاليًا كمدير أول لعلوم البيانات والتحليلات. فريقه مسؤول عن تصميم وتنفيذ وصيانة خوارزميات التعلم الآلي الشاملة والحلول المستندة إلى البيانات لـ Getir.

حسن بوراك يل حصل على درجة البكالوريوس في الهندسة الكهربائية والإلكترونية من جامعة البوغازيتشي. عمل في شركة توركسيل، وركز بشكل أساسي على التنبؤ بالسلاسل الزمنية، وتصور البيانات، وأتمتة الشبكة. انضم إلى Getir في عام 2021 ويعمل حاليًا كمدير لعلوم البيانات والتحليلات ويتولى مسؤولية مجالات البحث والتوصية والنمو.

داملا سينتورك حصلت على درجة البكالوريوس في هندسة الكمبيوتر من جامعة غلطة سراي. وهي تواصل درجة الماجستير في هندسة الكمبيوتر في جامعة البوغازيتشي. انضمت إلى Getir في عام 2022، وعملت كعالمة بيانات. عملت في المشاريع التجارية وسلسلة التوريد والمشاريع المتعلقة بالاكتشاف.

إسراء كايابالي هو مهندس حلول أول في AWS، وهو متخصص في مجال التحليلات، بما في ذلك تخزين البيانات، وبحيرات البيانات، وتحليلات البيانات الضخمة، وتدفق البيانات المجمعة وفي الوقت الفعلي، وتكامل البيانات. لديها 12 عامًا من الخبرة في تطوير البرمجيات والهندسة المعمارية. إنها شغوفة بتعلم وتدريس التقنيات السحابية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة