شعار زيفيرنت

تصميم الوظائف المعيارية لأنظمة مساعدة السائق المتقدمة (ADAS) على AWS

التاريخ:

على مدى السنوات العشر الماضية ، طور عدد من اللاعبين أنظمة المركبات المستقلة (AV) باستخدام الشبكات العصبية العميقة (DNNs). تطورت هذه الأنظمة من أنظمة بسيطة قائمة على القواعد إلى أنظمة مساعدة السائق المتقدمة (ADAS) والمركبات ذاتية التحكم بالكامل. تتطلب هذه الأنظمة بيتابايت من البيانات وآلاف الوحدات الحسابية (vCPUs و GPU) للتدريب.

يغطي هذا المنشور مناهج البناء ، والوحدات الوظيفية المختلفة لـ ADAS ، وأساليب التصميم لبناء خط أنابيب معياري ، وتحديات بناء نظام ADAS.

أساليب التدريب DNN والتصميم

أنظمة الصوت والصورة مبنية بشبكات عصبية عميقة. عندما يتعلق الأمر بتصميم نظام AV ، هناك طريقتان رئيسيتان. يعتمد الاختلاف على كيفية تدريب DNNs وحدود النظام.

  • التدريب المعياري - مع تصميم خط أنابيب معياري ، يتم تقسيم النظام إلى وحدات وظيفية فردية (على سبيل المثال ، الإدراك ، والتوطين ، والتنبؤ ، والتخطيط). هذا نموذج تصميم شائع يستخدمه العديد من موفري أنظمة الصوت والصورة. مع تقسيم النظام بأكمله إلى وحدات فردية ، يمكن بناؤها وتدريبها بشكل مستقل.
  • تدريب شامل - يتضمن هذا النهج تدريب نموذج DNN يأخذ بيانات المستشعر الأولية كمدخلات ومخرجات أمر القيادة. هذه بنية متجانسة ويتم استكشافها بشكل أساسي من قبل الباحثين. تعتمد بنية DNN عادةً على التعلم المعزز (RL) بناءً على نظام المكافأة / العقوبة أو التعلم المحاكي (IL) من خلال مراقبة شخص يقود السيارة. على الرغم من أن الهيكل العام بسيط ، إلا أنه من الصعب تفسير وتشخيص الكتلة المتراصة. ومع ذلك ، فإن التعليقات التوضيحية رخيصة لأن النظام يتعلم من البيانات التي تم جمعها من خلال السلوك البشري.

بالإضافة إلى هذين النهجين ، يستكشف الباحثون أيضًا نهجًا هجينًا يدرب اثنين من DNNs مختلفين مرتبطين بتمثيل وسيط.

يشرح هذا المنشور الوظائف بناءً على نهج خط الأنابيب المعياري.

مستويات الأتمتة

SAE International (المعروفة سابقًا باسم جمعية مهندسي السيارات) معيار J3016 يحدد ستة مستويات من أتمتة القيادة ، وهو المصدر الأكثر الاستشهاد به لأتمتة القيادة. يتراوح هذا من المستوى 0 (بدون أتمتة) إلى المستوى 5 (أتمتة القيادة الكاملة) ، كما هو موضح في الجدول التالي.

مستوى الاسم الميزات
0 لا يوجد أتمتة القيادة محركات بشرية
1 المساعدة في القيادة محركات بشرية
2 أتمتة القيادة الجزئية محركات بشرية
3 أتمتة القيادة المشروطة يقود النظام مع الإنسان كنسخة احتياطية
4 أتمتة عالية للقيادة محركات النظام
5 أتمتة قيادة كاملة محركات النظام

وظائف معيارية

يوفر الرسم التخطيطي التالي نظرة عامة على تصميم الوظائف المعيارية.

في المستويات الأعلى من الأتمتة (المستوى 2 وما فوق) ، يؤدي نظام AD وظائف متعددة:

  • جمع البيانات - يقوم نظام AV بجمع معلومات حول محيط السيارة في الوقت الفعلي بدقة سنتيمترية. السيارة مزودة بأجهزة مختلفة ، وتتنوع وظائف هذه الأجهزة وتتقاطع بعدة طرق. لا تزال AV مساحة متطورة ولا يوجد إجماع وتوحيد لأنواع المستشعرات والأجهزة المرفقة. بالإضافة إلى الأجهزة المدرجة هنا ، قد تحتوي المركبات أيضًا على نظام تحديد المواقع العالمي (GPS) للملاحة ، وتستخدم الخرائط ووحدات القياس بالقصور الذاتي (IMUs) لقياس التسارع الخطي والزاوي. اعتمادًا على نوع نظام ADAS ، سترى مجموعة من الأجهزة التالية:
    • كما توفر الكاميرات - الأجهزة المرئية المشابهة من الناحية المفاهيمية للإدراك البشري. يدعم دقة عالية ولكنه سيئ في تقدير العمق والتعامل مع الظروف الجوية القاسية.
    • تحديد المدى - أجهزة باهظة الثمن توفر بيانات حول المناطق المحيطة كسحابة نقطية ثلاثية الأبعاد. يوفر عمق دقيق وتقدير السرعة.
    • الموجات فوق الصوتية - مستشعرات صغيرة وغير مكلفة ولكنها تعمل بشكل جيد فقط في نطاقات قصيرة.
    • رادار - يدعم النطاقات الطويلة والقصيرة ويعمل بشكل جيد في ظروف الرؤية المنخفضة والظروف الجوية القاسية.
  • دمج البيانات - توفر الأجهزة المتعددة التي تشكل جزءًا من نظام AV إشارات ولكن لها حدودها ؛ ومع ذلك ، توفر الإشارات عبر الأجهزة معلومات تكميلية. تدمج أنظمة الصوت والصورة البيانات من الأجهزة المدمجة معًا لبناء تصور شامل. تُستخدم مجموعة البيانات المتكاملة هذه لتدريب DNN.
  • الإدراك - تحلل أنظمة الصوت والصورة البيانات الأولية التي يتم جمعها من الأجهزة لتكوين معلومات حول البيئة المحيطة بالمركبة ، بما في ذلك العوائق وإشارات المرور والأشياء الأخرى. هذا يسمي تصور مشهد الطريق أو ببساطة الإدراك. يتضمن الكشف عن الأشياء وتصنيفها على أنها قريبة من المركبات والمشاة وإشارات المرور وإشارات المرور. تقيس هذه الوظيفة العمق وتقوم باكتشاف الحارة وتقدير انحناء الحارة واكتشاف الرصيف والانسداد. هذه المعلومات هي المفتاح لتخطيط المسار وتحسين المسار.
  • التعريب ورسم الخرائط - لتشغيل السيارة وتحسينها بأمان ، تحتاج أنظمة AV إلى فهم موقع الأشياء المكتشفة عن طريق الإدراك. ينشئ نظام AV خريطة ثلاثية الأبعاد ويحدّث موقع السيارة المضيفة (مركبة الأنا) ومحيطها في الخريطة. يتتبع الكائنات المكتشفة وموقعها الحالي. تتنبأ الأنظمة المتقدمة بحركية الأجسام المتحركة.
  • تنبؤ - مع المعلومات التي تم جمعها من وحدات أخرى ، تتنبأ أنظمة الصوت والصورة بالكيفية التي سيتغير بها المستقبل القريب للبيئة. يتنبأ DNN الذي يعمل على السيارة بموقع مركبة الأنا وتفاعلات الكائن المحيط من خلال عرض الحالات الحركية بمرور الوقت (الموضع ، السرعة ، التسارع ، النفضة). يمكنه التنبؤ بالمخالفات المرورية المحتملة والاصطدامات أو بالقرب من الاصطدامات.
  • تخطيط المسار - هذه الوظيفة مسؤولة عن رسم المسارات المحتملة التي يمكن للمركبة اتخاذها كإجراء تالٍ بناءً على مدخلات من الإدراك والتوطين والتنبؤ. لتخطيط أفضل مسار ممكن ، يأخذ نظام AV الترجمة والخرائط وبيانات GPS والتنبؤات كمدخلات. تقوم بعض أنظمة الصوت والصورة ببناء رؤية شاملة من خلال عرض حركيات مركبة الأنا والكائنات الأخرى على مسار ثابت لتوفير خريطة ثلاثية الأبعاد. يقوم البعض أيضًا بدمج البيانات من المركبات الأخرى. بشكل عام ، تحدد وظيفة التخطيط المسار الأمثل من جميع المسارات الممكنة بهدف زيادة راحة السائق (على سبيل المثال ، المنعطفات السلسة مقابل المنعطفات الحادة ، والإبطاء مقابل التوقف فجأة عند إشارات التوقف).
  • الرقابة والتنفيذ - يأخذ المدخلات من مخطط الطريق لأداء الإجراءات لتسريع عجلة القيادة وإبطائها وإيقافها وتدويرها. الهدف من وحدة التحكم هو الحفاظ على المسار المخطط.
  • خط أنابيب التدريب - تحتاج DNNs التي توفر تنبؤات حول السيارة إلى التدريب. يتم تدريبهم عادةً بطريقة غير متصلة بالإنترنت باستخدام البيانات التي يتم جمعها من المركبات. يتطلب التدريب آلاف الوحدات الحسابية لفترة طويلة من الزمن. تختلف كمية البيانات المطلوبة للتدريب وقوة الحوسبة المطلوبة بناءً على بنية النموذج وموفر نظام الصوت والصورة. لتدريب DNNs ، يتطلب موفر نظام AV بيانات مصنفة يتم شرحها جزئيًا بواسطة البشر والآلية جزئيًا. عادةً ما تكون معلومات التعريف الشخصية (PII) مثل رقم لوحة الترخيص والوجه مجهولة المصدر من خلال التعتيم. يقوم العديد من المزودين بزيادة البيانات المصنفة بالمحاكاة. يوفر القدرة على إنشاء بيانات لسيناريوهات محددة وزيادة بيانات العالم الحقيقي. يستخدم موفرو أنظمة AV أيضًا أدوات لاستخراج البيانات ذات الصلة من أجل التدريب والضبط الدقيق والتعامل مع الحالات المتطورة. يتم التحقق من صحة النماذج المدربة للتأكد من دقتها باستخدام المحاكاة في وضع عدم الاتصال. يستخدم بعض المزودين استراتيجية نموذج خامدة وينشرون النماذج المرشحة (نائمة) جنبًا إلى جنب مع نماذج الإنتاج. على الرغم من عدم استخدام التنبؤات من النماذج الخاملة للتحكم في السيارة ، إلا أنها تساعد المزودين على التحقق من دقة النموذج في سيناريوهات العالم الحقيقي.

التحديات

تحتاج DNNs لأحمال العمل للمركبات إلى التدريب باستخدام كميات ضخمة من البيانات. ستحتاج إلى بنية أساسية للحوسبة قابلة للتطوير لتدريب DNNs ، والتعامل مع كميات كبيرة من بيانات التدريب ، والنظر في العوامل لتحسين التدريب باستخدام النماذج وتوازي البيانات.

التدريب بكميات كبيرة من البيانات

تجمع أنظمة الصوت والصورة حجمًا كبيرًا من البيانات من الأجهزة المتصلة بالسيارة. اعتمادًا على مزود نظام AV ، يتراوح أسطول المركبات من حفنة إلى آلاف المركبات. فيما يلي بعض التحديات النموذجية التي قد يواجهها موفر نظام الصوت والصورة:

  • جمع ومعالجة وتخزين بيتابايت من البيانات - تجمع كل مركبة أكثر من 40 تيرابايت من البيانات لكل 8 ساعات من القيادة.
  • تحديد بيانات التمثيل ذات الصلة من حجم ضخم من البيانات - يعد هذا أمرًا ضروريًا لتقليل التحيزات في مجموعات البيانات بحيث لا تؤدي السيناريوهات الشائعة (القيادة بسرعة عادية مع إعاقة) إلى عدم توازن في الفصل. للحصول على دقة أفضل ، تتطلب DNN كميات كبيرة من البيانات المتنوعة والجيدة الجودة.
  • حجم حالات الزاوية - تحتاج نماذج ML إلى التعامل مع مجموعة واسعة من حالات الزاوية. هذا ضروري لضمان سلامة نظام AV.
  • وقت التدريب - بالنظر إلى حجم البيانات الهائل ، يكون وقت التدريب غالبًا في عدة أيام أو حتى أسابيع. هذا يقلل من سرعة التطوير والقدرة على الفشل بسرعة.

للتصدي لتحدي القيمة الكبيرة ، يمكنك الاستفادة من الأمازون SageMaker ميزة توازي البيانات الموزعة (SMDDP). SageMaker هي خدمة تعلم آلي مُدارة بالكامل (ML). باستخدام توازي البيانات ، يتم تقسيم حجم كبير من البيانات إلى دفعات. يتم إرسال كتل البيانات إلى عدة وحدات معالجة مركزية أو وحدات معالجة رسومات تسمى عقدًا ، ويتم دمج النتائج. كل عقدة لديها نسخة من DNN. طورت SageMaker ملف مكتبة البيانات الموزعة المتوازية، الذي يقسم البيانات لكل عقدة ويحسن الاتصال بين العقد. يمكنك استخدام SageMaker Python SDK لبدء مهمة بتوازي البيانات مع الحد الأدنى من التعديلات على البرنامج النصي للتدريب. يدعم توازي البيانات أطر التعلم العميق الشائعة PyTorch و PyTorch Lightening و TensorFlow و Hugging Face Transformers.

استخدمت شركة Hyundai motor توازي بيانات SageMaker لتقليل وقت التدريب لنماذج القيادة الذاتية الخاصة بهم وحققت أكثر من 90 ٪ من كفاءة القياس مع ثماني حالات ، لكل منها 8 وحدات معالجة رسومات. الرسم البياني التالي يوضح هذه العمارة.

لمزيد من التفاصيل ، يرجى الرجوع إلى تقلل Hyundai من وقت تدريب نموذج ML لنماذج القيادة الذاتية باستخدام Amazon SageMaker.

لمزيد من المعلومات حول التدريب الموزع مع SageMaker ، ارجع إلى AWS re: Invent 2020 video تدريب سريع وقياس شبه خطي باستخدام DataParallel في Amazon SageMaker و العلم وراء محركات التدريب الموزعة من Amazon SageMaker.

وسم حجم كبير من البيانات

يتطلب خط أنابيب التدريب حجمًا كبيرًا من مجموعات البيانات ذات العلامات. أحد التحديات الشائعة التي يواجهها عملاؤنا هو تطوير أدوات التعليقات التوضيحية لتسمية الصورة والفيديو والمستشعر (على سبيل المثال ، 3D point cloud) ؛ مهام سير العمل المخصصة لاكتشاف الكائن ؛ ومهام التجزئة الدلالية. أنت بحاجة إلى القدرة على تخصيص سير العمل الخاص بك.

الحقيقة الأمازون SageMaker الأرض هي خدمة تسمية بيانات مُدارة بالكامل توفر المرونة لبناء وإدارة مهام سير عمل مخصصة. باستخدام Ground Truth ، يمكنك تسمية بيانات الصور والفيديو والسحابة النقطية لاكتشاف الكائنات وتتبع الكائنات ومهام التجزئة الدلالية. يمكنك نقل البيانات التي تم جمعها من المركبات وتخزينها في أماكن العمل إلى AWS باستخدام آلية نقل البيانات مثل بوابة تخزين AWS, AWS Direct Connect, أوس داتا سينك, أوس سنوبولالطرق أو عائلة AWS Transfer. بعد معالجة البيانات مسبقًا (مثل تعتيم الوجوه ولوحات الترخيص) ، تصبح مجموعة البيانات التي تم تنظيفها جاهزة لوضع العلامات. تدعم تقنية Ground Truth دمج أجهزة الاستشعار لبيانات LiDAR مع مدخلات الفيديو من الكاميرات. يمكنك اختيار استخدام الشروح البشرية من خلال الأمازون ميكانيكي تركأو البائعين الخارجيين الموثوق بهم أو القوى العاملة الخاصة بك.

في الشكل التالي ، نقدم بنية مرجعية لبيانات المعالجة المسبقة باستخدام دفعة AWS واستخدام الحقيقة الأرضية لتسمية مجموعات البيانات.

لمزيد من المعلومات ، راجع ملاحظات ميدانية: أتمتة استيعاب البيانات ووضع العلامات لتطوير المركبات الذاتية و بيانات وضع العلامات لتتبع الكائنات ثلاثية الأبعاد ودمج المستشعر في Amazon SageMaker Ground Truth.

لمزيد من المعلومات حول استخدام Ground Truth لتسمية بيانات سحابة النقطة ثلاثية الأبعاد ، يرجى الرجوع إلى استخدم حقيقة الأرض لتسمية غيوم ثلاثية الأبعاد.

البنية التحتية للتدريب

عندما تنضج أنظمة AV ، تحتاج شبكات DNN إلى التدريب للتعامل مع حالات الحافة المتعددة (على سبيل المثال ، البشر يمشون على الطرق السريعة) ، ويصبح النموذج معقدًا وكبيرًا. ينتج عن هذا تدريب DNNs بمزيد من البيانات من استخراج البيانات المسجلة أو من خلال عمليات المحاكاة للتعامل مع السيناريوهات الأحدث. هذا يتطلب المزيد من سعة الحوسبة وتوسيع نطاق البنية التحتية للحوسبة.

لدعم احتياجات الحوسبة لأعباء عمل ML ، يوفر SageMaker أنواع مثيلات متعددة للتدريب. تم تصميم كل عائلة لعدد قليل من أعباء العمل المحددة ؛ يمكنك الاختيار استنادًا إلى تكوينات vCPU و GPU والذاكرة والتخزين والشبكات للمثيلات. من أجل تطوير AV كامل وشامل ، تعتمد الشركات إلى حد كبير على عائلات m و c و g و p.

يستخدم بعض عملائنا AMIs للتعلم العميق (DLAMI) لإطلاق NVIDIA GPU الأمازون الحوسبة المرنة السحابية (Amazon EC2) في عائلة p. يدمج كل جيل مثيل من عائلة EC2 p أحدث تقنيات NVIDIA ، بما في ذلك مثيلات p2 (Tesla K80) ومثيلات p3 (Volta V100) ومثيلات p4d (Ampere A100).

يلخص الشكل التالي الحالات المتاحة:

عندما تكون DNNs معقدة ولا يمكن وضعها في ذاكرة وحدة معالجة رسومات واحدة ، يمكنك استخدام SageMaker مكتبة التوازي النموذجية. هذا يقسم الطبقات عبر وحدات معالجة الرسومات والمثيلات. يمكنك استخدام المكتبة لتقسيم طرازي TensorFlow و PyTorch تلقائيًا عبر وحدات معالجة رسومات متعددة وعقد متعددة بأقل تغييرات في التعليمات البرمجية.

MLOps

عندما يتعلق الأمر بالتشغيل ، من علماء البيانات الذين يجرون تجارب على النماذج المنقحة إلى النشر عبر آلاف المركبات ، يحتاج موفرو أنظمة الصوت والصورة إلى مجموعة من الأدوات التي تعمل من النهاية إلى النهاية بسلاسة لتلبية الاحتياجات المختلفة:

  • جمع البيانات وتحويلها على نطاق واسع
  • التحليل الآلي وتقييم النماذج
  • توحيد خطوط أنابيب البيانات
  • القدرة على تحديد وإجراء التجارب لعلماء البيانات
  • مراقبة أداء النموذج
  • إنشاء عملية قابلة للتكرار والقضاء على التدخل البشري بأتمتة شاملة
  • النشر الآلي للطراز ، والذي يمكّنك من نشر نموذج مدرب بسرعة عبر ملايين المركبات

يوفر SageMaker أدوات MLOps شاملة. يمكن لعلماء البيانات استخدامها تجارب Amazon SageMaker، والذي يتتبع تلقائيًا المدخلات والمعلمات والتكوينات ونتائج التكرارات كتجارب. يمكنك أيضًا تعيين هذه التجارب وتجميعها وتنظيمها في تجارب. الأمازون SageMaker نموذج مراقب يساعد باستمرار على مراقبة جودة نماذج ML الخاصة بك في الوقت الحقيقي. يمكنك إعداد تنبيهات آلية للتنبيه عند وجود انحرافات في جودة النموذج ، مثل انحراف البيانات والحالات الشاذة. عندما يتعلق الأمر بالتنسيق ، يمكنك الاختيار من بين عدد من الخيارات ، بما في ذلك SageMaker خطوط الأنابيب SDK, وظائف خطوة AWS, Amazon Managed Airflow Apache (Amazon MWAA) وأدوات مفتوحة المصدر مثل Kubeflow.

وفي الختام

في هذا المنشور ، قمنا بتغطية مناهج البناء والوحدات الوظيفية المختلفة لـ ADAS ، وإطار عمل موحد لبناء خط أنابيب معياري ، وتحديات بناء نظام ADAS. قدمنا ​​هياكل مرجعية وروابط لدراسات الحالة ومنشورات المدونات التي تشرح كيف يستخدم عملاؤنا SageMaker وخدمات AWS الأخرى لبناء نظام AV قابل للتطوير. يمكن أن تساعد الحلول المقترحة عملائنا على مواجهة التحديات أثناء بناء نظام AV قابل للتطوير. في منشور لاحق ، سنقوم بالغوص العميق في DNNs التي تستخدمها أنظمة ADAS.


حول المؤلف

شرياس سوبرامانيان هو مهندس حلول رئيسي متخصص في الذكاء الاصطناعي / التعلم الآلي ، ويساعد العملاء باستخدام التعلم الآلي لحل تحديات أعمالهم باستخدام منصة AWS. لدى Shreyas خلفية في التحسين على نطاق واسع والتعلم الآلي ، واستخدام التعلم الآلي والتعلم المعزز لتسريع مهام التحسين.

جوبي كريشنامورثي هو كبير مهندسي حلول AI / ML في Amazon Web Services ومقرها في مدينة نيويورك. إنه يعمل مع عملاء السيارات الكبار كمستشار موثوق بهم لتحويل أعباء عمل التعلم الآلي الخاصة بهم والترحيل إلى السحابة. تشمل اهتماماته الأساسية التعلم العميق والتقنيات التي لا تحتاج إلى خادم. خارج العمل ، يحب قضاء الوقت مع أسرته واستكشاف مجموعة واسعة من الموسيقى.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة