شعار زيفيرنت

اكتشاف الكائنات الصغيرة المستندة إلى مجموعة البيانات

التاريخ:

الكشف عن الكائن في السجلات
شكل توضيحي: © IoT For All

غالبًا ما يبدأ البدء في أي مشروع للتعلم الآلي بالسؤال: "ما مقدار البيانات الكافية؟" تعتمد الإجابة على عدد من العوامل مثل تنوع بيانات الإنتاج ، وتوافر مجموعات البيانات مفتوحة المصدر ، والأداء المتوقع للنظام ؛ يمكن أن تستمر القائمة لفترة طويلة. في هذه المقالة ، نود أن نكشف زيف أسطورة شائعة عن الآلات التي تتعلم فقط من كميات كبيرة من البيانات ، ومشاركة حالة استخدام لتطبيق ML مع مجموعة بيانات صغيرة. 

مع الاعتماد السريع لـ التعلم العميق في رؤية الكمبيوتر ، هناك عدد متزايد من المهام المتنوعة التي يجب حلها بمساعدة الآلات. لفهم تطبيقات التعلم الآلي لمجموعة البيانات الصغيرة هذه في العالم الحقيقي ، دعنا نركز على مهمة اكتشاف الكائنات.

ما هو اكتشاف الأجسام؟ 

يعد اكتشاف الكائن أحد فروع رؤية الكمبيوتر الذي يتعامل مع تحديد الكائنات وتحديد موقعها في صورة أو مقطع فيديو. الهدف من اكتشاف الأشياء هو العثور على كائنات ذات خصائص معينة في صورة رقمية أو مقطع فيديو بمساعدة التعلم الآلي. في كثير من الأحيان ، يعد اكتشاف الكائن خطوة أولية للتعرف على العناصر: أولاً ، يتعين علينا تحديد الكائنات ، وعندها فقط يمكننا تطبيق نماذج التعرف لتحديد عناصر معينة. 

حالات استخدام الأعمال للكشف عن الكائنات 

يعد اكتشاف الكائنات مهمة أساسية للحلول التي تعمل بالذكاء الاصطناعي لمهام مثل الفحص البصري وأتمتة المستودعات وإدارة المخزون والأمان والمزيد. فيما يلي بعض حالات استخدام اكتشاف الكائنات التي تم تنفيذها بنجاح عبر الصناعات.

تصنيع

من ضمان الجودة وإدارة المخزون إلى الفرز والتجميع ، يلعب اكتشاف الكائنات دورًا مهمًا في أتمتة العديد من عمليات التصنيع. تسمح خوارزميات التعلم الآلي للنظام باكتشاف أي عيوب بسرعة ، أو عد الكائنات وتحديد موقعها تلقائيًا. تسمح لهم هذه الخوارزميات بتحسين دقة المخزون عن طريق تقليل الخطأ البشري والوقت المستغرق في فحص هذه الكائنات وفرزها.

خدمات السيارات

يستخدم التعلم الآلي في سيارات ذاتية القيادةواكتشاف المشاة وتحسين تدفق حركة المرور في المدن. يتم استخدام اكتشاف الأشياء لإدراك المركبات والعقبات في المنطقة المجاورة مباشرة للسائق. في وسائل النقل ، يتم استخدام التعرف على الأشياء لاكتشاف المركبات وإحصائها. يتم استخدامه أيضًا لتحليل حركة المرور ويساعد في اكتشاف السيارات التي توقفت على الطرق السريعة أو مفترق الطرق.

خدمات البيع بالتجزئة

يساعد اكتشاف الكائنات في اكتشاف وحدات الاحتفاظ بالمخزون من خلال تحليل ومقارنة صور الرف بالحالة المثالية. تساعد تقنيات رؤية الكمبيوتر المدمجة في الأجهزة على تقليل وقت الانتظار في متاجر البيع بالتجزئة ، وتتبع الطريقة التي يتفاعل بها العملاء مع المنتجات ، وأتمتة التسليم. 

الرعاية الصحية

يستخدم اكتشاف الأشياء لدراسة الصور الطبية مثل الأشعة المقطعية والتصوير بالرنين المغناطيسي والأشعة السينية. يتم استخدامه أيضًا في فحص السرطان للمساعدة في تحديد المرضى المعرضين لمخاطر عالية ، واكتشاف التشوهات ، وحتى تقديم المساعدة الجراحية. يعد تطبيق اكتشاف الأشياء والتعرف عليها للمساعدة في الفحوصات الطبية للرعاية الصحية عن بُعد اتجاهًا جديدًا لتغيير طريقة تقديم الرعاية الصحية للمرضى. 

السلامة والمراقبة

من بين تطبيقات الكشف عن الأشياء أنظمة المراقبة بالفيديو القادرة على اكتشاف الأشخاص والتعرف على الوجه. باستخدام خوارزميات التعلم الآلي ، تم تصميم هذه الأنظمة للمصادقة البيومترية والمراقبة عن بُعد. تم استخدام هذه التكنولوجيا حتى لمنع الانتحار.

أتمتة الخدمات اللوجستية والمستودعات

نماذج الكشف عن الكائنات قادرة على فحص المنتجات بصريًا لاكتشاف العيوب ، بالإضافة إلى إدارة المخزون ، ومراقبة الجودة ، وأتمتة إدارة سلسلة التوريد. تستخدم الحلول اللوجستية المدعومة بالذكاء الاصطناعي نماذج الكشف عن الكائنات بدلاً من اكتشاف الرمز الشريطي ، وبالتالي تحل محل المسح اليدوي.  

كيفية تطوير نظام الكشف عن الأشياء: نهج PoC

لا يختلف تطوير نظام الكشف عن الكائنات لاستخدامه في مهام مثل تلك المذكورة أعلاه عن أي مشروع ML آخر. يبدأ عادةً ببناء فرضية ليتم التحقق منها خلال عدة جولات من التجريب.

هذه الفرضية هي جزء من نهج إثبات المفهوم (PoC) في تطوير البرمجيات. يتماشى مع التعلم الآلي ، كما في هذه الحالة ، التسليم ليس منتجًا نهائيًا. يسمح لنا إجراء البحث بالتوصل إلى نتائج تسمح لنا بتحديد أنه يمكن استخدام النهج المختار ، أو أن هناك حاجة لإجراء تجارب إضافية لاختيار اتجاه مختلف.

إذا كان السؤال هو "مقدار البيانات الكافية للتعلم الآلي" ، فقد تكون الفرضية عبارة أولية مثل "150 عينة بيانات كافية للنموذج للوصول إلى مستوى الأداء الأمثل".

ممارسو غسل الأموال ذوي الخبرة مثل أندرو نغ (المؤسس المشارك لـ Google Brain وكبير العلماء السابق في Baidu) نوصي بناء التكرار الأول للنظام بسرعة باستخدام وظيفة التعلم الآلي ، ثم نشره والتكرار من هناك.

يتيح لنا هذا النهج إنشاء نظام نموذج أولي وظيفي وقابل للتطوير يمكن ترقيته بالبيانات والتعليقات من فريق الإنتاج. يعتبر هذا الحل أكثر فاعلية عند مقارنته باحتمالية محاولة بناء النظام النهائي من البداية. لا يتطلب النموذج الأولي من هذا النوع بالضرورة كميات كبيرة من البيانات. 

للإجابة على سؤال "مقدار البيانات الكافية" ، لا يمكن إنكار أنه لا يوجد خبير في التعلم الآلي يمكنه التنبؤ بدقة بكمية البيانات المطلوبة. الطريقة الوحيدة لمعرفة ذلك هي إنشاء فرضية واختبارها في ظل ظروف العالم الحقيقي. هذا هو بالضبط ما فعلناه بمثال الكشف عن الكائن التالي.

دراسة حالة: اكتشاف الكائن باستخدام مجموعة بيانات صغيرة لحساب العناصر الآلي في اللوجستيات

كان هدفنا هو إنشاء نظام قادر على اكتشاف الأشياء من أجل الخدمات اللوجستية. غالبًا ما يتطلب نقل البضائع من الإنتاج إلى المستودع أو من المستودع إلى المرافق تحكمًا متوسطًا وتنسيقًا للكمية الفعلية باستخدام الفواتير وقاعدة البيانات. إذا تم تنفيذ هذه المهمة يدويًا ، فستتطلب ساعات من العمل البشري وستتضمن مخاطر عالية للخسارة أو التلف أو الإصابة. 

كانت فرضيتنا الأولية هي أن مجموعة بيانات مشروحة صغيرة ستكون كافية لمعالجة مشكلة العد التلقائي للعناصر المختلفة للأغراض اللوجستية. 

النهج التقليدي للمشكلة التي قد يتخذها الكثير هو استخدام تقنيات رؤية الكمبيوتر الكلاسيكية. على سبيل المثال ، يمكن للمرء أن يجمع بين خوارزمية كشف حافة مرشح Sobel وطرق تحويل دائرة Hough للكشف عن الكائنات المستديرة وعدها. هذه الطريقة بسيطة وموثوقة نسبيًا ؛ ومع ذلك ، فهو أكثر ملاءمة للبيئة الخاضعة للرقابة ، مثل خط الإنتاج الذي ينتج أشياء ذات شكل دائري أو بيضاوي محدد جيدًا.

في حالة الاستخدام التي اخترناها ، تعتبر الطرق الكلاسيكية أقل موثوقية نظرًا لأن شكل العناصر وجودة الصور وظروف الإضاءة يمكن أن تختلف جميعها اختلافًا كبيرًا. علاوة على ذلك ، لا يمكن لهذه الأساليب الكلاسيكية التعلم من البيانات التي تم جمعها. هذا يجعل من الصعب تحسين النظام من خلال جمع المزيد من البيانات. في هذه الحالة ، سيكون الخيار الأفضل هو ضبط كاشف الكائنات المعتمد على الشبكة العصبية بدلاً من ذلك.

جمع البيانات ووضع العلامات 

لإجراء تجربة لاكتشاف الكائنات باستخدام مجموعة بيانات صغيرة ، قمنا بجمع العديد من الصور المتوفرة عبر المصادر العامة وعلقنا عليها يدويًا. قررنا التركيز على اكتشاف السجلات الخشبية ، وقسمنا الصور المشروحة إلى قطار و  التحقق من صحة انشقاقات.

قمنا أيضًا بتجميع مجموعة من تجربه بالعربي الصور بدون تسميات حيث تكون السجلات مختلفة بطريقة ما عن صور القطار والتحقق من الصحة (الاتجاه أو الحجم أو الشكل أو لون السجلات) لمعرفة أين تكمن حدود قدرات اكتشاف النموذج بالنسبة إلى المعطى قطار تعيين.

نظرًا لأننا نتعامل مع اكتشاف الكائنات ، يتم تمثيل التعليقات التوضيحية للصور كمربعات إحاطة. لإنشائها ، استخدمنا أداة مفتوحة المصدر قائمة على المتصفح ، التعليق التوضيحي لصورة VGG، والتي لديها وظائف كافية لإنشاء مجموعة بيانات صغيرة الحجم. لسوء الحظ ، تنتج الأداة التعليقات التوضيحية بتنسيقها الخاص والتي قمنا بتحويلها بعد ذلك إلى تنسيق COCO معيار الكشف عن الكائن.

في اكتشاف الكائن ، يتم تحديد كمية البيانات ليس فقط من خلال عدد الصور في مجموعة البيانات ، ولكن أيضًا من خلال كمية مثيلات الكائن الفردية في كل صورة. في حالتنا ، كانت الصور مليئة بالكائنات بكثافة - وصل عدد الحالات إلى 50-90 لكل صورة.

كشف كائن Detectron2 

كان النموذج الذي قررنا استخدامه هو تنفيذ أسرع R-CNN بواسطة Facebook في مكتبة رؤية الكمبيوتر الكاشف2

دعنا نلقي نظرة فاحصة على كيفية عمل أسرع R-CNN لاكتشاف الكائنات. أولاً ، يتم تمرير صورة الإدخال عبر العمود الفقري (نموذج CNN عميق تم تدريبه مسبقًا على مشكلة تصنيف الصورة) ويتم تحويلها إلى تمثيل مضغوط يسمى خريطة المعالم. تتم معالجة خرائط المعالم بعد ذلك بواسطة شبكة اقتراح المنطقة (RPN) التي تحدد المناطق في خرائط المعالم التي من المحتمل أن تحتوي على كائن مثير للاهتمام.

بعد ذلك ، يتم استخراج المناطق من خرائط المعالم باستخدام عملية تجميع العائد على الاستثمار ومعالجتها عن طريق رأس إزاحة المربع المحيط (الذي يتنبأ بإحداثيات مربع الإحاطة الدقيقة لكل منطقة) ورأس تصنيف الكائن (الذي يتنبأ بفئة الكائن في المنطقة).

أسرع R-CNN (الشبكة العصبية التلافيفية المستندة إلى المنطقة) هي التكرار الثالث لمعمارية R-CNN. 

أسرع R-CNN هو نموذج لاكتشاف الأشياء على مرحلتين. يتضمن شبكة RPN الفرعية لأخذ عينات من مقترحات الكائنات. ومع ذلك ، ليس هذا هو الحل الوحيد لمجموعة البيانات الصغيرة لاكتشاف الكائنات.

هناك أيضًا نماذج كاشف ذات مرحلة واحدة تحاول العثور على الكائنات ذات الصلة دون مرحلة فحص اقتراح المنطقة هذه. تتميز أجهزة الكشف أحادية المرحلة ببنيات أبسط ، وعادة ما تكون أسرع ولكنها أقل دقة مقارنة بالنماذج ذات المرحلتين. تشمل الأمثلة يولوف 4 و  يولوف 5 البنيات ، - يمكن أن تصل بعض النماذج ذات التكوين الأخف من هذه العائلات إلى 50-140 إطارًا في الثانية (على الرغم من المساومة على جودة الكشف) ، مقارنةً بـ R-CNN الأسرع الذي يعمل بسرعة 15-25 إطارًا في الثانية كحد أقصى.

تم نشر الورقة الأصلية التي تم شرحها في Faster R-CNN في عام 2016 وتلقت بعض التحسينات الصغيرة على البنية بمرور الوقت ، والتي انعكست في مكتبة Detectron2 التي استخدمناها.

على سبيل المثال ، تكوين النموذج المحدد لتجاربنا ، R50-FPN، يستخدم العمود الفقري ResNet-50 مع شبكة هرم الميزات - وهو مفهوم تم تقديمه في CVPR 2017 ورقة ومنذ ذلك الحين أصبح عنصرًا أساسيًا في شبكة CNN لاستخراج الميزات. بعبارات أبسط ، في Feature Pyramid Networks التي نستخدمها لا تقتصر على أعمق خرائط الميزات المستخرجة من CNN ولكنها تشمل أيضًا خرائط ميزات منخفضة ومتوسطة المستوى. هذا يسمح باكتشاف الأشياء الصغيرة التي يمكن أن تضيع أثناء الضغط إلى أعمق المستويات.

النتائج

في تجاربنا ، استخدمنا المنهجية التالية: 

  1. خذ مثال أسرع R-CNN تم تدريبه مسبقًا عليه كوكو 2017 مجموعة بيانات تحتوي على 80 فئة كائن.
  2. استبدل 320 وحدة في انحدار الصندوق المحيط و 80 وحدة في رؤوس التصنيف بـ 4 و 1 وحدات على التوالي ، من أجل تدريب النموذج لفئة جديدة واحدة (رأس انحدار الصندوق المحيط به 1 وحدات لكل فئة من أجل الانحدار X ، Y ، W ، أبعاد H للصندوق المحيط حيث X ، Y هي الأسلاك المركزية لمركز bbox و W ، H هي عرضه وارتفاعه). 

بعد بعض الدورات التمهيدية ، اخترنا معلمات التدريب التالية:

  • تكوين النموذج: R50-FPN
  • معدل التعلم: 0.000125
  • حجم الدفعة: 2
  • حجم الدُفعة لرؤوس العائد على الاستثمار: 128
  • الحد الأقصى للتكرار: 200

مع تعيين المعلمات ، بدأنا في النظر في الجانب الأكثر إثارة للاهتمام في التدريب: كم عدد حالات التدريب اللازمة للحصول على نتائج لائقة في مجموعة التحقق من الصحة. نظرًا لأن صورة واحدة تحتوي على ما يصل إلى 1 حالة ، فقد اضطررنا إلى إزالة جزء من التعليقات التوضيحية عشوائيًا لاختبار عدد أقل من المثيلات. ما اكتشفناه هو أنه بالنسبة لمجموعة التحقق الخاصة بنا التي تحتوي على 90 حالة ، في 98 حالات تدريبية ، لم نتمكن من التقاط سوى مرة أو اثنتين للاختبار ، في 10 حصلنا بالفعل على 1 تقريبًا ، وفي 2 أو أعلى تمكنا من التنبؤ بجميع الحالات.

أدت زيادة عدد حالات التدريب من 75 إلى 100 و 200 إلى نفس نتائج التدريب النهائية. ومع ذلك ، تقارب النموذج بشكل أسرع بسبب التنوع العالي لأمثلة التدريب.

يمكن رؤية تنبؤات النموذج المدرَّب بـ 237 مثيلاً على الصورة من مجموعة التحقق في الصورة أدناه ؛ هناك العديد من الإيجابيات الخاطئة (يشار إليها بأسهم حمراء) ولكن لديهم ثقة منخفضة وبالتالي يمكن تصفيتها في الغالب عن طريق تعيين حد الثقة عند ~ 80٪. 

في الخطوة التالية ، استكشفنا أداء النموذج المدرب على صور الاختبار بدون تسميات. كما هو متوقع ، كان للصور المشابهة لتوزيع مجموعة التدريب تنبؤات واثقة وعالية الجودة ، في حين أن الصور التي تحتوي على السجلات وشكل أو لون أو اتجاه غير عادي كانت أكثر صعوبة بالنسبة للنموذج للعمل معها.

ومع ذلك ، حتى في الصور الصعبة من مجموعة الاختبار ، لاحظنا تأثيرًا إيجابيًا من زيادة عدد حالات التدريب. في الصورة أدناه نوضح كيف يتعلم النموذج التقاط حالات إضافية (مميزة بالنجوم الخضراء) مع زيادة عدد صور القطار (صورة قطار واحدة - 1 حالة ، 91-2 صور - 4-127 حالة). 

باختصار ، أظهرت النتائج أن النموذج كان قادرًا على التقاط حوالي 95٪ من المثيلات في مجموعة بيانات التحقق من الصحة. بعد الضبط الدقيق باستخدام 75-200 مثيلات كائن قدمت بيانات التحقق من الصحة تشبه بيانات القطار. هذا يثبت أن اختيار أمثلة التدريب المناسبة يجعل اكتشاف الكائنات عالية الجودة ممكنًا في سيناريو بيانات محدودة.

مستقبل اكتشاف الأشياء

يعد اكتشاف الكائنات أحد أكثر تقنيات رؤية الكمبيوتر استخدامًا والتي ظهرت في السنوات الأخيرة. السبب في ذلك هو التنوع في المقام الأول. يتم تنفيذ بعض النماذج الحالية بنجاح في الإلكترونيات الاستهلاكية أو دمجها في برامج مساعدة السائق ، في حين أن البعض الآخر هو الأساس للحلول الروبوتية المستخدمة لأتمتة الخدمات اللوجستية وتحويل الرعاية الصحية والصناعات التحويلية.

تعد مهمة الكشف عن الأشياء ضرورية للتحول الرقمي ، حيث إنها تعمل كأساس للروبوتات التي تعتمد على الذكاء الاصطناعي ، والتي ستمكننا على المدى الطويل من تحرير الأشخاص من أداء الوظائف الشاقة والتخفيف من المخاطر المتعددة.

أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.iotforall.com/small-dataset-based-object-detection

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة