شعار زيفيرنت

دليل كامل حول التعليق التوضيحي للصورة

التاريخ:

يعد التعليق التوضيحي للصور أمرًا بالغ الأهمية في رؤية الكمبيوتر ، وهو المجال الذي يمكّن أجهزة الكمبيوتر من "رؤية" و "فهم" المعلومات المرئية تمامًا مثل البشر.

تشمل تطبيقات الذكاء الاصطناعي الممتازة السيارات ذاتية القيادة ، واكتشاف الأورام ، والطائرات بدون طيار. بدون التعليق التوضيحي للصور ، ستكون معظم تطبيقات رؤية الكمبيوتر هذه مستحيلة. يعد إنشاء نماذج الرؤية الحاسوبية أو التعليقات التوضيحية أو التعليقات التوضيحية للصور خطوة أولى حاسمة. تعتمد أساليب التعلم الآلي والتعرف على الصور القيمة على مجموعات البيانات.

التعليق التوضيحي للصورة هو عملية إضافة طبقة من البيانات الأولية إلى الصورة. إنها طريقة للأشخاص لوصف ما يرونه في الصورة ، ويمكن استخدام هذه المعلومات لأغراض مختلفة. على سبيل المثال ، يمكن أن يساعد في تحديد الكائنات في صورة أو توفير المزيد من السياق عنها. يمكن أن يوفر أيضًا معلومات مفيدة حول كيفية ارتباط هذه الكائنات ببعضها البعض مكانيًا أو زمنيًا.

تتيح لك أدوات التعليق التوضيحي للصور إنشاء تعليقات توضيحية يدويًا أو من خلال خوارزميات التعلم الآلي (MLAs). تُعرف طريقة MLA الأكثر شيوعًا المستخدمة حاليًا بالتعلم العميق ، والتي تستخدم الشبكات العصبية الاصطناعية (ANNs) لتحديد الميزات داخل الصور وإنشاء أوصاف نصية بناءً على تلك الميزات.

مجموعتان شائعتان من بيانات الصور المشروحة هما مجموعة OID (قاعدة بيانات الصور المفتوحة) من Google ومجموعة COCO من Microsoft (الكائنات المشتركة في السياق) ، والتي تحتوي كل منها على 2.5 مليون حالة مشروحة في 328 ألف صورة.


كيف يعمل التعليق التوضيحي للصور؟

يمكن وضع تعليقات توضيحية على الصور باستخدام أي أداة شرح توضيحي للبيانات مفتوحة المصدر أو مجانية. ومع ذلك ، فإن أداة التعليقات التوضيحية للصور مفتوحة المصدر الأكثر شهرة هي أداة التعليق التوضيحي لرؤية الكمبيوتر (CVAT).

يعد الفهم الشامل لنوع البيانات التي يتم التعليق عليها والوظيفة قيد البحث ضروريًا لتحديد أداة التعليق التوضيحي المناسبة.

يجب أن تنتبه جيدًا لما يلي:

  • طريقة توصيل البيانات
  • النوع الضروري من التعليق التوضيحي
  • نوع الملف الذي يجب الاحتفاظ بالتعليقات التوضيحية فيه

يمكن استخدام العديد من التقنيات للتعليقات التوضيحية بسبب النطاق الهائل في وظائف التعليقات التوضيحية بالصور وتنسيقات التخزين. من التعليقات التوضيحية الأساسية على الأنظمة الأساسية مفتوحة المصدر مثل CVAT و LabelImg إلى التعليقات التوضيحية المعقدة على البيانات واسعة النطاق باستخدام تقنيات مثل V7.

بالإضافة إلى ذلك ، يمكن تنفيذ التعليقات التوضيحية على مستوى فردي أو جماعي ، أو يمكن التعاقد معها مع مقاولين مستقلين أو شركات تقدم خدمات توضيحية.

يتم توفير نظرة عامة حول كيفية بدء التعليقات التوضيحية للصور هنا.

1. مصدر الصورة الخام أو بيانات الفيديو

هذه هي الخطوة الأولى في أي مشروع ، ومن الضروري التأكد من أنك تستخدم الأدوات الصحيحة. عند العمل باستخدام بيانات الصورة ، هناك شيئان رئيسيان يجب أن تضعهما في اعتبارك:

  • تنسيق ملف صورتك أو مقطع الفيديو - سواء كان jpeg أو tiff ؛ RAW (DNG ، CR2) أو JPEG.
  • سواء كنت تعمل بصور من كاميرا أو مقاطع فيديو من جهاز محمول (على سبيل المثال ، iPhone / Android) ، فهناك العديد من أنواع الكاميرات المختلفة ، ولكل منها تنسيقات ملفات خاصة بها. إذا كنت ترغب في استيراد جميع أنواع الملفات في مكان واحد والتعليق عليها ، فابدأ باستيراد التنسيقات التي تعمل جيدًا معًا فقط (على سبيل المثال ، صور jpeg الثابتة + مقاطع فيديو h264).

2. تعرف على أنواع الملصقات التي يجب عليك استخدامها

نوع المهمة المستخدمة لتدريب الخوارزمية له تأثير مباشر على نوع التعليق التوضيحي الذي يجب استخدامه. على سبيل المثال ، عندما يتم تدريب خوارزمية لتصنيف الصور ، تتخذ الملصقات شكل تمثيلات رقمية للفئات المختلفة. من ناحية أخرى ، سيتم استخدام الأقنعة الدلالية وإحداثيات مربع الحدود كتعليقات توضيحية إذا كان النظام يتعلم تجزئة الصورة أو اكتشاف الكائنات.

3. قم بإنشاء فئة لكل كائن تريد تسميته

الخطوة التالية هي إنشاء فئة لكل كائن تريد تسميته. يجب أن تكون كل فئة فريدة وتمثل كائنًا بخصائص مميزة في صورتك. على سبيل المثال ، إذا كنت تعلق على صورة قطة ، فيمكن تسمية فئة واحدة باسم "catFace" أو "catHead". وبالمثل ، إذا كانت صورتك بها شخصان ، فيمكن تسمية أحدهما بـ "Person1" والآخر باسم "Person2".

للقيام بذلك بشكل صحيح (وتجنب ارتكاب الأخطاء) ، نوصي باستخدام محرر صور مثل GIMP أو Photoshop لإنشاء طبقات إضافية لكل كائن منفصل تريد تسميته بشكل منفصل أعلى صورتنا الأصلية بحيث عندما نقوم بتصدير هذه الصور لاحقًا لن يختلطوا مع أشياء أخرى من الصور الأخرى.

4. علق باستخدام الأدوات الصحيحة

الأداة المناسبة للوظيفة ضرورية فيما يتعلق بالتعليق التوضيحي للصورة. تدعم بعض الخدمات كلاً من التعليقات التوضيحية النصية والصورية ، أو الصوت فقط ، أو الفيديو فقط - الاحتمالات لا حصر لها. من المهم استخدام خدمة تعمل مع وسيط الاتصال المفضل لديك.

هناك أيضًا أدوات متاحة لأنواع بيانات محددة ، لذا يجب عليك اختيار نوع يدعم ما يدور في ذهنك. على سبيل المثال: إذا كنت تعلق على بيانات السلاسل الزمنية (على سبيل المثال ، سلسلة من الأحداث بمرور الوقت) ، فستحتاج إلى أداة مصممة خصيصًا لهذا الغرض ؛ إذا لم يكن هناك مثل هذه الأداة في السوق بعد ، ففكر في بناء واحدة بنفسك!

5. إصدار مجموعة البيانات الخاصة بك وتصديرها

بمجرد الانتهاء من التعليقات التوضيحية على الصور ، يمكنك استخدام التحكم في الإصدار لإدارة بياناتك. يتضمن ذلك إنشاء ملف منفصل لكل إصدار مجموعة بيانات ، بما في ذلك طابع زمني في اسم الملف الخاص به. بعد ذلك ، عند استيراد البيانات إلى برنامج أو أداة تحليل أخرى ، لن يكون هناك غموض حول الإصدار الذي يتم استخدامه.

على سبيل المثال ، قد نطلق على ملف التعليق التوضيحي الأول للصور "ImageAnnotated_V2" ، متبوعًا بـ "ImageAnnotated_V3" عند إجراء التغييرات ، وما إلى ذلك. بعد ذلك ، بعد تصدير الإصدار النهائي من مجموعة البيانات باستخدام نظام التسمية هذا (وحفظه كملف .csv) ، سيكون من السهل بما يكفي إعادة الاستيراد إلى التعليق التوضيحي للصور لاحقًا إذا لزم الأمر.


هل تريد أتمتة المهام اليدوية المتكررة؟ تحقق من برنامج معالجة المستندات المستند إلى سير العمل Nanonets. استخراج البيانات من الفواتير أو بطاقات الهوية أو أي مستند على الطيار الآلي!


المهام التي تحتاج إلى بيانات مشروحة

هنا ، سوف نلقي نظرة على مهام رؤية الكمبيوتر المختلفة التي تتطلب استخدام بيانات الصور المشروحة.

تصنيف الصورة

تصنيف الصور هو مهمة في التعلم الآلي حيث لديك مجموعة من الصور والتسميات لكل صورة. الهدف هو تدريب خوارزمية التعلم الآلي على التعرف على الأشياء في الصور.

أنت بحاجة إلى بيانات مشروحة لتصنيف الصور لأنه من الصعب على الآلات معرفة كيفية تصنيف الصور دون معرفة التسميات الصحيحة. سيكون الأمر مثل الذهاب معصوب العينين إلى غرفة بها 100 عنصر ، والتقاط واحدة بشكل عشوائي ، ومحاولة تخمين ما كانت - ستفعل أفضل بكثير إذا أظهر لك شخص ما الإجابات مسبقًا.

الكشف عن الأشياء والتعرف عليها

اكتشاف الكائن هو مهمة العثور على كائنات محددة في صورة ما ، بينما يتضمن التعرف على الكائنات تحديد تلك الكائنات. يُعرف العثور على شيء لم تره من قبل باسم الاكتشاف الجديد ، بينما يُعرف التعرف على كائن رأيته سابقًا بالاكتشاف المألوف.

يمكن تقسيم اكتشاف الكائن إلى تقدير الصندوق المحيط (الذي يعثر على جميع وحدات البكسل التي تنتمي إلى كائن واحد) والترجمة الخاصة بالفئة (التي تحدد البكسل الذي ينتمي إلى أي فئة). تشمل المهام المحددة ما يلي:

  • التعرف على الأشياء في الصور.
  • تقدير موقعهم.
  • تقدير حجمها.

تقطيع الصورة

تجزئة الصورة هي عملية تقسيم الصورة إلى أجزاء متعددة. يمكن القيام بذلك لعزل كائنات مختلفة في الصورة أو لعزل كائن معين عن خلفيته. يتم استخدام تجزئة الصور في العديد من الصناعات والتطبيقات ، بما في ذلك رؤية الكمبيوتر وتاريخ الفن.

تجزئة الصور لها فوائد عديدة مقارنة بالتحرير اليدوي: فهي أسرع وأكثر دقة من المخططات المرسومة باليد ؛ لا يتطلب وقت تدريب إضافي ؛ يمكنك استخدام مجموعة واحدة من الإرشادات لصور متعددة ذات ظروف إضاءة مختلفة قليلاً ؛ لا ترتكب الخوارزميات الآلية أخطاء بالسرعة التي يرتكبها البشر (وعندما يرتكبون أخطاء ، يسهل إصلاحها).

التجزئة الدلالية

التجزئة الدلالية هي عملية تسمية كل بكسل في الصورة بتسمية فئة. قد يبدو هذا مشابهًا للتصنيف ، ولكن هناك تمييز مهم: التصنيف يعين تسمية واحدة (أو فئة) لصورة كاملة ؛ يعطي التقسيم الدلالي تسميات (أو فئات) متعددة لوحدات البكسل الفردية داخل الصورة.

التقسيم الدلالي هو نوع من اكتشاف الحواف الذي يحدد الحدود المكانية بين الكائنات في الصورة. يساعد هذا أجهزة الكمبيوتر على فهم ما تبحث عنه بشكل أفضل ، مما يسمح لها بتصنيف الصور ومقاطع الفيديو الجديدة بشكل أفضل عندما تصادفها في المستقبل. يتم استخدامه أيضًا لتتبع الكائن - تحديد مكان وجود كائنات معينة داخل مشهد بمرور الوقت - والتعرف على الإجراءات - تذكر الإجراءات التي يقوم بها الأشخاص أو الحيوانات في الصور أو مقاطع الفيديو.

تجزئة المثيل

تجزئة المثيل هو نوع من التجزئة يتضمن تحديد الحدود بين الكائنات في الصورة. وهو يختلف عن أنواع التقسيم الأخرى من حيث أنه يتطلب منك تحديد مكان بدء كل كائن ونهايته ، بدلاً من مجرد تعيين تسمية واحدة لكل منطقة. على سبيل المثال ، إذا تم إعطاؤك صورة مع عدة أشخاص يقفون بجوار سياراتهم عند مخرج موقف للسيارات ، فسيتم استخدام تجزئة المثال لتحديد السيارة التي تنتمي إلى أي شخص والعكس صحيح.

غالبًا ما تُستخدم المثيلات كميزات إدخال لنماذج التصنيف لأنها تحتوي على معلومات مرئية أكثر من صور RGB القياسية. بالإضافة إلى ذلك ، يمكن معالجتها بسهولة لأنها لا تتطلب سوى التجميع في مجموعات بناءً على خصائصها المشتركة (أي الألوان) بدلاً من تنفيذ تقنيات التدفق البصري لاكتشاف الحركة.

تجزئة Panoptic

تجزئة Panoptic هي تقنية تسمح لك برؤية البيانات من وجهات نظر متعددة ، والتي يمكن أن تكون مفيدة لمهام مثل تصنيف الصور ، واكتشاف الكائنات والتعرف عليها ، والتجزئة الدلالية. يختلف تقسيم Panoptic عن مناهج التعلم العميق التقليدية من حيث أنه لا يتطلب تدريبًا على مجموعة البيانات بأكملها قبل أداء المهمة. بدلاً من ذلك ، يستخدم التقسيم البانوبتيكي خوارزمية لتحديد أجزاء الصورة المهمة بدرجة كافية لاستخدامها عند تحديد المعلومات التي يتم جمعها بواسطة كل بكسل في مستشعر الصورة.


هل تريد استخدام أتمتة العمليات الآلية؟ تحقق من برنامج معالجة المستندات المستند إلى سير العمل Nanonets. لا رمز. منصة خالية من المتاعب.


حل التعليق التوضيحي لصورة العمل

التعليق التوضيحي لصورة العمل هو خدمة متخصصة. يتطلب معرفة وخبرة متخصصة. يتطلب أيضًا معدات خاصة لإجراء التعليقات التوضيحية. لذلك ، يجب عليك الاستعانة بمصادر خارجية لهذه المهمة لشريك التعليق التوضيحي لصورة العمل.

يحتوي Viso Suite ، وهو نظام أساسي لرؤية الكمبيوتر ، على بيئة تعليقات توضيحية للصور تستند إلى CVAT كجزء من وظائفها الأساسية. تم تصميم الجناح للسحابة ويمكن الوصول إليه من أي متصفح ويب. تعد Viso Suite أداة شاملة للفرق المهنية لإضافة تعليقات توضيحية للصور ومقاطع الفيديو. جمع بيانات الفيديو التعاوني ، والتعليق التوضيحي للصور ، والتدريب على نموذج الذكاء الاصطناعي وإدارته ، وتطوير التطبيقات الخالية من الأكواد ، وعمليات نظام البنية التحتية لرؤية الكمبيوتر الضخمة كلها ممكنة.

من خلال استخدام تقنيات no-code و low-code ، يمكن لـ Viso تسريع عملية التكامل البطيئة عبر اللوحة في دورة حياة تطوير التطبيق.

كم من الوقت يستغرق التعليق التوضيحي للصور؟

يعتمد توقيت التعليق التوضيحي بشكل كبير على كمية البيانات المطلوبة ومدى تعقيد التعليق التوضيحي نفسه. على سبيل المثال ، التعليقات التوضيحية التي تحتوي على عناصر قليلة فقط من فئات مختلفة قليلة يمكن معالجتها بسرعة أكبر بكثير من تلك التي تحتوي على كائنات من آلاف الفئات.

يمكن إكمال التعليقات التوضيحية التي تحتاج فقط إلى الصورة نفسها التي تم التعليق عليها بشكل توضيحي بسرعة أكبر من التعليقات التوضيحية التي تتضمن تحديد العديد من الكائنات والنقاط الرئيسية بدقة.


إذا كنت تعمل مع الفواتير والإيصالات أو كنت تقلق بشأن التحقق من الهوية ، فتحقق من شبكات Nanonets التعرف الضوئي على الحروف عبر الإنترنت or مستخرج نص PDF لاستخراج نص من مستندات PDF مجانا. انقر أدناه لمعرفة المزيد عن حلول أتمتة المؤسسات النانونية.


كيف تجد بيانات الصورة عالية الجودة؟

من الصعب جمع بيانات مشروحة عالية الجودة.

يجب إنشاء التعليقات التوضيحية من البيانات الأولية المكتسبة إذا كانت البيانات من نوع معين غير متاحة مجانًا. يستلزم هذا عادةً مجموعة من الاختبارات لاستبعاد أي احتمال لحدوث خطأ أو تشويه في البيانات المعالجة.

جودة بيانات الصورة تعتمد على المعلمات التالية:

  • عدد الصور المشروحة: كلما زادت الصور التي تحتوي على تعليقات توضيحية ، كان ذلك أفضل. بالإضافة إلى ذلك ، كلما زادت مجموعة البيانات الخاصة بك ، زادت احتمالية التقاط ظروف وسيناريوهات متنوعة يمكن استخدامها للتدريب.
  • توزيع الصور المشروحة: التوزيع المنتظم بين الفئات المختلفة ليس مرغوبًا بالضرورة لأنه يحد من التنوع المتاح في مجموعة البيانات الخاصة بك ، وبالتالي من فائدتها. ستحتاج إلى الكثير من الأمثلة من كل فصل حتى تتمكن من تدريب نموذج يعمل جيدًا في جميع الظروف (حتى لو كانت نادرة).
  • التنوع في الحواشي: يمكن للمعلقين الذين يعرفون ما يفعلونه تقديم تعليقات توضيحية عالية الجودة مع القليل من الأخطاء ؛ تفاحة واحدة سيئة سوف تدمر مجموعتك بأكملها! بالإضافة إلى ذلك ، فإن وجود العديد من المعلقين التوضيحيين يضمن التكرار ويساعد على ضمان الاتساق عبر المجموعات أو البلدان المختلفة حيث قد تكون هناك اختلافات في المصطلحات أو الاصطلاحات عبر المناطق.

فيما يلي بعض الطرق للحصول على بيانات صورة عالية الجودة.

افتح مجموعات البيانات

عندما يتعلق الأمر ببيانات الصورة ، هناك نوعان رئيسيان: مفتوح ومغلق. تتوفر مجموعات البيانات المفتوحة مجانًا للتنزيل عبر الإنترنت ، بدون قيود أو اتفاقيات ترخيص. من ناحية أخرى ، لا يمكن استخدام مجموعات البيانات المغلقة إلا بعد التقدم للحصول على ترخيص ودفع رسوم - وحتى في هذه الحالة ، قد تتطلب إجراءات ورقية إضافية من المستخدم قبل منحه حق الوصول.

تتضمن بعض الأمثلة على مجموعات البيانات المفتوحة Flickr و Wikimedia Commons (كلاهما عبارة عن مجموعات من الصور ساهم بها أشخاص من جميع أنحاء العالم). في المقابل ، تشمل مقاييس مجموعات البيانات المغلقة صور الأقمار الصناعية التجارية التي تبيعها شركات مثل DigitalGlobe أو Airbus Defense & Space (تقدم هذه الشركات صورًا عالية الدقة ولكنها تتطلب عقودًا مكثفة).

كشط بيانات الويب

تجريف الويب هو عملية البحث في الإنترنت عن أنواع معينة من الصور باستخدام برنامج نصي يقوم تلقائيًا بالعديد من عمليات البحث وتنزيل النتائج.

عادةً ما تكون البيانات التي يتم الحصول عليها عن طريق الكشط عبر الإنترنت في حالة خام للغاية وتتطلب تنظيفًا مكثفًا قبل إجراء أي خوارزمية أو تعليق توضيحي ، ومع ذلك يمكن الوصول إليها بسهولة ويسهل جمعها. على سبيل المثال ، باستخدام الكشط ، يمكننا تجميع الصور التي تم تمييزها بالفعل على أنها تنتمي إلى فئة معينة أو مجال موضوع بناءً على الاستعلام الذي نقدمه.

يتم تسهيل التصنيف ، الذي يحتاج فقط إلى علامة واحدة لكل صورة ، إلى حد كبير من خلال هذا التعليق التوضيحي.

البيانات المشروحة ذاتيا

نوع آخر من البيانات هو التعليقات التوضيحية الذاتية. في هذه الحالة ، قام مالك البيانات بتسميتها يدويًا باستخدام تسمياتها. على سبيل المثال ، قد ترغب في إضافة تعليق توضيحي لصور السيارات والشاحنات مع طرازها الحالي. يمكنك كشط الصور من مواقع الشركة المصنعة ومطابقتها مع مجموعة البيانات الخاصة بك باستخدام أداة مثل Microsoft Cognitive Services.

يُعد هذا النوع من التعليقات التوضيحية أكثر موثوقية من وضع العلامات من خلال التعهيد الجماعي لأن احتمال ارتكاب البشر للأخطاء عند كتابة تعليق توضيحي أقل أو أقل مما يحدث عند تصنيف بيانات شخص آخر. ومع ذلك ، فهي أيضًا تكلف أكثر - لقد أنفقت المال على العمالة البشرية لهذه التعليقات التوضيحية.


هل تريد أتمتة المهام اليدوية المتكررة؟ وفر الوقت والجهد والمال مع تحسين الكفاءة!


أنواع شرح الصورة

التعليق التوضيحي للصورة هو عملية إضافة معلومات إلى الصورة. يمكن تطبيق العديد من أنواع التعليقات التوضيحية على صورة ما ، مثل التعليقات التوضيحية النصية والملاحظات المكتوبة بخط اليد والعلامات الجغرافية وما إلى ذلك. سنناقش أدناه بعضًا من أكثر أنواع الصور المشروحة شيوعًا:

1. تصنيف الصور

تصنيف الصورة هو عملية تعيين تسمية فئة للصورة. مصنف الصور هو نموذج تعلم آلي يتعلم تصنيف الصور إلى فئات مختلفة. يتم تدريب المصنف على مجموعة من الصور المصنفة ويستخدم لتصنيف الصور الجديدة.

التصنيف نوعان: خاضع للإشراف وغير خاضع للإشراف. يستخدم التصنيف الخاضع للإشراف بيانات التدريب مع الملصقات ، بينما لا يستخدم غير الخاضع للإشراف البيانات المصنفة ولكنه يتعلم من تلقاء نفسه بدلاً من ذلك من الأمثلة غير المصنفة في مجموعة البيانات.

2. اكتشاف الكائن والتعرف عليه

اكتشاف الكائن هو عملية البحث عن الأشياء في الصورة. يتضمن ذلك تحديد ما إذا كان هناك أي كائنات أم لا ، وما هي ، ومكان وجودها ، وعددها. التعرف على الكائنات هو تحديد أنواع معينة من الكائنات بناءً على مظهرها. على سبيل المثال ، إذا كنا ننظر إلى صورة تحتوي على أفيال وزرافات (من بين مخلوقات أخرى) ، فسيكون هدفنا تحديد أي منها كان فيلة وأيها كان زرافًا. غالبًا ما يتم استخدام هاتين المهمتين - اكتشاف الأشياء والتعرف عليها - معًا لمزيد من الدقة ؛ ومع ذلك ، يمكن أيضًا القيام بها بشكل مستقل. يهدف اكتشاف الكائن إلى التأكد من تحديد كل شيء في الصورة بشكل صحيح (على سبيل المثال ، تم تصنيف كل كلب على أنه كلب). الهدف من التعرف على الأشياء معني جزئيًا فقط بتسمية كل شيء بشكل صحيح ؛ بدلاً من ذلك ، فإنه يركز على تحديد أنواع معينة من الأشياء داخل الصورة (أي ، كل الكلاب وليس القطط).

3. تجزئة الصورة

يتضمن تجزئة الصورة تقسيمها إلى أجزاء أصغر يسهل التحكم فيها. يستخدم على نطاق واسع في تطبيقات رؤية الكمبيوتر ومعالجة الصور. يمكن استخدام تجزئة الصورة لتحديد الأشياء في الصور وفصلها عن الخلفية.

ينقسم تجزئة الصورة إلى ثلاث فئات:

التجزئة الدلالية: يمثل التجزئة الدلالية الحدود بين الأشياء المتكافئة من الناحية المفاهيمية. يتم استخدام هذه التقنية إذا كانت المعرفة الدقيقة بوجود كائن أو موضعه أو حجمه أو شكله داخل الصورة مطلوبة.

تجزئة المثيل: تتميز الكائنات الموجودة في الصورة بوجودها وموضعها وكميتها وحجمها أو شكلها ، وكلها يمكن تحديدها من خلال تجزئة المثيل. وبالتالي ، فإن تجزئة المثيل تسهل تحديد كل كائن في الصورة.

تجزئة Panoptic: يتم الجمع بين التجزئة الدلالي والمثال في التجزئة الشاملة. لهذا السبب ، يعطي التقسيم الشامل لكل من البيانات الدلالية (الخلفية) والمثيل (الكائن) المسمى.

4. الاعتراف بالحدود

التعرف على الحدود هو نوع من التعليقات التوضيحية للصورة ، مما يعني أنه يُستخدم لوصف الحدود أو الحواف في الصورة. يطلق عليه أيضًا اكتشاف الحافة. يستخدم التعرف على الحدود خوارزمية رياضية لاكتشاف مكان وجود الحواف في الصورة ثم رسم خطوط حولها. يمكن أن يساعدك هذا في تقسيم الصور وتحديد الأشياء بداخلها.

يُستخدم التعرف على الحدود في العديد من التطبيقات المختلفة ، بما في ذلك اكتشاف الكائنات والتعرف عليها ، وتصنيف الصور ، أو لاستخدامك الشخصي فقط كجزء من سير عملك للتعليق على الصور بعلامات مثل "وضع علامات على الوجوه" أو "اكتشاف المباني".

وفي الختام

التعليق التوضيحي للصورة هو عملية تعيين سمات إلى بكسل أو منطقة في الصورة. يمكن إجراء التعليقات التوضيحية للصور تلقائيًا أو شبه تلقائيًا أو يدويًا بواسطة البشر. يعتمد نوع التعليق التوضيحي على حالة الاستخدام ، ومن الضروري فهم نوع البيانات التي تحاول جمعها قبل اختيار أسلوب على آخر. هناك الكثير من الأدوات للقيام بذلك ، بدءًا من تطبيقات الويب البسيطة عبر الإنترنت إلى حلول برامج المؤسسات التي تتكامل مباشرة مع نظام إدارة سير العمل (WMS).


النانو OCR و OCR عبر الإنترنت لديها الكثير من الاهتمام استخدم حالات tيمكن أن تحسن أداء عملك ، وتوفر التكاليف وتعزز النمو. اكتشف كيف يمكن تطبيق حالات استخدام Nanonets على منتجك.


بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟