شعار زيفيرنت

تقنية Deep Learning Image Captioning لتطبيقات الأعمال

التاريخ:

تقنية Deep Learning Image Captioning لتطبيقات الأعمال
شكل توضيحي: © IoT For All

التقنيات المطبقة على تحويل تسلسل البكسلات المصورة على الصورة إلى كلمات بالذكاء الاصطناعي ليست أولية كما كانت قبل خمس سنوات أو أكثر. يعمل الأداء الأفضل والدقة والموثوقية على جعل التسميات التوضيحية السلس والفعالة للصور ممكنة في مناطق مختلفة - من وسائل التواصل الاجتماعي إلى التجارة الإلكترونية. يتوافق الإنشاء التلقائي للعلامات مع صورة تم تنزيلها. يمكن لهذه التكنولوجيا أن تساعد المكفوفين على اكتشاف العالم من حولهم.

تتناول هذه المقالة حالات استخدام تقنية التعليق على الصور وهيكلها الأساسي ومزاياها وعيوبها. أيضًا ، نقوم بنشر نموذج قادر على إنشاء وصف مفيد لما يتم عرضه في الصورة المدخلة.

كهدف لغة الرؤية ، يمكن حل تسمية الصور بمساعدة رؤية الكمبيوتر ومعالجة اللغات الطبيعية. يعمل جزء الذكاء الاصطناعي على تشغيل شبكات CNN (الشبكات العصبية التلافيفية) وشبكات RNN (الشبكات العصبية المتكررة) أو أي نموذج قابل للتطبيق للوصول إلى الهدف.

قبل الانتقال إلى التفاصيل الفنية ، دعنا نكتشف أين تقف التسمية التوضيحية للصور.

حالات استخدام علامات الصور والوصف المدعومة بالذكاء الاصطناعي

قال "تعليق الصور هو أحد قدرات الرؤية الحاسوبية الأساسية التي يمكن أن تتيح مجموعة واسعة من الخدمات" Xuedong هوانغ، زميل تقني في Microsoft ورئيس قسم التكنولوجيا في Azure AI Cognitive Services في ريدموند ، واشنطن.

لديه وجهة نظر لأن هناك بالفعل نطاق واسع من المجالات لتكنولوجيا التسميات التوضيحية للصور ، وهي: وضع علامات على الصور للتجارة الإلكترونية ، وخدمات مشاركة الصور ، والكتالوجات عبر الإنترنت.

في هذه الحالة ، يتم تنفيذ الإنشاء التلقائي للعلامات عن طريق الصورة. على سبيل المثال ، يمكن أن يبسط حياة المستخدمين عندما يقومون بتحميل صورة إلى كتالوج على الإنترنت. في هذه الحالة، يتعرف الذكاء الاصطناعي على الصورة وينشئ سمات - يمكن أن تكون توقيعات أو فئات أو أوصافًا. يمكن أن تحدد التقنية أيضًا نوع العنصر والمواد واللون والنمط وملاءمة الملابس للمتاجر عبر الإنترنت.

في الوقت نفسه ، يمكن تنفيذ التسمية التوضيحية للصور عن طريق خدمة مشاركة الصور أو أي كتالوج عبر الإنترنت لإنشاء وصف تلقائي ذي مغزى للصورة من أجل تحسين محركات البحث أو لأغراض التصنيف. علاوة على ذلك ، تسمح التسميات التوضيحية بالتحقق مما إذا كانت الصورة تتناسب مع قواعد النظام الأساسي حيث سيتم نشرها. هنا يعمل كبديل لتصنيف CNN ويساعد على زيادة حركة المرور والإيرادات.

ملحوظة: يعد إنشاء أوصاف لمقاطع الفيديو مهمة أكثر تعقيدًا. ومع ذلك ، فإن الوضع الحالي للتكنولوجيا يجعل ذلك ممكنًا بالفعل.

شروح الصور التلقائية للمكفوفين

لتطوير مثل هذا الحل ، نحتاج إلى تحويل الصورة إلى نص ثم إلى صوت. هذان تطبيقان معروفان لتقنية التعلم العميق.

تطبيق يسمى رؤية منظمة العفو الدولية تم تطويره بواسطة Microsoft يسمح للأشخاص الذين يعانون من مشاكل في العين برؤية العالم من حولهم باستخدام الهواتف الذكية. يمكن للبرنامج قراءة النص عند توجيه الكاميرا إليه وإعطاء توجيهات صوتية. يمكنه التعرف على كل من النص المطبوع والمكتوب بخط اليد ، وكذلك تحديد الأشياء والأشخاص.

شراء مراجعات جوجل قدم أيضًا أداة يمكنها إنشاء وصف نصي للصورة ، مما يسمح للمكفوفين أو أولئك الذين يعانون من مشاكل في البصر بفهم سياق الصورة أو الرسم. تتكون أداة التعلم الآلي هذه من عدة طبقات. يتعرف النموذج الأول على النص والأرقام المكتوبة بخط اليد في الصورة. ثم يتعرف نموذج آخر على الأشياء البسيطة للعالم المحيط - مثل السيارات والأشجار والحيوانات وما إلى ذلك. والطبقة الثالثة هي نموذج متقدم قادر على اكتشاف الفكرة الرئيسية في الوصف النصي الكامل.

AI Image Captioning لوسائل التواصل الاجتماعي

يتوفر شرح الصورة الذي تم إنشاؤه بمساعدة أداة قائمة على الذكاء الاصطناعي بالفعل لـ Facebook و Instagram. بالإضافة إلى ذلك ، يصبح النموذج أكثر ذكاءً طوال الوقت ، حيث يتعلم التعرف على الأشياء والأفعال والأنماط الجديدة.

أنشأ Facebook نظامًا قادرًا على إنشاء أوصاف نص بديل منذ ما يقرب من خمس سنوات. في الوقت الحاضر ، أصبح أكثر دقة. في السابق ، كان يصف الصورة باستخدام كلمات عامة ، ولكن الآن يمكن لهذا النظام إنشاء وصف مفصل.

تعريف الشعار باستخدام الذكاء الاصطناعي

يتم نشر تقنية تعليق الصور مع تقنيات الذكاء الاصطناعي الأخرى أيضًا. على سبيل المثال ، DeepLogo هي شبكة عصبية تعتمد على TensorFlow Object Detection API. ويمكنه التعرف على الشعارات. يظهر اسم الشعار المحدد كتعليق على الصورة. ال بحث على نموذج تجميع الشعارات المستند إلى GAN يمكن أن يسلط الضوء على كيفية عمل شبكات GAN.

البحث في نماذج التعلم العميق للتعليق على الصور

طبقنا نموذجًا ينشئ وصفًا نصيًا ذا مغزى للصور ، مع مراعاة حالات الاستخدام المحتملة. على سبيل المثال ، يمكن أن تصف التسمية التوضيحية إجراءً وعناصر تمثل الكائنات الرئيسية في كل صورة. للتدريب ، استخدمنا مجموعة بيانات Microsoft COCO 2014.

مجموعة بيانات COCO عبارة عن مجموعة بيانات لاكتشاف الكائنات على نطاق واسع ، وتجزئة ، وتسمية توضيحية. يحتوي على حوالي 1.5 مليون كائن مختلف مقسم إلى 80 فئة. كل صورة موضحة بخمسة تسميات توضيحية من صنع الإنسان.

طبقنا تدريب Andrej Karpathy والتحقق من صحته واختبار الانقسامات لتقسيم مجموعات البيانات لتدريب الأجزاء والتحقق منها واختبارها. أيضًا ، احتجنا إلى مقاييس مثل BLEU و ROUGE و METEOR و CIDEr و SPICE لتقييم النتائج.

مقارنة نماذج ML للتعليق على الصور

عادةً ما تقوم بنية الأساس لتعليق الصور بترميز الإدخال إلى نموذج ثابت وفك تشفيره ، كلمة بكلمة ، في تسلسل.

يقوم جهاز التشفير بترميز صورة الإدخال بثلاث قنوات ملونة في نسخة أصغر باستخدام القنوات "المكتسبة". هذه الصورة المشفرة الأصغر هي تمثيل موجز لكل ما هو مفيد في الصورة الأصلية. للتشفير ، يمكن تطبيق أي بنية CNN. أيضًا ، يمكننا استخدام التعلم عن طريق النقل لجزء المشفر.

ينظر جهاز فك التشفير إلى الصورة المشفرة ويقوم بإنشاء تعليق كلمة بكلمة. بعد ذلك ، يتم استخدام كل كلمة متوقعة لإنشاء المصطلح التالي.

قبل المضي قدمًا ، ألق نظرة على ما تلقيناه نتيجة إنشاء النموذج واختباره باستخدام نموذج محول الذاكرة الشبكية.

مثال على استخدام نموذج التعلم العميق للتعليق على الصور
مثال على استخدام نموذج التعلم العميق للتعليق على الصور
مثال على استخدام نموذج التعلم العميق للتعليق على الصور

التسميات التوضيحية للصور المستندة إلى الذكاء الاصطناعي

درسنا أيضًا الأمثلة التي أدت إلى حدوث أخطاء. هناك عدة أسباب لظهور الأخطاء. الأخطاء الأكثر شيوعًا هي جودة الصورة الرديئة وغياب بعض العناصر في مجموعة البيانات الأولية. تم تدريب النموذج على مجموعة بيانات تحتوي على صور عامة ، لذا فهو يرتكب أخطاء عندما لا يعرف المحتوى أو لا يمكنه التعرف عليه بشكل صحيح. هذه هي نفس طريقة عمل الدماغ البشري.

أخطاء ناتجة عن تسمية الصور بالذكاء الاصطناعي
حدث خطأ بواسطة نموذج التسمية التوضيحية للصور AI

فيما يلي حالة أخرى لتوضيح كيفية عمل الشبكات العصبية. لم يكن هناك نمور في نموذج مجموعة البيانات. وبدلاً من ذلك ، اختار الذكاء الاصطناعي أقرب كائن يعرفه - إنه مشابه تمامًا ، حيث يتعامل دماغنا مع المجهول.

تعمل الشبكات العصبية على كتابة نصوص لأشياء غير معروفة

نموذج الاهتمام التصاعدي للتعليق على الصورة

هذا هو النموذج الأول للمقارنة. تجمع آلية Up-Down بين آلية الانتباه من أسفل إلى أعلى ومن أعلى إلى أسفل.

يتم استخدام Faster R-CNN لإنشاء اتصال بين مهام الكشف عن الكائنات والتعليق على الصور. تم تدريب نموذج اقتراح المنطقة مسبقًا على مجموعات بيانات اكتشاف الكائنات نظرًا للاستفادة من المعرفة عبر المجالات. علاوة على ذلك ، على عكس بعض آليات الانتباه الأخرى ، يستخدم كلا النموذجين الانتباه بتمريرة واحدة مع آلية Up-Down.

يتم استخدام أسرع R-CNN (الشكل 5 أ) لاستخراج ميزة الصورة. يعد Faster R-CNN نموذجًا لاكتشاف الكائنات مصممًا لتحديد الكائنات التي تنتمي إلى فئات معينة وتوطينها باستخدام مربعات إحاطة. يكتشف Faster R-CNN الأشياء على مرحلتين.

المرحلة الأولى ، الموصوفة بشبكة اقتراح المنطقة (RPN) ، تتنبأ بمقترحات الكائنات. باستخدام القمع الجشع غير الأقصى مع عتبة التقاطع فوق الاتحاد (IoU) ، يتم تحديد مقترحات المربع العلوي كمدخلات إلى المرحلة الثانية.

في المرحلة الثانية ، يتم استخدام تجميع المنطقة محل الاهتمام (RoI) لاستخراج خريطة معالم صغيرة (مثل 14 × 14) لكل مربع مقترح. يتم بعد ذلك تجميع خرائط المعالم هذه معًا كمدخلات للطبقات النهائية لشبكة CNN. وبالتالي ، فإن ناتج النموذج النهائي يتكون من توزيع softmax على تسميات الفئة وتحسينات مربع الإحاطة الخاصة بالفئة لكل مقترح مربع. المخطط مأخوذ من ملصق رسمي.

نموذج R-CNN أسرع للتعليق التوضيحي للصورة

نظرًا لميزات الصورة V ، يستخدم نموذج التسمية التوضيحية المقترح آلية انتباه "ناعمة" من أعلى لأسفل لوزن كل ميزة أثناء إنشاء التسمية التوضيحية. هذا هو LSTM مع آلية الانتباه المضافة لأعلى. تشغيل. هذا هو LSTM مع آلية الانتباه المضافة لأعلى. على مستوى عالٍ ، يتكون نموذج التسمية التوضيحية من طبقتين LSTM.

نموذج محول الذاكرة الشبكية للتعليق على الصورة

نموذج آخر اتخذناه لحل مهمة التعليق على الصورة هو محولات ذاكرة متشابكة. يتكون من أجزاء التشفير وفك التشفير. كلاهما مصنوع من أكوام من طبقات اليقظة. يشتمل المشفر أيضًا على طبقات التغذية الأمامية ، ولدى مفكك التشفير آلية قابلة للتعلم مع ترجيح.

يتم ترميز مناطق الصورة بطريقة متعددة المستويات. يأخذ النموذج في الاعتبار العلاقات منخفضة المستوى وعالية المستوى. يتم ترميز المعرفة المكتسبة كنواقل ذاكرة. ترتبط طبقات أجزاء جهاز التشفير وفك التشفير في بنية تشبه الشبكة. يقرأ جهاز فك التشفير من إخراج كل طبقة تشفير ويقوم باهتمام ذاتي بالكلمات ويؤدي الانتباه إلى طبقات الترميز الشاملة بعد أن يتم تعديل النتائج وتلخيصها.

لذلك ، لا يمكن للنموذج استخدام المحتوى المرئي للصورة فحسب ، بل أيضًا معرفة مسبقة عن المشفر. المخططات مأخوذة من ورقة رسمية.

مخطط لمخطط التسميات التوضيحية للصور AI لتسمية الصور AI باستخدام نموذج محول الذاكرة الشبكي
مخطط لتسمية توضيحية للصور AI باستخدام نموذج محول الذاكرة الشبكي

مقارنة بين نموذجين للتعليق على الصورة

بناءً على بحثنا ، يمكننا مقارنة نموذج Up-down ونموذج M2transform ، حيث تم تدريبهما على نفس البيانات. يقدم الجدول أدناه ملخصًا لكلا النموذجين.

الجدول - مقاييس التقييم

بلو1 بلو2 عصير التفاح ROUGE METEOR
نموذج UpDown 0.8 0.358 1.16 0.573 0.275
M2 محول 0.8078 0.3834 1.278 0.58 0.2876

الجدول - وقت الاستدلال والذاكرة

الوقت: مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
وحدة المعالجة المركزية‏: وحدة معالجة الرسوميات‏:‏ وحدة المعالجة المركزية‏: وحدة معالجة الرسوميات‏:‏
نموذج التحديث 104.47s 17s 1479mb 1181mb
M2 محول شنومكس m شنومكس s 3m 16s 1423mb 1310mb

التعليق على الصورة: تحليل النتائج وآفاق المستقبل

أظهر كلا النموذجين المستخدمين نتائج جيدة إلى حد ما. بمساعدتهم ، يمكننا إنشاء تسميات توضيحية ذات مغزى لمعظم الصور من مجموعة البيانات الخاصة بنا. علاوة على ذلك ، بفضل ميزة الاستخراج المسبق باستخدام Faster-RCNN ، المدربة مسبقًا على مجموعة بيانات الجينوم المرئي الضخمة ، يمكن للنموذج التعرف على العديد من الأشياء والأفعال من حياة الناس اليومية وبالتالي وصفها بشكل صحيح.

ماهو الفرق؟

يعد طراز Updown أسرع وخفيف الوزن من M2Transformer. والسبب هو أن M2Transformer يستخدم تقنيات أكثر ، مثل وصلات إضافية ("متشابكة") بين جهاز التشفير وفك التشفير ، ومتجهات الذاكرة لتذكر التجربة السابقة. أيضًا ، تستخدم هذه النماذج آليات مختلفة للانتباه.

يمكن إجراء انتباه التحديث في مسار واحد ، بينما يجب تشغيل الانتباه متعدد الرؤوس المستخدم في M2Transformer بشكل متوازٍ عدة مرات. ومع ذلك ، وفقًا للمقاييس التي تم الحصول عليها ، حقق M2Transormer نتائج أفضل. بمساعدتها ، يمكننا إنشاء تسميات توضيحية أكثر دقة وتنوعًا. تحتوي تنبؤات M2Transformer على عدد أقل من عدم الدقة في الوصف لكل من الصور من مجموعة البيانات وبعض الصور الأخرى ذات الصلة. لذلك ، فإنه يؤدي المهمة الرئيسية بشكل أفضل.

قارنا نموذجين ، ولكن هناك أيضًا طرق أخرى لمهمة التعليق على الصورة. من الممكن تغيير وحدة فك التشفير والتشفير ، واستخدام متجهات كلمات مختلفة ، ودمج مجموعات البيانات ، وتطبيق تعلم النقل.

يمكن تحسين النموذج لتحقيق نتائج أفضل مناسبة لعمل معين ، إما كتطبيق للأشخاص الذين يعانون من مشاكل في الرؤية أو كأدوات إضافية مدمجة في منصات التجارة الإلكترونية. لتحقيق هذا الهدف ، يجب تدريب النموذج على مجموعات البيانات ذات الصلة. على سبيل المثال ، لكي يصف النظام القماش بشكل صحيح ، من الأفضل إجراء تدريب على مجموعات البيانات بالملابس.

أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟