كيف يمكن أتمتة استخراج البيانات ورقمنة العمليات القائمة على المستندات الخاصة بك؟

هل لا يزال استخراج البيانات اليدوي شيئًا في عام 2021؟

في اللحظة التي قرأت فيها عنوان منشور المدونة ، كان السؤال الأول الذي خطر ببالي هو: "هل لا يزال إدخال البيانات اليدوي شيئًا في عام 2021؟" قليل من البحث وفوجئت بسرور بحجم المشكلة. لا تزال العديد من المؤسسات تعتمد على الإدخال اليدوي للبيانات. لا يستثمر معظمهم في إنشاء خط أنابيب لاستخراج البيانات تلقائيًا لأن الإدخال اليدوي للبيانات رخيص للغاية ولا يتطلب خبرة تقريبًا. ومع ذلك ، وفقًا لـ 2018 Goldman Sachs تقريرتبلغ التكاليف المباشرة وغير المباشرة لإدخال البيانات يدويًا حوالي 2.7 تريليون دولار أمريكي للشركات العالمية.

كانت هناك حالة استخدام محتملة لخط أنابيب لاستخراج البيانات الآلي خلال جائحة COVID-19. يجب إدخال الكثير من البيانات مثل عدد الأشخاص الذين تم اختبارهم وتقارير الاختبار لكل فرد وما إلى ذلك يدويًا في قاعدة البيانات. كانت أتمتة العملية ستوفر الكثير من الوقت والقوى العاملة.

عمليات سحب البيانات اليدوية:

الأخطاء: عند تنفيذ مهمة مملة ومتكررة مثل الإدخال اليدوي للبيانات ، لا بد أن تتسلل الأخطاء. قد يكون تحديد هذه الأخطاء وتصحيحها في مرحلة لاحقة أمرًا مكلفًا.
عملية بطيئة: بالمقارنة مع الاستخراج الآلي للبيانات ، فإن الإدخال اليدوي للبيانات عملية بطيئة للغاية ويمكن أن تعطل خط أنابيب الإنتاج بأكمله.
أمن البيانات: عند التعامل مع البيانات الحساسة ، يمكن أن تؤدي عملية إدخال البيانات يدويًا إلى تسرب البيانات مما قد يؤدي بدوره إلى تعريض النظام للخطر.

هل تواجه مشكلات في استخراج البيانات يدويًا؟ هل تريد أن تجعل عملية استخراج البيانات في مؤسستك فعالة؟ رئيس لأكثر من النانو وانظر بنفسك حول كيفية أتمتة استخراج البيانات من المستندات.

القسم 1: خط نقل البيانات

للتغلب على العيوب المذكورة أعلاه ، تحتاج جميع المؤسسات الكبيرة تقريبًا إلى إنشاء خط أنابيب بيانات. يتم وصف المكونات الرئيسية لأي خط أنابيب بيانات بشكل مناسب من خلال اختصار ETL (استخراج ، وتحويل ، وتحميل). يتضمن استخراج البيانات استخراج البيانات من مصادر مختلفة ، وتهدف مرحلة تحويل البيانات إلى تحويل هذه البيانات إلى تنسيق محدد ويشير تحميل البيانات إلى عملية تخزين هذه البيانات في مستودع بيانات.

كيف يمكن أتمتة استخراج البيانات ورقمنة العمليات القائمة على المستندات الخاصة بك؟ — الشكل 1. عملية ETL

كونه المرحلة الأولى في خط الأنابيب ، يلعب استخراج البيانات دورًا مهمًا في أي مؤسسة. يستكشف هذا المنشور الطرق والأدوات المختلفة التي يمكن استخدامها لأداء استخراج البيانات وكيف يمكن استخدام التعرف الضوئي على الأحرف (OCR) لهذه المهمة.

القسم 2: استخراج البيانات تلقائيًا:

تتطلب جميع تحليلات البيانات الحديثة تقريبًا كميات كبيرة من البيانات لأداء جيد. على سبيل المثال: قد ترغب أي مؤسسة في الاحتفاظ بعلامات تبويب حول أداء منافسيها ، واتجاهات السوق العامة ، ومراجعات العملاء وردود أفعالهم وما إلى ذلك. ومن الطرق للقيام بذلك الاستفادة من أدوات استخراج البيانات يمكنه كشط الويب واسترداد البيانات من مصادر مختلفة. يسلط القسم التالي الضوء على عدد قليل من أدوات استخراج البيانات الشائعة.

2.1: أدوات استخراج البيانات
1) سكرابى: Scrapy هو زاحف ويب مفتوح المصدر مكتوب بلغة Python. دعنا نذهب إلى مثال بسيط يوضح كيف يمكن حتى للمبتدئ الكامل أن يتخلص من الويب باستخدام Scrapy. في المثال التالي ، استخدمت Scrapy لتحليل عنوان صفحة مدونة Nanonets.

على الرغم من أنني استخدمت Scrapy shell لغرض التحليل ، إلا أنه يمكن تحقيق نفس السلوك باستخدام برنامج نصي من Python.

الأداة سهلة الاستخدام للغاية ويمكن تحليل العناصر من أي صفحة HTML باستخدام CSS. كان الجانب السلبي الوحيد للأداة من وجهة نظر المبتدئين هو أن تحليل صفحات الويب الديناميكية كان تحديًا كبيرًا.

2) Octoparse و Outwit hub و Parsehub وغيرها من الأدوات مفتوحة المصدر التي توفر واجهة المستخدم الرسومية البديهية لكشط الويب.

بصرف النظر عن هذه الأدوات مفتوحة المصدر ، هناك شركات مكرسة لأداء استخراج البيانات. يمكن للمؤسسات الصغيرة التي لا تمتلك الموارد اللازمة لإنشاء خطوط أنابيب مخصصة لاستخراج البيانات الاستعانة بمصادر خارجية لعملية استخراج البيانات من خلال الاستفادة من خدمات استخراج البيانات هذه.

2.2: تقنيات استخراج البيانات

يوفر المخطط الانسيابي الوارد أدناه شرحًا موجزًا حول بعض تقنيات استخراج البيانات.

تستكشف الأقسام التالية استخدام التعرف الضوئي على الأحرف (OCR) لأداء مهمة استخراج البيانات.

هل تواجه مشكلات في استخراج البيانات يدويًا؟ هل تريد أن تجعل عملية استخراج البيانات في مؤسستك فعالة؟ رئيس لأكثر من النانو وانظر بنفسك كيف يمكن أتمتة استخراج البيانات من المستندات.

القسم 3: استخراج البيانات تلقائيًا باستخدام OCR:

التعرف الضوئي على الأحرف (OCR) هو تقنية تحدد الأحرف من المواد المطبوعة أو المكتوبة بخط اليد. من خلال إعداد خط أنابيب لاستخراج البيانات باستخدام التعرف الضوئي على الحروف ، يمكن للمؤسسات أتمتة عملية استخراج البيانات وتخزينها.

قلب أي نظام التعرف الضوئي على الحروف:

تأتي أدوات OCR الحديثة مع مجموعة من المعالجة المسبقة للبيانات (إزالة الضوضاء ، والترميز الثنائي ، وتجزئة الخط) وخطوات المعالجة اللاحقة. ومع ذلك ، يكمن في جوهر أي نظام OCR مكونان رئيسيان:

مستخرج الميزة و
مصنف

يستخرج مستخرج الميزة الميزات المقابلة لكل lexeme (حرف / كلمة). يتم تغذية هذه الميزات المستخرجة كمدخلات للمصنف الذي يحدد احتمال انتماء lexeme إلى فئة معينة.

الأساليب التقليدية لحل مشكلة التعرف الضوئي على الحروف:

مطابقة النموذج: يتم جمع وتخزين مجموعة من القوالب (صور لكل حرف من الحروف الأبجدية). ثم تتم مطابقة كل حرف في الصورة المدخلة مع هذه المجموعة من القوالب. ترتبط كل مقارنة بمقياس تشابه يتم من خلاله تحديد أفضل التطابقات الممكنة.

الطرق المستندة إلى القواعد: عندما كنا أطفالًا ، تعلمنا التعرف على الحرف "H" كخطين رأسيين بخط أفقي يربط بينهما. بديهيًا ، هذا ما تحاول الأساليب القائمة على القواعد تحقيقه. يتم استخراج ميزات هيكلية معينة من الصور المدخلة ويستخدم نظام قائم على القواعد لتصنيفها.

بصرف النظر عن الأساليب المذكورة أعلاه ، تم تطوير العديد من الطرق الأخرى لأداء OCR على أساس رؤية الكمبيوتر التقليدية. ومع ذلك ، تم استبدال جميعهم تقريبًا أو تم استكمالهم بـ Deep Learning.
الآن بعد أن أصبح لدينا فكرة عن ماهية OCR وبعض الأساليب التقليدية المستخدمة لأداء OCR ، دعنا نتعمق أكثر ...

القسم 4: أدوات التعرف الضوئي على الحروف

دعنا نلقي نظرة على بعض أدوات التعرف الضوئي على الحروف المجانية مفتوحة المصدر:

تسراكت: تم تطوير Tesseract في البداية بواسطة HP وتم إصداره كبرنامج مفتوح المصدر في عام 2005. ومنذ ذلك الحين ، استحوذت Google على تطويره. هناك العديد من البرامج التعليمية التي تشرح جميع تفاصيل tesseract OCR وكيف يمكن استخدامها. توفر المدونة التالية على Nanonets مراجعة شاملة لها https://nanonets.com/blog/ocr-with-tesseract/#introduction
أوكروبوس: OCRopus عبارة عن مجموعة من الأدوات المستخدمة لأداء OCR على الصور. يحتوي خط الأنابيب العام لـ OCRopus على ثلاث كتل رئيسية كما هو موضح في الشكل أدناه.

OCRopus هو محرك واجهة مستخدم رسومية كامل ويمكنه اختياريًا استخدام tesseract في الواجهة الخلفية لأداء OCR.

3. كالاماري OCR: Calamari OCR هو برنامج جديد نسبيًا للتعرف على الخطوط يستخدم شبكات عصبية عميقة مطبقة في TensorFlow. عند مقارنتها بـ Tesseract و OCRopus ، فإن Calamari OCR لديها القليل من التفسيرات التي توضح تفاصيل بنية شبكتها وأعمالها الداخلية. تبدو هذه نقطة جيدة لإضفاء الطابع الرسمي على مشكلة التعرف الضوئي على الحروف والنظر إليها من خلال عيون كالاماري.

لنفترض أننا نريد إجراء التعرف البصري على الأحرف على كلمة "سرعة" باستخدام شبكة عصبية عميقة (DNN). لنفترض أيضًا أننا أنشأنا DNN باستخدام الشبكات العصبية التلافيفية (CNN) والذاكرة طويلة المدى (LSTMs) لأداء هذه المهمة. تتنبأ شبكتنا باحتمالات الإخراج المرتبطة بكل فئة في كل خطوة.

على سبيل المثال: في سيناريو مثالي

يوضح الجدول أدناه قيم الاحتمال المحتملة المرتبطة بكل خطوة زمنية.

	T0	T1	T2	T3	T4
ف (أ)	0.001	0.002	0.01	0.01	0.001
ف (ب)	0.001	0.003	0.003	0.002	0.002
جهاز كمبيوتر)	0.005	0.005	0.002	0.001	0.001
ف (د)	0.002	0.001	0.001	0.003	0.7
ف (هـ)	0.001	0.002	0.7	0.8	0.002
. . .	. . .	. . .	. . .	. . .
ف (ع)	0.003	0.8	0.002	0.004	0.001
. . .	. . .	. . .	. . .	. . .
ملاحظة)	0.7	0.008	0.002	0.001	0.007
. . .	. . .	. . .	. . .	. . .

الجدول 1. الاحتمالات المرتبطة بكل فئة

بأخذ الحد الأقصى من الاحتمال تحت كل خطوة زمنية ، نحصل على الناتج المطلوب ، أي السرعة. ما الخطأ الذي يمكن أن يحدث في هذا النهج؟ دعنا نتوقف لحظة للتفكير في افتراض قمنا به في منطقنا وهو محاذاة كل خطوة زمنية.
افترضنا أن كل خطوة زمنية تحدث بالضبط بين الحروف الهجائية المتتالية. كان من الممكن أن يكون الناتج مختلفًا تمامًا إذا قررت الشبكة العصبية محاذاة الخطوات الزمنية كما هو موضح في الشكل 8.

في هذا السيناريو ، قد تتوقع الشبكة العصبية SSPPEEEEDD كإخراج. ثانيًا ، قد يكون إعداد بيانات التدريب للشبكة العصبية أمرًا شاقًا للغاية. سنحتاج إلى تحديد موقع البكسل الدقيق الذي تبدأ عنده كل أبجدية وتنتهي.

ما بدا وكأنه مهمة مباشرة ثبت أنه محبط للغاية. يمكن حل مشكلة المحاذاة الخاطئة للخطوات الزمنية والتعليقات التوضيحية لبيانات التدريب عن طريق إدخال وظيفة خسارة جديدة.

التصنيف الزمني الرابطي (CTC)

تساعدنا CTC بالطرق التالية:

باستخدام خسارة CTC ، يمكننا تدريب الشبكة دون الحاجة إلى تحديد موضع البكسل لكل أبجدية. يتم تحقيق ذلك من خلال إدخال شخصية جديدة "-". يتم استخدام "-" للإشارة إلى عدم رؤية أي حرف في وقت معين.
باستخدام هذا الحرف الخاص "-" ، يمكن تعديل الحقيقة الأساسية لتأخذ في الاعتبار جميع المواضع الممكنة حيث تظهر كلمة "السرعة" في الصورة. على سبيل المثال ، يمكن كتابة كلمة "speed" على النحو التالي "—speed" ، "–speed-" ، "-speed-" ، "speed—". وبالمثل ، نظرًا لأننا لا نعرف مقدار المساحة التي قد تستغرقها كل حرف ، فإننا نضيف تكرارات الأحرف لحساب أطوال الأحرف المختلفة ، مثل "السرعة" يمكن كتابتها كـ "- السرعة" ، "- السرعة" ، وما إلى ذلك.
في حالة تكرار الحرف الفعلي في الحقيقة الأساسية ، نحتاج إلى إضافة "-" بين الأحرف المكررة. وبالتالي يمكن تشفير كلمة "speed" بالطرق التالية: "- spe-ed" ، "–spe-ed-" ، "-spe-ed-" ، "spe-ed-" ، "–sspe-ed" ، إلخ. نحسب النتيجة لكل تشفير محتمل ومجموع كل الدرجات الفردية يعطينا الخسارة لكل زوج (صورة ، حقيقة أرضية).
استخدام مفكك تشفير CTC أبسط بكثير. لنفترض أن مخرجات وحدة فك التشفير "ssppe-eee-dd. يمكننا ببساطة تجاهل التكرارات مثل "ssppe-eee-dd" تصبح "spe-ed". أخيرًا ، نقوم بإزالة الأحرف "-" للحصول على كلمة "speed".

لقد وجدت الموارد التالية مفيدة للغاية عند التعرف على خسارة CTC.https://distill.pub/2017/ctc/ https://dl.acm.org/doi/abs/10.1145/1143844.1143891

تنفيذ الشبكة أمر بسيط ومباشر. وفقًا للورقة (https://arxiv.org/pdf/1807.02004.pdf) ، فإن الشبكة الافتراضية لها المواصفات التالية:

العمارة: طبقة التحويل -> الحد الأقصى للتجميع -> طبقة التحويل -> أقصى تجمع -> LSTM.

خسارة: خسارة CTC

محسن: آدم بمعدل تعلم 0.001

تفو! كان هذا كثير من النظريات. دعنا نتسخ أيدينا من خلال تنفيذ التعرف الضوئي على الأحرف باستخدام Calamari.

الشروع في العمل من صفحة جيثب كالاماري https://github.com/Calamari-OCR/calamari إنها مهمة سهلة ولم أواجه أي مشكلة أثناء عملية التثبيت. قررت استخدام نموذج تم تدريبه على مجموعة البيانات uw3-modern-english. يوضح الشكل 9 المدخلات المغذية للشبكة ويوضح الشكل 10 المخرجات المقابلة.

أنتج Calamari الناتج (الشكل 10) بثقة 97 ٪. يعمل بشكل جيد للغاية في معظم الحالات ويمكن بسهولة ضبطه ليناسب حالة الاستخدام المحددة الخاصة بك.
NOTE: ينفذ Calamari التعرف الضوئي على الحروف على سطر واحد من النص في المرة الواحدة. إذا كنت ترغب في إجراء التعرف الضوئي على الحروف على مستند كامل ، يلزم إجراء بعض المعالجة المسبقة (تحليل التخطيط ، وتجزئة السطر ، إلخ) قبل تغذية الصورة إلى Calamari.
بصرف النظر عن أدوات OCR المجانية مفتوحة المصدر المذكورة أعلاه ، هناك العديد من الأدوات المدفوعة مثل Google cloud Vision و Microsoft Computer Vision API و Amazon Textract.

يتحدث القسم التالي عن كيفية استخدام التعرف الضوئي على الحروف لحل المشكلات العملية في مختلف الصناعات والمؤسسات.

هل لديك شرط استخراج البيانات؟ رئيس لأكثر من النانو وشاهد كيف يمكنك أتمتة استخراج البيانات من مستندات مثل ملفات PDF والإيصالات والفواتير والنماذج والمزيد.

القسم 5: حالات الاستخدام العملي لاستخراج البيانات باستخدام التعرف الضوئي على الحروف:

باستخدام خط أنابيب OCR العام الموضح في FlowChart3 ، يتم توضيح بعض المشكلات التي يمكن حلها باستخدام OCR أدناه.

تقنيات استخراج البيانات القائمة على التعرف الضوئي على الحروف لقطاع الرعاية الصحية

المشكلة: منذ أن كنت طفلاً صغيراً ، كان يتم تنفيذ التسلسل التالي من الخطوات كلما زرت المستشفى. سيطلب موظف الاستقبال رقم هويتي أولاً. ثم تغوص في كومة ضخمة من اليوميات التي تم فرزها بطريقة ما. عادة ، بعد فترة طويلة من البحث ، كنت أحصل على مذكراتي ورقم رمزي. كان الطبيب يفحص سبب مرضي ويكتب وصفة طبية في دفتر يومياتي. عند تسليم الوصفة الطبية للصيدلية ، سأحصل على الأدوية المطلوبة. أفترض أن هذا هو الروتين المتبع في معظم المستشفيات المحلية داخل الدولة.

حل: باستخدام خط أنابيب OCR الخاص بنا ، يمكن رقمنة جميع المعلومات وتخزينها في قاعدة بيانات. تتمثل إحدى الطرق البسيطة لتنفيذ ذلك في تسليم النماذج إلى كل مريض والتي يتم مسحها ضوئيًا وإدخالها في خط أنابيب التعرف الضوئي على الحروف. مزايا القيام بذلك عديدة:

يمكن تخزين التاريخ الطبي للمرضى في قاعدة بيانات مشتركة يمكن للأطباء الوصول إليها حسب إرادتهم. هذه المعلومات يمكن أن تساعد الطبيب في تشخيص المرض.
يمكن للمستشفى تحليل البيانات وتخصيص مواردها وفقًا لذلك. على سبيل المثال: إذا كانت البيانات تشير إلى أن قسم أمراض النساء لديه أقصى عدد من المرضى ، فيمكن للمستشفى اختيار توظيف المزيد من الأطباء والممرضات في هذا القسم.

المزالق المحتملة:

كما قد تكون خمنت ، فإن فك رموز وصفات الأطباء باستخدام التعرف الضوئي على الحروف ليس تحديًا صغيرًا. ومع ذلك ، من خلال استخدام بيانات تدريب جيدة الجودة إلى جانب بعض المعلومات الخاصة بالمجال (أسماء الأدوية المعروفة) في خطوة ما بعد المعالجة ، يمكن جعل الحل قويًا لمعظم الأخطاء.

خدمات استخراج البيانات الآلية التي يمكن أن تفيد الحكومة

المشكلة: خلال العام الماضي ، جلب جائحة COVID-19 معه مجموعة من المشاكل. لقد فوجئت تمامًا عندما علمت أن الإدخال اليدوي للبيانات كان أحدها. عندما كان الوباء في ذروته ، كان يتم إجراء العديد من الاختبارات كل يوم وكان يجب إدخال جميع النتائج يدويًا في قاعدة البيانات.

حل: كان من الممكن استخدام التعرف الضوئي على الحروف بسهولة في هذا السيناريو. يمكن إدخال نسخة ممسوحة ضوئيًا من تقرير المختبر في خط أنابيب التعرف الضوئي على الحروف. على سبيل المثال ، يوضح الشكل 11 تقرير الاختبار الذي يتم تغذيته كمدخل لخط الأنابيب والشكل 12 هو النتيجة المقابلة.

يمكن تبسيط المشكلة أكثر من خلال التركيز على المجالات المهمة وتجاهل الباقي. في هذه الحالة ، يجب استخراج اسم الفرد ونتيجة الاختبار بشكل موثوق. نظرًا لأن نتائج الاختبار ثنائية ، أي إما سلبية أو إيجابية ، فيمكن مطابقتها باستخدام التعبيرات العادية. وبالمثل ، يمكن استبدال حقل الاسم برقم تعريف فريد لضمان التعرف على الأحرف بشكل موثوق.

برنامج استخراج البيانات القائم على التعرف الضوئي على الحروف لأتمتة الفواتير

المشكلة: يوجد في أعماق قسم الحسابات في أي مؤسسة مجموعة من الأشخاص تتمثل وظيفتهم في إدخال البيانات يدويًا من الفواتير في قاعدة بيانات الشركة. هذه مهمة متكررة ودنيوية يمكن تشغيلها آليًا بفضل خط أنابيب التعرف الضوئي على الحروف.

الحل: يمكن أن يؤدي إجراء OCR على الفاتورة المحددة إلى أتمتة مهمة الإدخال اليدوي للبيانات. لقد تم بالفعل إنجاز الكثير من العمل في هذا المجال وتطوير حل قوي يتوقف بشكل أساسي على استخراج الجداول والمبالغ بدقة من الفاتورة بشكل موثوق.

المدونات التالية https://nanonets.com/blog/table-extraction-deep-learning/ و https://nanonets.com/blog/extract-structured-data-from-invoice/ تقديم تفسيرات شاملة لنفسه.

القسم السادس: أحدث بحث:

ScrabbleGAN: إنشاء نص مكتوب بخط اليد بطول متباين شبه خاضع للإشراف(https://arxiv.org/abs/2003.10557) (CVPR-2020):

تتناول هذه الورقة مشكلة التعرف على النص المكتوب بخط اليد (HTR). على الرغم من أن أدوات التعرف الضوئي على الحروف الحديثة تؤدي أداءً جيدًا على النص المطبوع ، إلا أن التعرف على النص المكتوب بخط اليد لا يزال مجالًا متطورًا. يعزو المؤلفون هذه الفجوة إلى نقص بيانات التدريب ، أي عدم وجود نص مكتوب بخط اليد مشروح. يقترح المؤلفون اسم DNN يمكنه إنشاء صور مكتوبة بخط اليد ذات أنماط مختلفة.

الشكل 13. يوضح بنية ScrabbleGAN. يولد المولد صورًا اصطناعية يتم تغذيتها بأداة التعرف بالإضافة إلى أداة التمييز. يُجبر المُميِّز المولد على إنشاء صور ذات مظهر حقيقي بينما يتأكد أداة التعرف من إنشاء كلمات ذات معنى بواسطة المولد.

يتم تدريب الشبكة بطريقة شبه خاضعة للإشراف ويتم استخدام مقياسين هما معدل خطأ الكلمات (WER) ومسافة التحرير الطبيعية (NED) للتقييم.

2. OrigamiNet: OrigamiNet: ضعيف الإشراف ، خالٍ من التقسيم ، خطوة واحدة ، التعرف على نص الصفحة بالكامل من خلال تعلم كيفية الكشف (https://arxiv.org/abs/2006.07491) (CVPR-2020):

حاولت بنيات OCR الأولى تقسيم كل حرف من صورة الإدخال وتصنيف كل حرف مجزأ. تقدم هذا إلى مناهج خالية من التجزئة حيث تم تجزئة كلمة كاملة وتصنيفها. اليوم ، تعمل معظم الأساليب الحديثة على سطر كامل من النص.

في هذه الورقة ، يقترح المؤلفون مجموعة بسيطة من العمليات التي تمكن من إجراء التعرف الضوئي على الحروف على صفحة كاملة في مسار واحد للأمام عبر الشبكة. القيد الرئيسي في أداء OCR على صفحة كاملة هو أن وظيفة خسارة CTC تتطلب أن يكون الإدخال 1D. وهذا موضح بوضوح في الشكل 15 ، حيث يتم أخذ عينات المدخلات إلى الأسفل وتحويلها إلى 1D قبل مرحلة حساب الخسارة.

نظرًا لأن شبكات CNN تؤدي أداءً جيدًا في مهام مثل ترجمة الصور إلى الصور ، فقد استخدم المؤلفون شبكة CNN لتعلم التحويل ثنائي الأبعاد إلى ثنائي الأبعاد. يتم تكبير خريطة المعالم من الشبكة العصبية العامة التلافيفية بالكامل عموديًا واختزالها أفقيًا في مرحلتين متتاليتين قبل تنفيذ عملية التجميع.

تحتوي خريطة المعالم الطويلة النهائية على جميع أسطر النص من صورة الإدخال. يجادل المؤلفون بأن تزويد النموذج بسعة مكانية كافية يسمح له بسهولة تعلم التحويل ثنائي الأبعاد إلى ثنائي الأبعاد المطلوب.
قام المؤلفون بتقييم عملهم باستخدام شبكات CNN القياسية مثل ResNet و VGG و GTR

استنتاج:

في هذا المنشور ، نظرنا في استخراج البيانات بالتفصيل وكيف يمكن استخدام التعرف البصري على الأحرف لحل هذه المشكلة. يحتوي القسم 1 على مقدمة موجزة عن مشكلة استخراج البيانات. في القسم 2 ألقينا نظرة على بعض أدوات وتقنيات استخراج البيانات. قدم القسم 3 نظرة عامة على مشكلة التعرف الضوئي على الحروف وبعض الطرق التقليدية المستخدمة لحلها. في القسم 4 ، استكشفنا بعض الأدوات مفتوحة المصدر الشائعة المستخدمة لأداء OCR وفهمنا وظيفة فقدان CTC. يحتوي القسم 5 على العديد من حالات الاستخدام العملي حيث يمكن استخدام التعرف الضوئي على الحروف لحل مشكلة استخراج البيانات. أخيرًا ، نظرنا إلى أحدث الأبحاث في مجال التعرف الضوئي على الحروف.

ابدأ في استخدام Nanonets للأتمتة

جرب النموذج أو اطلب عرضًا تجريبيًا اليوم!

جرب الآن