إنشاء خط أنابيب تحليل مستندات متعدد التنسيقات وقابل للتتبع ومخصص مع Amazon Textract

تعمل النماذج التنظيمية كأداة أعمال أساسية عبر الصناعات - من الخدمات المالية إلى الرعاية الصحية والمزيد. ضع في اعتبارك ، على سبيل المثال ، نماذج الإيداع الضريبي في صناعة إدارة الضرائب ، حيث تظهر نماذج جديدة كل عام تحتوي على نفس المعلومات إلى حد كبير. يحتاج عملاء AWS عبر القطاعات إلى معالجة المعلومات وتخزينها في نماذج كجزء من ممارساتهم التجارية اليومية. غالبًا ما تعمل هذه النماذج كوسيلة أولية لتدفق المعلومات إلى منظمة حيث تكون الوسائل التكنولوجية لالتقاط البيانات غير عملية.

بالإضافة إلى استخدام النماذج للحصول على المعلومات ، على مدار سنوات العرض أمازون تيكستراك، لقد لاحظنا أن عملاء AWS يقومون في كثير من الأحيان بإصدار نماذجهم التنظيمية بناءً على التغييرات الهيكلية التي تم إجراؤها ، أو الحقول المضافة أو المتغيرة ، أو اعتبارات أخرى مثل تغيير السنة أو إصدار النموذج.

عندما تتغير بنية النموذج أو محتواه ، غالبًا ما يتسبب ذلك في تحديات لأنظمة التعرف الضوئي على الحروف التقليدية أو يؤثر على أدوات المصب المستخدمة لالتقاط المعلومات ، حتى عندما تحتاج إلى الحصول على نفس المعلومات عامًا تلو الآخر وتجميع البيانات للاستخدام بغض النظر عن التنسيق من الوثيقة.

لحل هذه المشكلة ، نوضح في هذا المنشور كيف يمكنك إنشاء ونشر خط أنابيب لتحليل المستندات قائم على الأحداث وبدون خادم ومتعدد التنسيقات باستخدام Amazon Textract.

حل نظرة عامة

يوضح الرسم البياني التالي بنية الحلول لدينا:

أولاً ، يقدم الحل خط الأنابيب باستخدام خدمة تخزين أمازون البسيطة (Amazon S3) وإشعارات أحداث Amazon S3 وملف خدمة Amazon Simple Queue Service (Amazon SQS) في قائمة انتظار بحيث تبدأ المعالجة عند وصول النموذج إلى قسم Amazon S3 الهدف. حدث يوم أمازون إيفينت بريدج تم إنشاؤه وإرساله إلى AWS لامدا الهدف الذي يؤدي إلى تشغيل وظيفة Amazon Textract.

يمكنك استخدام خدمات AWS بدون خوادم مثل Lambda و وظائف خطوة AWS لإنشاء عمليات تكامل غير متزامنة للخدمة بين خدمات AWS AI و AWS Analytics وخدمات قاعدة البيانات للتخزين والتحليلات والذكاء الاصطناعي والتعلم الآلي (ML). في هذا المنشور ، نوضح كيفية استخدام وظائف الخطوة للتحكم بشكل غير متزامن والحفاظ على حالة الطلبات لواجهات برمجة تطبيقات Amazon Textract غير المتزامنة. يتم تحقيق ذلك باستخدام آلة الدولة لإدارة المكالمات والردود. نستخدم Lambda داخل جهاز الحالة لدمج بيانات استجابة API المرقمة من Amazon Textract في كائن JSON واحد يحتوي على بيانات نصية شبه منظمة مستخرجة باستخدام OCR.

ثم نقوم بالتصفية عبر نماذج مختلفة باستخدام نهج موحد لتجميع بيانات التعرف الضوئي على الحروف في تنسيق منظم شائع باستخدام أمازون أثينا و SQL Amazon Textract JSON سيردي.

يمكنك تتبع الخطوات التي تم اتخاذها من خلال هذا الخط باستخدام وظائف الخطوة بدون خادم لتتبع حالة المعالجة والاحتفاظ بإخراج كل حالة. هذا شيء يفضله العملاء في بعض الصناعات عند العمل مع البيانات حيث يجب عليك الاحتفاظ بنتائج جميع التوقعات من خدمات مثل Amazon Textract لتعزيز إمكانية شرح نتائج خط الأنابيب الخاصة بك على المدى الطويل.

أخيرًا ، يمكنك الاستعلام عن البيانات المستخرجة في جداول أثينا.

في الأقسام التالية ، نوجهك خلال إعداد خط الأنابيب باستخدام تكوين سحابة AWSواختبار خط الأنابيب وإضافة إصدارات جديدة من النموذج. يوفر خط الأنابيب هذا حلاً قابلاً للصيانة لأن كل مكون (استيعاب ، واستخراج نص ، ومعالجة نص) مستقل ومعزول.

تحديد معلمات الإدخال الافتراضية لمكدسات CloudFormation

لتحديد معلمات الإدخال لحزم CloudFormation ، افتح default.properties تحت params المجلد وأدخل الكود التالي:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

انشر الحل

لنشر خط الأنابيب الخاص بك ، أكمل الخطوات التالية:

اختار قم بتشغيل Stack:
اختار التالى.
حدد تفاصيل المكدس كما هو موضح في لقطة الشاشة التالية واختر التالى.
في مجلة تكوين خيارات المكدس ، أضف علامات اختيارية وأذونات وإعدادات متقدمة أخرى.
اختار التالى.
راجع تفاصيل المكدس وحدد أقر بأن AWS CloudFormation قد تنشئ موارد IAM بأسماء مخصصة.
اختار إنشاء مكدس.

يؤدي هذا إلى بدء نشر المكدس في حساب AWS الخاص بك.

بعد نشر المكدس بنجاح ، يمكنك البدء في اختبار خط الأنابيب كما هو موضح في القسم التالي.

اختبر خط الأنابيب

بعد النشر الناجح ، أكمل الخطوات التالية لاختبار خط الأنابيب الخاص بك:

تحميل ملفات عينة على جهاز الكمبيوتر الخاص بك.
خلق /uploads المجلد (القسم) ضمن دلو الإدخال S3 الذي تم إنشاؤه حديثًا.
قم بإنشاء مجلدات منفصلة (أقسام) مثل jobapplications مع /uploads.
قم بتحميل الإصدار الأول من طلب الوظيفة من نموذج مجلد المستندات إلى ملف /uploads/jobapplications تقسيم.

عند اكتمال خط الأنابيب ، يمكنك العثور على قيمة المفتاح المستخرجة لهذا الإصدار من المستند بتنسيق /OuputS3/03-textract-parsed-output/jobapplications على وحدة تحكم Amazon S3.

يمكنك أيضًا العثور عليها في طاولة أثينا (applications_data_table) على ال قاعدة البيانات قائمة طعام (jobapplicationsdatabase).

قم بتحميل الإصدار الثاني من طلب الوظيفة من نموذج مجلد المستندات إلى ملف /uploads/jobapplications تقسيم.

عند اكتمال خط الأنابيب ، يمكنك العثور على قيمة المفتاح المستخرجة لهذا الإصدار بتنسيق /OuputS3/03-textract-parsed-output/jobapplications على وحدة تحكم Amazon S3.

يمكنك أيضًا العثور عليها في طاولة أثينا (applications_data_table) على ال قاعدة البيانات قائمة طعام (jobapplicationsdatabase).

انت انتهيت! لقد قمت بنشر خط الأنابيب الخاص بك بنجاح.

إضافة إصدارات جديدة من النموذج

يعد تحديث الحل لإصدار نموذج جديد أمرًا مباشرًا - كل إصدار نموذج يحتاج فقط إلى التحديث عن طريق اختبار الاستعلامات في مكدس المعالجة.

بعد إجراء التحديثات ، يمكنك إعادة نشر خط الأنابيب المحدث باستخدام AWS CloudFormation APIs ومعالجة المستندات الجديدة ، والوصول إلى نفس نقاط البيانات القياسية لمخططك مع الحد الأدنى من التعطيل وجهود التطوير اللازمة لإجراء تغييرات على خط الأنابيب الخاص بك. هذه المرونة ، التي تتحقق من خلال فصل سلوك التحليل والاستخراج واستخدام وظيفة JSON SerDe في أثينا ، تجعل خط الأنابيب هذا حلاً قابلاً للصيانة لأي عدد من إصدارات النموذج التي تحتاج مؤسستك لمعالجتها لجمع المعلومات.

أثناء تشغيل حل الاستيعاب ، يتم تلقائيًا تعبئة البيانات من النماذج الواردة إلى أثينا بمعلومات حول الملفات والمدخلات المرتبطة بها. عندما تنتقل البيانات في النماذج الخاصة بك من البيانات غير المهيكلة إلى البيانات المنظمة ، فهي جاهزة للاستخدام في التطبيقات النهائية مثل التحليلات ونمذجة ML والمزيد.

تنظيف

لتجنب تكبد رسوم مستمرة ، احذف الموارد التي أنشأتها كجزء من هذا الحل عند الانتهاء.

في وحدة التحكم Amazon S3 ، احذف الحاويات التي أنشأتها يدويًا كجزء من مكدس CloudFormation.
في وحدة تحكم AWS CloudFormation ، اختر كومات في جزء التنقل.
حدد المكدس الرئيسي واختر حذف.

يؤدي هذا تلقائيًا إلى حذف المكدسات المتداخلة.

وفي الختام

في هذا المنشور ، أوضحنا كيف يمكن للعملاء الذين يسعون إلى تتبع معالجة المستندات وتخصيصها بناء ونشر خط أنابيب لتحليل المستندات قائم على الأحداث وبدون خادم ومتعدد التنسيقات باستخدام Amazon Textract. يوفر خط الأنابيب هذا حلاً قابلاً للصيانة لأن كل مكون (استيعاب ، واستخراج نص ، ومعالجة نصوص) مستقل ومعزول ، مما يسمح للمؤسسات بتفعيل حلولها لتلبية احتياجات المعالجة المتنوعة.

جرب الحل اليوم واترك ملاحظاتك في قسم التعليقات.

حول المؤلف

إميلي سوارد هو عالم بيانات مع خدمات AWS الاحترافية. وهي حاصلة على ماجستير العلوم بامتياز في الذكاء الاصطناعي من جامعة إدنبرة في اسكتلندا ، المملكة المتحدة مع التركيز على معالجة اللغات الطبيعية (NLP). عملت إميلي في أدوار علمية وهندسية تطبيقية تركز على البحث والتطوير في المنتجات المدعومة بالذكاء الاصطناعي ، والتميز التشغيلي ، والحوكمة لأعباء عمل الذكاء الاصطناعي التي تعمل في مؤسسات في القطاعين العام والخاص. وهي تساهم في توجيه العملاء بصفتها متحدثة أولى في AWS ومؤخراً كمؤلفة لـ AWS Well-Architected in the Machine Learning Lens.

سانديب سينغ هو عالم بيانات مع خدمات AWS الاحترافية. وهو حاصل على ماجستير العلوم في نظم المعلومات مع التركيز في الذكاء الاصطناعي وعلوم البيانات من جامعة ولاية سان دييغو (SDSU) ، كاليفورنيا. وهو عالم بيانات متكامل يتمتع بخلفية قوية في علوم الكمبيوتر ومستشار موثوق به متخصص في أنظمة الذكاء الاصطناعي وتصميم التحكم. إنه متحمس لمساعدة العملاء في الحصول على مشاريعهم عالية التأثير في الاتجاه الصحيح ، وتقديم المشورة لهم وتوجيههم في رحلتهم السحابية ، وبناء أحدث الحلول الممكّنة من الذكاء الاصطناعي / التعلم الآلي.

ذكاء البيانات التوليدية

أنشئ خط أنابيب لتحليل المستندات قابل للتتبع ومخصص ومتعدد التنسيقات باستخدام Amazon Textract

حل نظرة عامة

تحديد معلمات الإدخال الافتراضية لمكدسات CloudFormation

انشر الحل

اختبر خط الأنابيب

إضافة إصدارات جديدة من النموذج

تنظيف

وفي الختام

حول المؤلف

تسعى رسالة الكونجرس إلى زيادة كبيرة في ميزانية ناسا العلمية

ارتفاع عملة Memecoin "Boden" بعد سخرية ترامب منها

أحدث المعلومات الاستخباراتية

تقدم Revolut منصة تداول العملات المشفرة للمستهلكين في المملكة المتحدة - CryptoInfoNet

تأجيل إدراج أسهم مزود محفظة العملات المشفرة Exodus في بورصة نيويورك لمراجعة هيئة الأوراق المالية والبورصات

مجلس النواب الأمريكي يصوت على إلغاء قاعدة هيئة الأوراق المالية والبورصات بشأن محاسبة العملات المشفرة - CryptoInfoNet

مجلس النواب الأمريكي يصوت على إلغاء قاعدة هيئة الأوراق المالية والبورصات بشأن محاسبة العملات المشفرة - CryptoInfoNet

يسعى دائنو FTX إلى السداد بأسعار السوق الحالية

تخطط شركة Virgin Galactic لزيادة معدل رحلات السفينة الأم باستخدام الطائرات الفضائية من الجيل التالي