شعار زيفيرنت

تصنيف المستندات بطريقة فعالة من حيث التكلفة باستخدام نموذج Amazon Titan Multimodal Embeddings | خدمات الويب الأمازون

التاريخ:

ترغب المؤسسات عبر الصناعات في تصنيف واستخراج الرؤى من كميات كبيرة من المستندات ذات التنسيقات المختلفة. تظل المعالجة اليدوية لهذه المستندات لتصنيف المعلومات واستخراجها باهظة الثمن، وعرضة للخطأ، وصعبة القياس. التقدم في الذكاء الاصطناعي التوليدي (AI) لقد أدت إلى ظهور حلول معالجة المستندات الذكية (IDP) التي يمكنها أتمتة تصنيف المستندات وإنشاء طبقة تصنيف فعالة من حيث التكلفة قادرة على التعامل مع مستندات المؤسسة المتنوعة وغير المنظمة.

يعد تصنيف المستندات خطوة أولى مهمة في أنظمة IDP. يساعدك على تحديد مجموعة الإجراءات التالية التي يجب اتخاذها وفقًا لنوع المستند. على سبيل المثال، أثناء عملية الفصل في المطالبات، يتلقى فريق الحسابات الدائنة الفاتورة، بينما يقوم قسم المطالبات بإدارة وثائق العقد أو السياسة. يمكن لمحركات القواعد التقليدية أو التصنيف القائم على التعلم الآلي تصنيف المستندات، ولكنها غالبًا ما تصل إلى حد لأنواع تنسيقات المستندات ودعم الإضافة الديناميكية لفئات جديدة من المستندات. لمزيد من المعلومات، راجع يضيف مصنف المستندات Amazon Comprehend دعمًا للتخطيط للحصول على دقة أعلى.

في هذا المقال، نناقش تصنيف المستندات باستخدام نموذج Amazon Titan Multimodal Embeddings لتصنيف أي أنواع المستندات دون الحاجة إلى التدريب.

أمازون تيتان التضمين المتعدد الوسائط

قدمت أمازون مؤخرا تيتان التضمين المتعدد الوسائط in أمازون بيدروك. يمكن لهذا النموذج إنشاء عمليات تضمين للصور والنصوص، مما يتيح إنشاء عمليات تضمين المستندات لاستخدامها في سير عمل تصنيف المستندات الجديد.

يقوم بإنشاء تمثيلات متجهة محسنة للمستندات الممسوحة ضوئيًا كصور. ومن خلال تشفير كل من المكونات المرئية والنصية في ناقلات رقمية موحدة تغلف المعنى الدلالي، فإنه يتيح الفهرسة السريعة والبحث السياقي القوي والتصنيف الدقيق للمستندات.

مع ظهور قوالب وأنواع المستندات الجديدة في سير عمل الأعمال، يمكنك ببساطة استدعاء واجهة برمجة تطبيقات أمازون بيدروك لتوجيهها ديناميكيًا وإلحاقها بأنظمة IDP الخاصة بها لتعزيز قدرات تصنيف المستندات بسرعة.

حل نظرة عامة

دعونا نتفحص حل تصنيف المستندات التالي باستخدام نموذج Amazon Titan Multimodal Embeddings. للحصول على الأداء الأمثل، يجب عليك تخصيص الحل ليناسب حالة الاستخدام المحددة لديك وإعداد مسار IDP الحالي.

يقوم هذا الحل بتصنيف المستندات باستخدام البحث الدلالي المضمن عن طريق مطابقة مستند الإدخال مع معرض المستندات المفهرس بالفعل. نستخدم المكونات الرئيسية التالية:

  • التضمينات - التضمينات هي تمثيلات رقمية لكائنات في العالم الحقيقي تستخدمها أنظمة التعلم الآلي (ML) والذكاء الاصطناعي لفهم مجالات المعرفة المعقدة مثل البشر.
  • قواعد بيانات المتجهات - قواعد بيانات المتجهات تستخدم لتخزين التضمينات. تقوم قواعد بيانات المتجهات بفهرسة التضمينات وتنظيمها بكفاءة، مما يتيح استرجاع سريع للمتجهات المماثلة بناءً على مقاييس المسافة مثل المسافة الإقليدية أو تشابه جيب التمام.
  • البحث الدلالي – يعمل البحث الدلالي من خلال النظر في سياق ومعنى استعلام الإدخال وصلته بالمحتوى الذي يتم البحث عنه. تعد عمليات تضمين المتجهات طريقة فعالة لالتقاط المعنى السياقي للنصوص والصور والاحتفاظ به. في الحل الذي نقدمه، عندما يريد أحد التطبيقات إجراء بحث دلالي، يتم أولاً تحويل مستند البحث إلى تضمين. يتم بعد ذلك الاستعلام عن قاعدة بيانات المتجهات ذات المحتوى ذي الصلة للعثور على التضمينات الأكثر تشابهًا.

في عملية وضع العلامات، يتم تحويل مجموعة عينات من مستندات الأعمال مثل الفواتير أو كشوف الحسابات البنكية أو الوصفات الطبية إلى تضمينات باستخدام نموذج Amazon Titan Multimodal Embeddings وتخزينها في قاعدة بيانات متجهة مقابل تسميات محددة مسبقًا. تم تدريب نموذج Amazon Titan Multimodal Embedding باستخدام خوارزمية Euclidean L2، وبالتالي للحصول على أفضل النتائج، يجب أن تدعم قاعدة بيانات المتجهات المستخدمة هذه الخوارزمية.

يوضح مخطط البنية التالي كيف يمكنك استخدام نموذج Amazon Titan Multimodal Embeddings مع المستندات الموجودة في ملف خدمة تخزين أمازون البسيطة مجموعة (Amazon S3) لإنشاء معرض الصور.

يتكون سير العمل من الخطوات التالية:

  1. يقوم المستخدم أو التطبيق بتحميل نموذج صورة مستند يحتوي على بيانات تعريف التصنيف إلى معرض صور المستندات. يمكن استخدام بادئة S3 أو البيانات التعريفية لكائن S3 لتصنيف صور المعرض.
  2. يقوم حدث إعلام كائن Amazon S3 باستدعاء التضمين AWS لامدا وظيفة.
  3. تقوم وظيفة Lambda بقراءة صورة المستند وترجمتها إلى تضمينات عن طريق الاتصال بـ Amazon Bedrock واستخدام نموذج Amazon Titan Multimodal Embeddings.
  4. يتم تخزين تضمينات الصور، بالإضافة إلى تصنيف المستندات، في قاعدة بيانات المتجهات.

هذا هو المخطط الهندسي الذي يوضح كيفية استخدام Titan Multimodal Embeddings مع المستندات الموجودة في مجموعة Amazon Simple Storage Service (Amazon S3) لإنشاء معرض الصور وتصنيفه.

عندما يحتاج مستند جديد إلى تصنيف، يتم استخدام نفس نموذج التضمين لتحويل مستند الاستعلام إلى تضمين. بعد ذلك، يتم إجراء بحث التشابه الدلالي في قاعدة بيانات المتجهات باستخدام تضمين الاستعلام. ستكون التسمية التي تم استردادها مقابل تطابق التضمين العلوي هي تسمية التصنيف لمستند الاستعلام.

يوضح مخطط البنية التالي كيفية استخدام نموذج Amazon Titan Multimodal Embeddings مع المستندات الموجودة في حاوية S3 لتصنيف الصور.

يتكون سير العمل من الخطوات التالية:

  1. يتم تحميل المستندات التي تتطلب التصنيف إلى حاوية S3 للإدخال.
  2. تتلقى وظيفة تصنيف Lambda إشعار كائن Amazon S3.
  3. تقوم وظيفة Lambda بترجمة الصورة إلى تضمين عن طريق استدعاء Amazon Bedrock API.
  4. يتم البحث في قاعدة بيانات المتجهات عن مستند مطابق باستخدام البحث الدلالي. يتم استخدام تصنيف الوثيقة المطابقة لتصنيف وثيقة الإدخال.
  5. يتم نقل مستند الإدخال إلى دليل S3 الهدف أو البادئة باستخدام التصنيف المسترد من البحث في قاعدة بيانات المتجهات.

هذا هو مخطط البنية الذي يوضح كيفية استخدام Titan Multimodal Embeddings مع المستندات الموجودة في مجموعة Amazon Simple Storage Service (Amazon S3) لتصنيف الصور.

لمساعدتك في اختبار الحل باستخدام المستندات الخاصة بك، قمنا بإنشاء مثال على دفتر ملاحظات Python Jupyter، وهو متاح على GitHub جيثب:.

المتطلبات الأساسية المسبقة

لتشغيل دفتر الملاحظات، تحتاج إلى حساب AWS مع المناسب إدارة الهوية والوصول AWS (IAM) أذونات للاتصال بـ Amazon Bedrock. بالإضافة إلى ذلك، على الوصول إلى النموذج صفحة وحدة تحكم Amazon Bedrock، تأكد من منح الوصول لنموذج Amazon Titan Multimodal Embeddings.

تطبيق

في الخطوات التالية، استبدل كل عنصر نائب لإدخال المستخدم بمعلوماتك الخاصة:

  1. إنشاء قاعدة بيانات المتجهات. في هذا الحل، نستخدم قاعدة بيانات FAISS في الذاكرة، ولكن يمكنك استخدام قاعدة بيانات متجهة بديلة. حجم البعد الافتراضي لـ Amazon Titan هو 1024.
index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

  1. بعد إنشاء قاعدة بيانات المتجهات، قم بتعداد نماذج المستندات، وإنشاء تضمينات لكل منها وتخزينها في قاعدة بيانات المتجهات
  1. اختبار مع المستندات الخاصة بك. استبدل المجلدات الموجودة في التعليمة البرمجية التالية بالمجلدات الخاصة بك التي تحتوي على أنواع المستندات المعروفة:
DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

  1. باستخدام مكتبة Boto3، اتصل بـ Amazon Bedrock. المتغير inputImageB64 عبارة عن مصفوفة بايت مشفرة base64 تمثل المستند الخاص بك. يحتوي الرد من Amazon Bedrock على التضمينات.
bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read()) 

  1. أضف التضمينات إلى قاعدة بيانات المتجهات، بمعرف فئة يمثل نوع مستند معروف:
indexIDMap.add_with_ids(embeddings, classID)

  1. باستخدام قاعدة البيانات المتجهة المملوءة بالصور (التي تمثل معرضنا)، يمكنك اكتشاف أوجه التشابه مع المستندات الجديدة. على سبيل المثال، ما يلي هو بناء الجملة المستخدم للبحث. يخبر k = 1 FAISS بإرجاع أعلى تطابق واحد.
indexIDMap.search(embeddings, k=1)

بالإضافة إلى ذلك، يتم أيضًا إرجاع المسافة الإقليدية L2 بين الصورة الموجودة في متناول اليد والصورة التي تم العثور عليها. إذا كانت الصورة متطابقة تمامًا، فستكون هذه القيمة 0. وكلما كانت هذه القيمة أكبر، زاد التشابه بين الصورتين.

اعتبارات إضافية

في هذا القسم، نناقش الاعتبارات الإضافية لاستخدام الحل بفعالية. يتضمن ذلك خصوصية البيانات والأمان والتكامل مع الأنظمة الحالية وتقديرات التكلفة.

خصوصية البيانات وأمنها

AWS نموذج المسؤولية المشتركة ينطبق على حماية البيانات في أمازون بيدروك. كما هو موضح في هذا النموذج، فإن AWS مسؤولة عن حماية البنية التحتية العالمية التي تدير سحابة AWS بأكملها. يتحمل العملاء مسؤولية الحفاظ على التحكم في المحتوى الخاص بهم الذي تتم استضافته على هذه البنية التحتية. باعتبارك عميلاً، أنت مسؤول عن تكوين الأمان ومهام الإدارة لخدمات AWS التي تستخدمها.

حماية البيانات في Amazon Bedrock

تتجنب Amazon Bedrock استخدام مطالبات العملاء والاستمرارية لتدريب نماذج AWS أو مشاركتها مع أطراف ثالثة. لا تقوم Amazon Bedrock بتخزين بيانات العملاء أو تسجيلها في سجلات الخدمة الخاصة بها. لا يتمتع موفرو النماذج بإمكانية الوصول إلى سجلات Amazon Bedrock أو الوصول إلى مطالبات العملاء واستمراراتهم. ونتيجة لذلك، لا يتم تخزين الصور المستخدمة لإنشاء عمليات التضمين من خلال نموذج Amazon Titan Multimodal Embeddings أو استخدامها في تدريب نماذج AWS أو التوزيع الخارجي. بالإضافة إلى ذلك، يتم استبعاد بيانات الاستخدام الأخرى، مثل الطوابع الزمنية ومعرفات الحساب المسجلة، من تدريب النموذج.

التكامل مع الأنظمة الموجودة

خضع نموذج Amazon Titan Multimodal Embeddings للتدريب باستخدام خوارزمية Euclidean L2، لذا يجب أن تكون قاعدة بيانات المتجهات المستخدمة متوافقة مع هذه الخوارزمية.

تقدير التكلفة

في وقت كتابة هذا المنصب، وفقا ل أسعار أمازون بيدروك بالنسبة لنموذج Amazon Titan Multimodal Embeddings، فيما يلي التكاليف المقدرة باستخدام التسعير حسب الطلب لهذا الحل:

  • تكلفة الفهرسة لمرة واحدة – 0.06 دولارًا أمريكيًا لعملية فهرسة واحدة، بافتراض أن معرض الصور يضم 1,000 صورة
  • تكلفة التصنيف – 6 دولارات مقابل 100,000 صورة مدخلة شهريًا

تنظيف

لتجنب تكبد رسوم مستقبلية، احذف الموارد التي قمت بإنشائها، مثل مثيل أمازون SageMaker المحمول، عندما لا تكون قيد الاستعمال.

وفي الختام

في هذا المنشور، اكتشفنا كيف يمكنك استخدام نموذج Amazon Titan Multimodal Embeddings لبناء حل غير مكلف لتصنيف المستندات في سير عمل IDP. لقد أوضحنا كيفية إنشاء معرض صور للمستندات المعروفة وإجراء عمليات بحث التشابه مع المستندات الجديدة لتصنيفها. ناقشنا أيضًا فوائد استخدام تضمينات الصور متعددة الوسائط لتصنيف المستندات، بما في ذلك قدرتها على التعامل مع أنواع المستندات المتنوعة وقابلية التوسع وزمن الوصول المنخفض.

مع ظهور قوالب وأنواع المستندات الجديدة في سير عمل الأعمال، يمكن للمطورين استدعاء Amazon Bedrock API لتوجيهها ديناميكيًا وإلحاقها بأنظمة IDP الخاصة بهم لتعزيز قدرات تصنيف المستندات بسرعة. يؤدي هذا إلى إنشاء طبقة تصنيف غير مكلفة وقابلة للتطوير بشكل لا نهائي يمكنها التعامل حتى مع مستندات المؤسسة الأكثر تنوعًا وغير المنظمة.

بشكل عام، يوفر هذا المنشور خريطة طريق لإنشاء حل غير مكلف لتصنيف المستندات في سير عمل IDP باستخدام Amazon Titan Multimodal Embeddings.

كخطوات تالية، تحقق ما هو الأمازون بيدروك للبدء في استخدام الخدمة. واتبع Amazon Bedrock على مدونة AWS Machine Learning لمواكبة الإمكانات الجديدة وحالات الاستخدام الخاصة بـ Amazon Bedrock.


حول المؤلف

سوميت بهاتي هو أحد كبار مديري حلول العملاء في AWS، وهو متخصص في تسريع الرحلة السحابية لعملاء المؤسسات. تلتزم شركة Sumit بمساعدة العملاء في كل مرحلة من مراحل اعتماد السحابة، بدءًا من تسريع عمليات الترحيل وحتى تحديث أعباء العمل وتسهيل تكامل الممارسات المبتكرة.

ديفيد جيرلينج هو أحد كبار مهندسي حلول الذكاء الاصطناعي/تعلم الآلة ويتمتع بخبرة تزيد عن 20 عامًا في تصميم أنظمة المؤسسات وقيادتها وتطويرها. يعد David جزءًا من فريق متخصص يركز على مساعدة العملاء على التعلم والابتكار واستخدام هذه الخدمات عالية الكفاءة مع بياناتهم لحالات الاستخدام الخاصة بهم.

رافي أفولا هو أحد كبار مهندسي الحلول في AWS ويركز على البنية المؤسسية. يتمتع رافي بخبرة 20 عامًا في هندسة البرمجيات، وقد تولى العديد من الأدوار القيادية في هندسة البرمجيات وهندسة البرمجيات في مجال صناعة المدفوعات.

جورج بيلسيان هو أحد كبار مهندسي التطبيقات السحابية في AWS. إنه متحمس لمساعدة العملاء على تسريع رحلة التحديث واعتماد السحابة. في منصبه الحالي، يعمل جورج جنبًا إلى جنب مع فرق العملاء لوضع إستراتيجيات وتصميم وتطوير حلول مبتكرة وقابلة للتطوير.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة