شعار زيفيرنت

تصور تحليل Amazon Comprehend باستخدام سحابة الكلمات في Amazon QuickSight | خدمات ويب أمازون

التاريخ:

يمكن أن يكون البحث عن رؤى في مستودع المستندات النصية ذات الشكل الحر مثل العثور على إبرة في كومة قش. قد يكون النهج التقليدي هو استخدام عدد الكلمات أو أي تحليل أساسي آخر لتحليل المستندات، ولكن بفضل قوة أدوات Amazon AI والتعلم الآلي (ML)، يمكننا جمع فهم أعمق للمحتوى.

فهم الأمازون هي خدمة مُدارة بالكامل تستخدم معالجة اللغة الطبيعية (NLP) لاستخراج رؤى حول محتوى المستندات. تقوم Amazon Comprehend بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية والمشاعر والموضوعات والعناصر المخصصة في المستند. بإمكان Amazon Comprehend إنشاء رؤى جديدة بناءً على فهم بنية المستند وعلاقات الكيانات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.

يتيح Amazon Comprehend للخبراء غير المتخصصين في تعلم الآلة القيام بالمهام التي تستغرق عادةً ساعات من الوقت بسهولة. توفر خدمة Amazon Comprehend الكثير من الوقت اللازم لتنظيف النموذج الخاص بك وإنشائه وتدريبه. لبناء نماذج مخصصة أعمق في البرمجة اللغوية العصبية أو أي مجال آخر، الأمازون SageMaker يمكّنك من إنشاء النماذج وتدريبها ونشرها في سير عمل تعلم الآلة الأكثر تقليدية إذا رغبت في ذلك.

في هذا المنشور، نستخدم Amazon Comprehend وخدمات AWS الأخرى لتحليل واستخراج رؤى جديدة من مستودع المستندات. ثم نستخدم أمازون QuickSight لإنشاء سحابة كلمات مرئية بسيطة لكنها قوية لتحديد السمات أو الاتجاهات بسهولة.

نظرة عامة على الحل

يوضح الرسم البياني التالي بنية الحل.

للبدء، نقوم بجمع البيانات لتحليلها وتحميلها في ملف خدمة تخزين أمازون البسيطة (Amazon S3) في حساب AWS. في هذا المثال، نستخدم ملفات بتنسيق نصي. ويتم بعد ذلك تحليل البيانات بواسطة Amazon Comprehend. يقوم Amazon Comprehend بإنشاء مخرجات بتنسيق JSON تحتاج إلى تحويلها ومعالجتها إلى تنسيق قاعدة بيانات باستخدام غراء AWS. نقوم بالتحقق من البيانات واستخراج جداول بيانات منسقة محددة باستخدام أمازون أثينا لتحليل QuickSight باستخدام سحابة الكلمات. لمزيد من المعلومات حول التصورات، راجع تصور البيانات في Amazon QuickSight.

المتطلبات الأساسية المسبقة

في هذا الدليل ، يجب أن يكون لديك المتطلبات الأساسية التالية:

تحميل البيانات إلى حاوية S3

قم بتحميل بياناتك إلى حاوية S3. في هذا المنشور، نستخدم نص دستور الولايات المتحدة بتنسيق UTF-8 كملف الإدخال. وبعد ذلك تصبح جاهزًا لتحليل البيانات وإنشاء تصورات.

تحليل البيانات باستخدام Amazon Comprehend

هناك العديد من أنواع المعلومات المستندة إلى النصوص والصور التي يمكن معالجتها باستخدام Amazon Comprehend. بالإضافة إلى الملفات النصية، يمكنك استخدام Amazon Comprehend للتصنيف في خطوة واحدة والتعرف على الكيانات لقبول ملفات الصور وملفات PDF وملفات Microsoft Word كمدخلات، والتي لم تتم مناقشتها في هذا المنشور.

لتحليل بياناتك، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon Comprehend ، اختر وظائف التحليل في جزء التنقل.
  2. اختار إنشاء وظيفة التحليل.
  3. أدخل اسمًا لعملك.
  4. في حالة نوع التحليل، اختر العبارات الرئيسية.
  5. في حالة اللغة أختر عربي.
  6. في حالة موقع إدخال البيانات، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
  7. في حالة موقع بيانات الإخراج، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
  8. اختار إنشاء دور IAM.
  9. أدخل لاحقة لاسم الدور.
  10. اختار خلق وظيفة.

سيتم تشغيل المهمة وسيتم عرض الحالة على وظائف التحليل .

انتظر حتى تكتمل مهمة التحليل. سيقوم Amazon Comprehend بإنشاء ملف ووضعه في مجلد بيانات الإخراج الذي قدمته. الملف بتنسيق .gz أو GZIP.

يجب تنزيل هذا الملف وتحويله إلى تنسيق غير مضغوط. يمكنك تنزيل كائن من مجلد البيانات أو حاوية S3 باستخدام وحدة تحكم Amazon S3.

  1. في وحدة تحكم Amazon S3، حدد الكائن واختر تحميل. إذا كنت تريد تنزيل الكائن إلى مجلد معين، فاختر تحميل على الإجراءات القائمة.
  2. بعد تنزيل الملف على جهاز الكمبيوتر المحلي لديك، افتح الملف المضغوط واحفظه كملف غير مضغوط.

يجب تحميل الملف غير المضغوط إلى مجلد الإخراج قبل أن يتمكن زاحف AWS Glue من معالجته. في هذا المثال، نقوم بتحميل الملف غير المضغوط إلى نفس مجلد الإخراج الذي نستخدمه في الخطوات اللاحقة.

  1. على وحدة تحكم Amazon S3، انتقل إلى حاوية S3 الخاصة بك واختر تحميل.
  2. اختار إضافة ملفات.
  3. اختر الملفات غير المضغوطة من جهاز الكمبيوتر المحلي الخاص بك.
  4. اختار تحميل.

بعد تحميل الملف، احذف الملف المضغوط الأصلي.

  1. في وحدة تحكم Amazon S3، حدد الحاوية واختر حذف.
  2. قم بتأكيد اسم الملف لحذف الملف نهائيًا عن طريق إدخال اسم الملف في مربع النص.
  3. اختار حذف الكائنات.

سيؤدي هذا إلى ترك ملف واحد متبقي في مجلد الإخراج: الملف غير المضغوط.

قم بتحويل بيانات JSON إلى تنسيق جدول باستخدام AWS Glue

في هذه الخطوة، تقوم بإعداد مخرجات Amazon Comprehend لاستخدامها كمدخل في Athena. يكون مخرج Amazon Comprehend بتنسيق JSON. يمكنك استخدام AWS Glue لتحويل JSON إلى بنية قاعدة بيانات ليتم قراءتها في النهاية بواسطة QuickSight.

  1. في وحدة تحكم AWS Glue ، اختر الزواحف في جزء التنقل.
  2. اختار إنشاء الزاحف.
  3. أدخل اسمًا للزاحف الخاص بك.
  4. اختار التالى.
  5. في حالة هل البيانات الخاصة بك معينة بالفعل إلى جداول الغراء، حدد ليس بعد.
  6. إضافة مصدر بيانات.
  7. في حالة مسار S3، أدخل موقع مجلد بيانات مخرجات Amazon Comprehend.

تأكد من إضافة زائدة / إلى اسم المسار. سيبحث AWS Glue في مسار المجلد عن جميع الملفات.

  1. أختار الزحف إلى جميع المجلدات الفرعية.
  2. اختار أضف مصدر بيانات S3.

  1. إنشاء جديد إدارة الهوية والوصول AWS دور (IAM) للزاحف.
  2. أدخل اسمًا لدور IAM.
  3. اختار قم بتحديث دور IAM المختار للتأكد من تعيين الدور الجديد للزاحف.
  4. اختار التالى لإدخال معلومات الإخراج (قاعدة البيانات).
  5. اختار أضف قاعدة البيانات.
  6. أدخل اسم قاعدة البيانات.
  7. اختار التالى.
  8. اختار إنشاء الزاحف.
  9. اختار تشغيل الزاحف لتشغيل الزاحف.

يمكنك مراقبة حالة الزاحف على وحدة تحكم AWS Glue.

استخدم Athena لإعداد الجداول لـ QuickSight

ستقوم Athena باستخراج البيانات من جداول قاعدة البيانات التي أنشأها زاحف AWS Glue لتوفير تنسيق سيستخدمه QuickSight لإنشاء سحابة الكلمات.

  1. في وحدة تحكم أثينا ، اختر محرر الاستعلام في جزء التنقل.
  2. في حالة مصدر البيانات، اختر AwsDataCatalog.
  3. في حالة قاعدة البيانات، اختر قاعدة البيانات التي أنشأها الزاحف.

لإنشاء جدول متوافق مع QuickSight، يجب أن تكون البيانات غير متداخلة من المصفوفات.

  1. الخطوة الأولى هي إنشاء قاعدة بيانات مؤقتة تتضمن بيانات Amazon Comprehend ذات الصلة:
CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)

  1. يقتصر البيان التالي على عبارات مكونة من ثلاث كلمات ومجموعات على الأقل حسب تكرار العبارات:
CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc

استخدم QuickSight لتصور الإخراج

وأخيرًا، يمكنك إنشاء المخرجات المرئية من التحليل.

  1. في وحدة تحكم QuickSight ، اختر تحليل جديد.
  2. اختار مجموعة بيانات جديدة.
  3. في حالة أنشئ مجموعة بيانات، اختر من مصادر البيانات الجديدة.
  4. اختار أثينا كمصدر للبيانات.
  5. أدخل اسمًا لمصدر البيانات واختر إنشاء مصدر بيانات.

  1. اختار تصور.

تأكد من أن QuickSight لديه حق الوصول إلى حاويات S3 حيث يتم تخزين جداول Athena.

  1. في وحدة تحكم QuickSight، اختر رمز ملف تعريف المستخدم واختر إدارة QuickSight.

  1. اختار الأمان والأذونات.
  1. ابحث عن القسم وصول QuickSight إلى خدمات AWS.

من خلال تكوين الوصول إلى خدمات AWS، يمكن لـ QuickSight الوصول إلى البيانات الموجودة في تلك الخدمات. يمكن التحكم في وصول المستخدمين والمجموعات من خلال الخيارات.

  1. تحقق من منح Amazon S3 حق الوصول.

الآن يمكنك إنشاء سحابة الكلمات.

  1. اختر سحابة الكلمة تحت أنواع بصرية.
  2. اسحب النص إلى مجموعة من والعد ل حجم.


اختر قائمة الخيارات (ثلاث نقاط) في التمثيل المرئي للوصول إلى خيارات التحرير. على سبيل المثال، قد ترغب في إخفاء المصطلح "أخرى" من الشاشة. يمكنك أيضًا تحرير عناصر مثل العنوان والعنوان الفرعي لمرئيتك. لتنزيل Word Cloud بصيغة PDF، اختر تحميل على شريط أدوات QuickSight.

تنظيف

لتجنب تكبد رسوم مستمرة، احذف أي بيانات وعمليات أو موارد غير مستخدمة متوفرة على وحدة تحكم الخدمة الخاصة بها.

وفي الختام

يستخدم Amazon Comprehend البرمجة اللغوية العصبية (NLP) لاستخراج رؤى حول محتوى المستندات. يقوم بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية واللغة والمشاعر والعناصر المشتركة الأخرى في المستند. يمكنك استخدام Amazon Comprehend لإنشاء منتجات جديدة بناءً على فهم بنية المستندات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.

يصف هذا المنشور خطوات إنشاء سحابة كلمات لتصور تحليل محتوى النص من Amazon Comprehend باستخدام أدوات AWS وQuickSight لتصور البيانات.

دعونا نبقى على تواصل عبر قسم التعليقات!


حول المؤلف

كريس جيدمان هي الشركة الرائدة في مبيعات التجزئة والسلع الاستهلاكية المعبأة في شرق الولايات المتحدة في Amazon Web Services. عندما لا يعمل، يستمتع بقضاء الوقت مع أصدقائه وعائلته، وخاصة فصل الصيف في كيب كود. كريس هو محارب نينجا متقاعد مؤقتًا لكنه يحب مشاهدة وتدريب ولديه في الوقت الحالي.

كلارك ليفافور هو أحد مهندسي الحلول الرائدين في Amazon Web Services، حيث يدعم عملاء المؤسسات في المنطقة الشرقية. يقع مقر كلارك في نيو إنجلاند ويستمتع بقضاء الوقت في تصميم الوصفات في المطبخ.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة