شعار زيفيرنت

أسلوب تشابه النص المستند إلى الرسم البياني مع معلومات الكيان المحدد في البرمجة اللغوية العصبية

التاريخ:

أسلوب تشابه النص المستند إلى الرسم البياني مع معلومات الكيان المحدد في البرمجة اللغوية العصبية

في هذه المقالة ، يلخص المؤلف ورقة 2017 "مقياس تشابه النص المستند إلى الرسم البياني والذي يستخدم معلومات الكيان المحدد" وفقًا لفهمهم. فهم المفاهيم بشكل أفضل من خلال القراءة.


By براخار ميشرا، باحث في IIIT-Bangalore

في هذه المدونة حاولت تلخيص الورقة مقياس تشابه النص المستند إلى الرسم البياني والذي يستخدم معلومات الكيان المحدد حسب فهمي. لا تتردد في التعليق على أفكارك على نفس الشيء!

المشكلة بيان

 
يقترح المؤلفون تقنية جديدة لحساب تشابه النص استنادًا إلى تمثيل الكيان المحدد المخصب للرسم البياني للمستندات النصية. موضوعيا يمكنك التفكير في هذا على أنه - بالنظر إلى وثيقتين (D1 ، D2) نرغب في إرجاع درجة (درجات) التشابه بينهما ، حيث تشير {s R | 0 ≤ s ≤ 1} إلى قوة التشابه. 1 متشابه تمامًا و 0 غير متماثل.

الطريقة المقترحة

 


أسلوب تشابه النص المستند إلى الرسم البياني مع معلومات الكيان المحدد في البرمجة اللغوية العصبية | خط انابيب
خط الأنابيب المقترح | صورة من مصدر

 

يقترح المؤلفون مجموعة من مقاييس التشابه على نطاق تمثيل الرسم البياني ن غرام للمستندات النصية. للقيام بذلك ، يقترحون خط أنابيب من 3 خطوات -

  • استخراج المعلومات - هذا هو الأول في خط الأنابيب حيث يستخرجون أجزاء المعلومات ذات الصلة من المستند النصي الذي يستخدمون طريقتين من أجله: 1. استخراج الكيانات المسماة 2. استخراج أعلى-مصطلحات مرتبة باستخدام TF-IDF.
  • تمثيل الرسم البياني - المعلومات المستخرجة من الخطوة الأولى مجزأة (للحصول على تمثيل عقدة واحدة للمصطلحات متعددة الكلمات) ويتم استخدامها كعقد فريدة في الرسم البياني ، بينما يتم استبدال جميع الكلمات المتبقية بكلمة عنصر نائب واحد. الآن ، هذا خيار نمذجة أو يمكنك التفكير فيه كمعامل مقايضة لعدد عقد العناصر النائبة التي تريد تمثيلها. نظرًا لأن استخدام كلمة عنصر نائب واحد ينتج عنه رسم بياني للكلمات يحتوي على عقدة واحدة فقط لجميع الكلمات غير المهمة ، مما يقلل بشكل كبير من حجم الرسم البياني n-gram وتعقيد عوامل التشابه. لنأخذ مثالاً لفهم هذا - على سبيل المثال ، إذا كانت جملة الإدخال هي "اسمي هو براخار ميشرا. أنا مطور". يصبح تمثيل الجملة المجهزة مسبقًا "AAA 213Aeb1 AAA _مطور"، أين، هو رمز العنصر النائب لـ كلمات غير مهمة, 213Aeb1 هو التجزئة ل براخار ميشرا و  _مطور هل مزيج للكلمة المطور. راجع الشكل أدناه لفهم هذا بصريًا -


تمثيل الرسم البياني N-gram لمثال نصي
تمثيل الرسم البياني N غرام

 

الحواف هي الأوزان التي تراها في الرسم البياني أعلاه n-gram يتم تحديدها بناءً على عدد التكرار المتزامن للمصطلحات في نافذة منزلقة بحجم L اجتياز تمثيل الجملة المُعالج مسبقًا.

  • مقاييس تشابه الرسم البياني - بمجرد أن يكون الرسم البياني جاهزًا ، يستخدم المؤلفون مقاييس مثل تشابه القيمةتشابه الحجم و  تشابه القيمة الطبيعية لقياس التشابه بين الرسمين البيانيين ، حيث ،

- تشابه القيمة: يأخذ هذا في الاعتبار مجموعة الحواف المشتركة بين رسمين بيانيين مع أوزان كل منهما. يتم تمثيلها رياضيا على النحو التالي:


الرسوم البيانية نص تشابه القيمة
تشابه القيمة

 

حيث ، e هي الحافة المشتركة بين رسمين بيانيين يتم حساب Gi و Gj و VR (e) على النحو التالي:



حساب VR

 

- تشابه الحجم: يأخذ في الاعتبار حجم الرسوم البيانية ، والتي يتم حسابها على النحو التالي:


قياس تشابه الحجم
تشابه الحجم

 

- تشابه القيمة الطبيعية: يتجاهل مقياس التشابه هذا الحجم النسبي للرسم البياني أثناء المقارنة. ويتم تعريفه على أنه:


تم تسوية الرسوم البيانية النصية للقيمة المتشابهة
تشابه القيمة الطبيعية

 

If SS (تشابه الحجم) = 0 ، ثم يتم أيضًا تعيين قيمة NVS على صفر.


اعتمادًا على حالة الاستخدام ، يمكن للمرء أن يقرر كيفية استخدام مجموعة مقاييس التشابه المذكورة أعلاه. يمكننا دمج الدرجات من جميع الطرق المذكورة أعلاه باستخدام بعض وظائف التجميع وتمثيلها كدرجة تشابه مجمعة. أيضًا ، هناك طريقة أخرى تتمثل في تمثيل الرسم البياني كمتجه لدرجات التشابه من الطرق المذكورة أعلاه ثم إجراء التجميع أو التصنيف في الأعلى.


الامتدادات المحتملة (أفكاري)

 
يمكن أن يكون لدينا طريقة مسيطر عليها للتجزئة حيث يتم إعطاء نفس التجزئة لنفس مجموعات الكيانات. لأن هذا من شأنه إحداث تشابه قاطع في الرسم البياني وسيقلل أيضًا من تعقيد المكان / الوقت.


يمكنك أيضًا التحقق من التفسيرات الورقية البحثية الأخرى التي كتبتها -

10 خوارزميات شائعة لاستخراج الكلمات الرئيسية في البرمجة اللغوية العصبية

BERT-QE: توسيع طلب البحث حسب السياق

ما وراء الدقة: الاختبار السلوكي لنماذج البرمجة اللغوية العصبية باستخدام CheckList

BERT لتلخيص النص الاستخراجي

الاستخراج التلقائي لعلاقات التشعب من النص باستخدام ML


لا تتردد في قراءة الجريدة وقول "Hi"للمؤلفين ونقدر مساهمتهم.


عنوان الورقة: مقياس تشابه النص المستند إلى الرسم البياني والذي يستخدم معلومات الكيان المحدد

رابط الورق: ورقة الوصول

المؤلف: ليونيداس تسيكوراسايراكليس فارلاميسجورج جياناكوبولوس


شكرا لك!

 
السيرة الذاتية: براخار ميشرا Prakhar هو حاليًا طالب ماجستير (عن طريق البحث) في علوم البيانات في IIIT بنغالور. تشمل اهتماماته البحثية فهم اللغة الطبيعية وتوليدها ، واسترجاع المعلومات ، وتعلم الآلة غير الخاضع للإشراف وتعلم التعزيز.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://www.kdnuggets.com/2021/06/graph-based-text-similarity-method- named-entity-information-nlp.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة