شعار زيفيرنت

تقنيات تضمين المستندات

التاريخ:

أثبت تضمين الكلمات - تعيين الكلمات في مسافات متجهية رقمية - أنه طريقة مهمة بشكل لا يصدق لمهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة ، مما يتيح نماذج مختلفة للتعلم الآلي تعتمد على تمثيل المتجه كمدخلات للاستمتاع بتمثيلات أكثر ثراءً للنص إدخال. تحافظ هذه التمثيلات على المزيد من المعلومات الدلالية والنحوية على الكلمات ، مما يؤدي إلى تحسين الأداء في كل مهمة معالجة لغوية طبيعية يمكن تخيلها تقريبًا.

دفعت كل من الفكرة الجديدة نفسها وتأثيرها الهائل الباحثين إلى النظر في مشكلة كيفية توفير هذه النعمة من تمثيلات المتجهات الأكثر ثراءً لوحدات أكبر من النصوص - من الجمل إلى الكتب. نتج عن هذا الجهد عدد كبير من الأساليب الجديدة لإنتاج هذه التعيينات ، مع حلول مبتكرة متنوعة للمشكلة وبعض الإنجازات البارزة.

تمت كتابة هذا المنشور أثناء تقديم نفسي للموضوع (كجزء من مشروع في بيج باندا، حيث أنا استشر ❤️🐼) ، لتقديم الطرق المختلفة التي توصل إليها الممارسون لإنتاج حفلات الزفاف الوثائقية.

ملحوظة: أنا استخدم كلمة وثيقة هنا للإشارة إلى أي سلسلة من الكلمات، بدءًا من الجمل والفقرات عبر منشورات وسائل التواصل الاجتماعي وصولاً إلى المقالات والكتب والمستندات النصية الأكثر تعقيدًا (مثل النماذج).

في هذا المنشور ، سأتطرق ليس فقط إلى الأساليب التي تعد امتدادًا مباشرًا لتقنيات تضمين الكلمات (على سبيل المثال في الطريق doc2vec يمتد word2vec) ، ولكن أيضًا تقنيات بارزة أخرى تنتج - أحيانًا من بين مخرجات أخرى - تعيين المستندات للمتجهات في ℝⁿ.

سأحاول أيضًا تقديم روابط ومراجع لكل من الأوراق الأصلية وتطبيقات الكود للطرق التي تمت مراجعتها كلما أمكن ذلك.

ملحوظة: هذا الموضوع مرتبط إلى حد ما ، ولكنه ليس مكافئًا ، لمشكلة تعلم تمثيلات النص المهيكلة (على سبيل المثال [Liu & Lapata ، 2018]).

هل تجد هذا التعليم الفني المتعمق حول تطبيقات البرمجة اللغوية العصبية مفيدًا؟ اشترك أدناه ليتم تحديثه عند إصدار محتوى جديد ذي صلة.  

جدول المحتويات

  1. طلبات توثيق حفلات الزفاف
  2. النهج والاتجاهات البارزة
    نهج تضمين الوثيقة
    الاتجاهات والتحديات
  3. التقنيات الكلاسيكية
    حقيبة من بين الكلمات
    تخصيص Dirichlet الكامن (LDA)
  4. تقنيات تضمين المستندات غير الخاضعة للإشراف
    حفلات الزفاف ن غرام
    متوسط ​​كلمة التضمين
    Sent2Vec
    متجهات الفقرة (doc2vec)
    Doc2VecC
    نواقل تخطي الفكر
    إرسال سريع
    نواقل سريعة التفكير
    تضمين Word Mover (WME)
    جملة- بيرت (سبيرت)
  5. تقنيات تضمين المستندات الخاضعة للإشراف
    تعلم حفلات الزفاف وثيقة من البيانات المسمى
    مهام محددة تحت الإشراف وثيقة حفلات الزفاف
    - - GPT
    - - نموذج التشابه الدلالي العميق (DSSM)
    التعلم المشترك لتمثيل الجملة
    - - التشفير الشامل
    - - جينسين
  6. كيفية اختيار التقنية التي يجب استخدامها
  7. الكلمات الأخيرة
  8. مراجع حسابات

طلبات توثيق حفلات الزفاف

إن القدرة على تعيين المستندات لتمثيل المتجه الإعلامي لها نطاق واسع من التطبيقات. ما يلي هو مجرد قائمة جزئية.

[Le & Mikolov ، 2014] أظهروا قدراتهم ناقلات الفقرة أسلوب في العديد من مهام تصنيف النص وتحليل المشاعر ، بينما [داي وآخرون ، 2015] فحصها في سياق مهام تشابه المستندات و [لاو وبالدوين ، 2016] مقارنة بمهمة تكرار سؤال المنتدى و مهمة SemEval التشابه النصي الدلالي (STS).

[كيروس وآخرون ، 2015] أثبت استخدامهم تخطي الفكر متجهات للارتباط الدلالي ، واكتشاف إعادة الصياغة ، وترتيب جملة الصورة ، وتصنيف نوع السؤال وأربع مجموعات بيانات للمشاعر والذاتية. [Broere، 2017] استخدمتها للتنبؤ بعلامات نقاط البيع وعلاقات التبعية.

[Chen et al ، 2018] أظهر BioSentVec، تم تدريب مجموعاتهم من الزخارف الجملية على النصوص الطبية الحيوية ، لأداء مهام التشابه بين الجمل (تطبيق Python الرسمي).

وأخيرا، تم استخدام نموذج التشابه الدلالي العميق من قبل العديد من المؤلفين لاسترجاع المعلومات وترتيب البحث على الويب ، واختيار الإعلان / الصلة ، والبحث عن الكيانات السياقية والمهام المثيرة للاهتمام ، والإجابة على الأسئلة ، والاستدلال المعرفي ، والتعليق على الصور ، ومهام الترجمة الآلية.

النهج والاتجاهات البارزة

أكتب هذا الجزء أخيرًا ، بعد أن كرست الكثير من الوقت للتفكير في كيفية هيكلة هذه المقالة ، وكيف يمكن تجميع التقنيات المختلفة التي تمت تغطيتها في الأقسام التالية في مناهج بارزة وما هي الاتجاهات التي تظهر عند دراسة كيفية الأعمال المختلفة في المجال يتعلق ببعضهما البعض والطريقة التي يتبعها كل منهما الآخر.

لاحظ ، مع ذلك ، أنه على الرغم من أن مشكلة تضمين المستندات قديمة ، إلا أن العديد من الحلول المؤثرة حاليًا هي حلول حديثة العهد ، وقد شهد هذا المجال ظهورًا جديدًا مؤخرًا (حوالي عام 2014) ، بعد نجاح الكلمة المعاصرة القائمة على وحدة فك التشفير. تقنيات التضمين ، لذلك لا تزال هذه الأيام مبكرة جدًا. بعد قولي هذا ، آمل أن يتمكن هذا الجزء من وضع الأقسام التالية في سياق أوسع ، وتأطيرها بطريقة هادفة.

نهج تضمين الوثيقة

تتمثل إحدى الطرق الممكنة لرسم خريطة للمجال في الأساليب الأربعة البارزة التالية:

  1. تلخيص ناقلات الكلمات
    هذا هو ال النهج الكلاسيكي. حقيبة من بين الكلمات يفعل هذا بالضبط لمتجهات الكلمات الساخنة ، وأنظمة الوزن المختلفة التي يمكنك تطبيقها عليها هي اختلافات في هذه الطريقة لتلخيص متجهات الكلمات. ومع ذلك ، فإن هذا النهج يكون صالحًا أيضًا عند استخدامه مع أحدث تمثيلات الكلمات (عادةً عن طريق حساب المتوسط ​​بدلاً من التلخيص) ، خاصةً عندما يتم تحسين تضمين الكلمات مع وضع هذا الاستخدام في الاعتبار ، ويمكن أن يقف ضد أي من الأساليب الجنسية المذكورة هنا.
  2. نمذجة الموضوع
    في حين أن هذا ليس عادةً التطبيق الرئيسي لتقنيات نمذجة الموضوعات مثل LDA و PLSI ، إلا أنهم إنشاء مساحة تضمين المستند بطبيعتها يُقصد به نمذجة وشرح توزيع الكلمات في المجموعة وحيث يمكن رؤية الأبعاد على أنها هياكل دلالية كامنة مخبأة في البيانات ، وبالتالي فهي مفيدة في سياقنا. لا أغطي هذا النهج حقًا في هذا المنشور (باستثناء مقدمة موجزة عن LDA) ، حيث أعتقد أنه يتم تمثيله جيدًا بواسطة LDA ومعروف بشكل عام.
  3. نماذج التشفير وفك التشفير
    هذه هي أحدث إضافة غير خاضعة للرقابة إلى المشهد ، وتضم أمثال doc2vec و  تخطي الفكر. بينما كان هذا النهج موجودًا منذ أوائل عام 2000 - تحت اسم نماذج اللغة الاحتمالية العصبية - اكتسبت حياة جديدة مؤخرًا من خلال تطبيقها الناجح على إنشاء تضمين الكلمات ، حيث تركز الأبحاث الحالية على كيفية توسيع نطاق استخدامها لتضمين المستندات. يكسب هذا النهج أكثر من غيره من التوافر المتزايد للشركات الكبيرة غير المصنفة.
  4. تعلم التمثيل تحت الإشراف
    يدين هذا النهج بحياته إلى الارتفاع الكبير (أو الانبعاث) لنماذج الشبكة العصبية ، وقدرتها على تعلم تمثيلات غنية لبيانات الإدخال باستخدام العديد من المشغلين غير الخطيين متعددي الطبقات ، والتي يمكن أن تقارب مجموعة واسعة من التعيينات. ببساطة عن طريق إدخال مجموعة كلمات قديمة في شبكة تعلم عصبية لحل بعض المشكلات المتعلقة بالنص الخاضع للإشراف ، تحصل على نموذج حيث تحتوي الطبقات المخفية على تمثيلات غنية لنص الإدخال ، وهو بالضبط ما نسعى إليه.

هناك نوعان من الأساليب غير الخاضعة للإشراف والتي لا تناسب أيًا من المجموعات المذكورة أعلاه (على وجه التحديد ، سريع التفكير و  مسافة محرك الكلمة يتبادر إلى الذهن) ، لكنني أعتقد أن معظم التقنيات تندرج في واحدة من هذه الفئات الأربع الواسعة.

ملحوظة: في حين أنه من المغري الإشارة إلى تقنية حقيبة الكلمات الكلاسيكية على أنها تعاني من غياب فريد لمعلومات الطلب ، فإن هذه في الواقع هي القاعدة وليس الاستثناء. المعلومات الرئيسية التي اكتسبتها معظم الطرق الجديدة التي تمت مراجعتها هنا هي توسيع فرضية التوزيع إلى وحدات أكبر من النصوص. نماذج التسلسل القائمة على الشبكة العصبية هي الاستثناء.

هناك العديد من الاتجاهات العامة التي تظهر عند فحص كل من البحث وتطبيق تقنيات تضمين المستندات ككل ، بالإضافة إلى العديد من التحديات التي قد يحددها المرء.

  1. تحسين وحدة فك التشفير: يركز جزء بارز من البحث على تحسين كل من البنية الدقيقة (مثل NN / CNN / RNN) وبعض المكونات / المعلمات الفائقة (مثل n-grams ، وظائف الإسقاط ، الوزن ، إلخ) لنهج التشفير وفك التشفير غير الخاضع للإشراف حفلات الزفاف وثيقة التعلم. على الرغم من أن جزءًا من الهدف من هذا الضبط الدقيق هو تحسين مقاييس النجاح في المهام المختلفة ، فإن القدرة على تدريب النماذج على مجموعات أكبر أو في وقت أقصر هي أيضًا هدف.
  2. تصميم هدف التعلم: يتمثل جوهر التعلم التمثيلي غير الخاضع للإشراف (أو الخاضع للإشراف الذاتي) في تصميم هدف تعليمي يستغل التسميات المتاحة مجانًا داخل البيانات بطريقة تولد تمثيلات تثبت أنها مفيدة للمهام النهائية. هذا ، بالنسبة لي ، هو الاتجاه الأكثر إثارة ، وأعتقد أنه الأكثر احتمالية للتأثير على مهام البرمجة اللغوية العصبية التي قد تساوي الكلمة الواحدة التي تمتلكها تقنيات التضمين. في هذه اللحظة أنا
    عد فقط سريع التفكير و  مسافة محرك الكلمة كبديل لنهج التشفير وفك التشفير. ومن الجوانب الجذابة الأخرى لهذا الاتجاه أن الابتكارات هنا قد تكون قابلة للتطبيق على مشكلة زخرفة الكلمات أيضًا.
  3. المرجعية: جزء من اتجاه واسع النطاق في أبحاث التعلم الآلي عمومًا ، يُظهر تضمين المستندات ، ربما بسبب كونه مجالًا فرعيًا صغيرًا ، بشكل جيد التركيز المتزايد للبحث حول قياس التقنيات على نطاق واسع وعدد كبير من المهام (انظر المتصدرين GLUE). ومع ذلك ، مع إعلان كل ورقة تقريبًا عن هذا الموضوع نتائج مماثلة أو متفوقة لتقنيات SOTA الحالية ، فإن هذا لم ينتج عنه بعد ظهور قائد واضح قبل الحزمة.
  4. المصادر المفتوحة: مرة أخرى ، كجزء من اتجاه أوسع ، يتيح الإصدار القوي لتقنيات تنفيذ التعليمات البرمجية سهلة الاستخدام - وغالبًا أيضًا التجارب - إمكانية التكاثر ويدفع المشاركة مع مجتمع علوم البيانات الأوسع خارج الأوساط الأكاديمية واستخدامها في مشاكل الكلمات الحقيقية.
  5. قابلية تطبيق المهام المتقاطعة: ربما يكون هذا هو الحال بشكل أكبر مع تعلم التضمين الخاضع للإشراف على الرغم من عدم قياس جميع الأساليب غير الخاضعة للإشراف بنفس مستوى الشمولية. على أي حال ، فإن النطاق الواسع من مهام البرمجة اللغوية العصبية المتنوعة للغاية ، والتي تعتمد على أنواع مختلفة من المعلومات في البيانات النصية ، تجعل هذه المشكلة بارزة. يعد التعلم المشترك لحفلات الزفاف من عدة مهام طريقة مثيرة للاهتمام يمكن من خلالها أن تعالج الأساليب الخاضعة للإشراف هذا التحدي.
  6. هيئة مسماة: إن التوافر المحدود للشركات ذات العلامات الكبيرة جدًا يمثل أيضًا مشكلة للنُهج الخاضعة للإشراف والمضي قدمًا. قد يمثل هذا الميزة الحقيقية للنهج غير الخاضعة للإشراف في تعلم التمثيل الخاضع للإشراف في السنوات القادمة.

ملحوظة: إذا وجدت هذا الجزء خارج السياق قليلاً ، أقترح عليك إعادة النظر فيه بعد المرور بجزء جيد من التقنيات التي تم تناولها في هذا المنشور.

التقنيات الكلاسيكية

يغطي هذا القسم بإيجاز تقنيتين راسختين لتضمين المستندات: كيس الكلمات و  تخصيص ديريتشليت الكامنةلا تتردد في تخطيه.

حقيبة من بين الكلمات

تم تقديم هذه الطريقة في [Harris، 1954] ، وتمثل النص على أنه الحقيبة (متعددة) من كلماتها (فقدان القواعد وترتيب المعلومات). يتم ذلك عن طريق اتخاذ قرار بشأن مجموعة من n الكلمات التي ستشكل المفردات التي يدعمها التعيين ، وتخصيص فهرس فريد لكل كلمة في المفردات. ثم يتم تمثيل كل مستند بواسطة متجه الطول n، الذي i- الإدخال يحتوي على عدد تكرارات الكلمة i في المستند.

تضمين المستند

الشكل 2: تمثيل كيس من الكلمات لجملة كمثال

على سبيل المثال ، الجملة "كلب يأكل عالم الكلاب ، طفل!" (بعد تنظيف علامات الترقيم) يمكن تمثيله بمتجه طوله 550 v (بافتراض أنه تم اختيار مفردات من 550 كلمة) ، وهي صفر في كل مكان باستثناء الإدخالات التالية:

  • V₇₆ = 1 ، كالكلمة رقم 76 من المفردات العالم.
  • V₂₀₀ = 2 ، حيث أن الكلمة رقم 200 من المفردات هي الكلب.
  • V₃₂₂ = 1 ، حيث يتم أكل الكلمة 332 من المفردات.
  • الكلمة طفل لم يتم اختياره لتضمينه في المفردات ، لذلك فإنه يستحث القيمة 1 عند عدم إدخال المتجه.

على الرغم من بساطتها الهائلة ، فإن حقيقة أن جميع المعلومات إلى جانب تكرار حدوث الكلمات تضيع ، وميل حجم التمثيل للنمو بسرعة لدعم المفردات الغنية ، فقد تم استخدام هذه التقنية بشكل حصري تقريبًا وبنجاح كبير في مجموعة كبيرة من مهام البرمجة اللغوية العصبية لعقود . حتى مع التقدم الكبير في تمثيل المتجهات للنص في السنوات الأخيرة ، لا تزال الاختلافات الطفيفة الشائعة لهذه الطريقة - التي تمت تغطيتها أدناه - مستخدمة اليوم ، وليس دائمًا كأول خط أساس يتم تجاوزه بسرعة.

كيس من ن غرام

لاستعادة بعض معلومات ترتيب الكلمات التي فقدها نهج كيس الكلمات ، يمكن استخدام تكرار متواليات الكلمات القصيرة (بطول اثنين ، ثلاثة ، إلخ) (بالإضافة إلى ذلك أو بدلاً من ذلك) لإنشاء متجهات الكلمات. وبطبيعة الحال ، فإن حقيبة الكلمات هي حالة خاصة لهذه الطريقة ، لـ n=1.

بالنسبة إلى جملة "dog eat dog world، baby!" ، فإن أزواج الكلمات هي "أكل الكلب" و "أكل الكلب" و "عالم الكلاب" و "عالم الطفل" (وأحيانًا أيضًا كلب "و" طفل ") ، وتتكون المفردات من (أو تتعزز) كل أزواج الكلمات المتتالية في مجموعة المدخلات.

تضمين المستند

الشكل 3: تمثيل 2 جرام للجملة "الفيلم مذهل"

أحد الجوانب السلبية الرئيسية لهذا النهج هو الاعتماد غير الخطي لحجم المفردات على عدد الكلمات الفريدة ، والتي يمكن أن تكون كبيرة جدًا بالنسبة للمجموعات الكبيرة. تستخدم تقنيات التصفية بشكل شائع لتقليل حجم المفردات.

ترجيح tf-idf

الأسلوب الأخير ذو الصلة الجدير بالذكر في سياق حقيبة الكلمات هو تردد مصطلح - معكوس تردد الوثيقة، يشار إليها عادة باسم TF-IDF. تعيد هذه الطريقة وزن متجهات تردد الكلمة (أو n-gram) أعلاه بامتداد تردد الوثيقة العكسي (جيش الدفاع الإسرائيلي) لكل كلمة. إن جيش الدفاع الإسرائيلي للكلمة هو ببساطة لوغاريتم عدد المستندات في المجموعة مقسومًا على عدد المستندات التي تظهر فيها هذه الكلمة.

تضمين المستند

باختصار ، ينمو مصطلح TF مع ظهور الكلمة في كثير من الأحيان ، بينما يزداد مصطلح IDF مع ندرة الكلمة. يهدف هذا إلى ضبط درجات التكرار لحقيقة أن بعض الكلمات تظهر أكثر (أو أقل) بشكل عام. نرى [سالتون وباكلي ، 1988] للحصول على نظرة عامة شاملة لمقاربات ترجيح المصطلحات.

تخصيص Dirichlet الكامن (LDA)

LDA هو نموذج إحصائي توليدي يسمح بشرح مجموعات من الملاحظات من قبل مجموعات غير ملحوظة تشرح سبب تشابه بعض أجزاء البيانات. على سبيل المثال ، إذا كانت الملاحظات عبارة عن كلمات تم جمعها في مستندات ، فإنها تفترض أن كل مستند عبارة عن مزيج من عدد صغير من الموضوعات وأن وجود كل كلمة يُعزى إلى أحد موضوعات المستند.

لربط هذا مرة أخرى بحقيبة الكلمات ، يمكن اعتبار النهج السابق كنموذج احتمالي مبسط للوثائق كتوزيعات على الكلمات. يمثل متجه كيس الكلمات بعد ذلك أفضل تقريب لدينا للتوزيع غير الطبيعي للكلمات في كل مستند ؛ لكن الوثيقة هنا هي الوحدة الاحتمالية الأساسية ، كل عينة واحدة من توزيعها الفريد.

جوهر الأمر ، إذن ، هو الانتقال من هذا النموذج الاحتمالي البسيط للوثائق كتوزيعات على الكلمات إلى نموذج أكثر تعقيدًا عن طريق إضافة طبقة وسيطة كامنة (مخفية) من K المواضيع.

تضمين المستند

الشكل 4: تحول النموذج الاحتمالي من كيس الكلمات إلى LDA

تتميز الموضوعات الآن بالتوزيع على الكلمات ، بينما الوثائق هي توزيعات على الموضوعات. يتوافق هذا النموذج الاحتمالي للوثيقة مع نموذج توليدي للوثائق ؛ لتوليد مجموعة من M مستندات ذات أطوال {Nᵢ} ، بافتراض عدد محدد مسبقًا من K الموضوعات ، حيث يشير Dir () إلى أ توزيع ديريتشليت:

  1. لكل موضوع v، عينة توزيع كلمة φᵥ ~دير (β).
  2. لكل وثيقة i، عينة من توزيع الموضوع (أو خليط) θᵢ ~دير (α).
  3. لتوليد الوثيقة i من الطول لالكل كلمة j:
    3.1. عينة موضوع z ~متعدد الحدود (θᵢ) للكلمة j.
    3.2 كلمة عينة j~متعدد الحدود (z).

بالنظر إلى هذا النموذج ومجموعة المستندات ، تصبح المشكلة مشكلة استدلال ، وتوجد تقديرات تقريبية للتوزيعات المختلفة المذكورة أعلاه في عملية الاستدلال. من بينها θᵢ ، توزيع الموضوع لكل مستند i، نواقل البعد K.

إذن في عملية استنتاج النموذج ، فضاء متجه للبعد K تم الاستدلال عليه ، وهو موضوع يلتقط بطريقة ما الموضوعات أو الموضوعات الموجودة في مجموعتنا والطريقة التي يتم مشاركتها بها بين المستندات الموجودة فيه. هذا ، بالطبع ، يمكن اعتباره مساحة تضمين لهذه المستندات ، و- اعتمادًا على اختيار K - يمكن أن تكون ذات بعد أصغر بكثير من الأبعاد القائمة على المفردات.

في الواقع ، في حين أن حالة الاستخدام الرئيسية لـ LDA هي اكتشاف الموضوع / المجتمع غير الخاضع للإشراف ، فإن الحالات الأخرى تتضمن استخدام مساحة الموضوع الكامنة الناتجة كمساحة لتضمين مجموعة المستندات. لاحظ أيضًا أن تقنيات نمذجة الموضوعات الأخرى - مثل عامل المصفوفة غير السلبي (NMF) و  الفهرسة الدلالية الكامنة الاحتمالية (PLSI) - يمكن استخدامها بطريقة مماثلة لتعلم مسافات تضمين المستندات.

ملحوظة: القضية الرئيسية التي يواجهها الممارسون مع نماذج الموضوعات الاحتمالية هي استقرارها. نظرًا لأن تدريب نموذج موضوع يتطلب أخذ عينات من التوزيعات الاحتمالية ، فمن المتوقع أن تختلف نماذج نفس المجموعة نظرًا لاختلاف بذور مولد الأرقام العشوائية. تتفاقم هذه المشكلة بسبب حساسية نماذج الموضوع للتغييرات الصغيرة نسبيًا في مجموعة البيانات.

تقنيات تضمين المستندات غير الخاضعة للإشراف

العديد من الأساليب المعروضة في هذا القسم مستوحاة من تقنيات تضمين الكلمات البارزة ، وعلى رأسها word2vec، وهم أحيانًا تعميمات مباشرة لهذه الأساليب. تسمى تقنيات تضمين الكلمات هذه أحيانًا نماذج اللغة الاحتمالية العصبية؛ هذه ليست مصطلحات متطابقة ، كما هو الحال في نموذج اللغة الاحتمالية توزيع احتمالي على متواليات الكلمات، ولكن حيث تم تقديم هذا النهج كطريقة لتعلم نماذج اللغة في [بنجيو ، 2003] ، ترتبط ارتباطًا وثيقًا.

على هذا النحو ، فإن الفهم الأساسي لتقنيات تضمين الكلمات ضروري لفهم هذا القسم. إذا لم تكن معتادًا على الموضوع ، فإن برنامج تعليمي جيد الكتابة مكون من جزأين word2vec بواسطة كريس ماكورميك هي نقطة انطلاق ممتازة (جزء 2)، كما هي مقال Scholarpedia عن نماذج لغة الشبكة العصبية للبروفيسور جوشوا بنجيو (انظر أيضا وظيفة Hunter Heidenreich للحصول على نظرة عامة أكثر إيجازًا عن حفلات الزفاف بشكل عامو منشور أليكس مينار المكون من جزأين لمزيد من الغوص العميق في الرياضيات). ومع ذلك ، للحصول على فهم عميق للتفاصيل ، أحثك ​​على قراءة الأوراق الأساسية بواسطة [بنجيو ، 2003[،]Mikolov et al، 2013a[و]بنينجتون وآخرون ، 2014] حول الموضوع ، والذي شكل هذا المجال الفرعي من نواح كثيرة.

حتى على افتراض إلمامك بـ word2vec، ما زلت أرغب في ملاحظة الافتراض المهم الذي يقدمه هذا النموذج ، والذي يتم ترحيله ربما بواسطة كل من النماذج التي تمت مراجعتها هنا: الفرضية التوزيعية. هنا وصف موجز من ويكيبيديا:

• فرضية التوزيع في اللغويات مشتق من النظرية الدلالية من استخدام اللغة ، أي الكلمات التي يتم استخدامها والتي تحدث في نفس السياقات تميل إلى الادعاء بمعاني مماثلة. تم الترويج للفكرة الأساسية القائلة بأن "الكلمة تتميز من خلال الشركة التي تحتفظ بها" لسان بحري. الفرضية التوزيعية هي أساس الدلالات الإحصائية.

في الواقع ، من السهل رؤية ذلك word2vec، وغيرها من الأساليب ذاتية الإشراف لتعلم تمثيل الكلمات ، تعتمد بشكل كبير على هذه الفرضية ؛ جوهر النموذج ، بعد كل شيء ، هو أن تمثيلات الكلمات التي تم تعلمها أثناء تعلم التنبؤ بسياق الكلمة من الكلمة نفسها (أو العكس) تمثل فضاء متجهًا يلتقط المفاهيم والظواهر الدلالية والنحوية العميقة. بمعنى ، التعلم من سياق الكلمة يمكن أن يعلمنا عن معناها ودورها النحوي.

في هذا القسم ، الذي يغطي تعلم تمثيل المستندات تحت الإشراف الذاتي ، سترى أن كل هذه الأساليب تحافظ على هذا الافتراض للكلمات ، وتوسعها بطريقة ما إلى وحدات أكبر من النصوص.

حفلات الزفاف ن غرام

[Mikolov et al، 2013b] وسعوا word2vecنموذج تخطي الجرام للتعامل مع العبارات القصيرة من خلال تحديد عدد كبير من العبارات القصيرة - يركز المؤلفون على جمل مكونة من كلمتين وثلاث كلمات - باستخدام نهج يعتمد على البيانات ، ثم التعامل مع العبارات كرموز فردية أثناء تدريب ال word2vec نموذج. بطبيعة الحال ، هذا أقل ملاءمة لتعلم جمل أطول - حيث ينفجر حجم المفردات عند زيادة طول العبارة - و لا بد أن لا تعمم على العبارات غير المرئية وكذلك الطرق التي تتبعها.

كتب موشيه حزوم مراجعة عملية رائعة لهذا النهج، يستخدمه صاحب العمل لمحرك بحث يركز على المجال المالي.

متوسط ​​كلمة التضمين

هناك طريقة بديهية جدًا لإنشاء عمليات دمج للمستندات من عمليات دمج كلمات ذات مغزى: عند تقديم مستند ، قم بإجراء بعض العمليات الحسابية المتجهة على جميع المتجهات المقابلة لكلمات المستند لتلخيصها في متجه واحد في نفس مساحة التضمين ؛ عاملان من عوامل التلخيص الشائعة هما المتوسط ​​والمجمع.

بناءً على ذلك ، ربما يمكنك بالفعل أن تتخيل أن توسيع بنية وحدة التشفير وفك التشفير لـ word2vec وأقاربها للتعلم كيف يمكن أن يكون الجمع بين متجهات الكلمات في حفلات الزفاف أمرًا مثيرًا للاهتمام ؛ الأساليب التي تتبع هذا تقع ضمن هذه الفئة.

الاحتمال الثاني هو استخدام عامل تشغيل ثابت (غير قابل للتعلم) لتلخيص المتجهات - على سبيل المثال حساب المتوسط ​​- وتعلم دمج الكلمات في طبقة سابقة ، باستخدام هدف تعليمي يهدف إلى إنتاج عمليات دمج وثيقة غنية ؛ مثال شائع هو استخدام جملة للتنبؤ بجمل السياق. وبالتالي فإن الميزة الرئيسية هنا هي أن حفلات الزفاف مُحسَّنة للتوسيط في تمثيلات المستندات.

تضمين المستند

الشكل 5: بنية شبكة سيامي CBOW من [Kenter et al ، 2016] 

[Kenter et al ، 2016] فعل ذلك بالضبط ، باستخدام شبكة عصبية بسيطة على متوسط ​​متجهات الكلمات ، وتعلم كلمة التضمينات بالتنبؤ ، مع إعطاء تمثيل للجملة ، بالجمل المحيطة بها. يقارنون النتائج إلى كلا المتوسطين word2vec ناقلات و تخطي الأفكار ناقلات (انظر القسم الفرعي المناسب أدناه). [هيل وآخرون ، 2016] قارن عددًا كبيرًا من الأساليب ، بما في ذلك تدريب CBOW وتخطي الزخارف بالكلمات أثناء تحسين تمثيل الجملة (هنا باستخدام إضافة عناصر متجهية للكلمات). [Sinoara et al ، 2019] يقترح أيضًا تكوينًا مباشرًا لمتجهات تضمين الكلمات ومصادر المعرفة الأخرى (مثل متجهات معنى الكلمة) في النقطه الوسطى لتمثيل المستندات.

أخيرا، [Arora et al ، 2016] أظهر أيضًا أن هذا النهج هو خط أساس بسيط ولكن يصعب التغلب عليه عند زيادته مع اختلافين صغيرين: (1) استخدام مخطط ترجيح التردد العكسي السلس ، و (2) إزالة مكون الخطاب المشترك من متجهات الكلمات ؛ تم العثور على هذا المكون باستخدام PCA ، ويتم استخدامه كمصطلح تصحيح للخطاب الأكثر شيوعًا ، والذي يفترض أنه مرتبط بالصياغة. يقدم المؤلفون أ تطبيق بايثون.

ملحوظة: يمكن العثور على دليل آخر على قوة متوسط ​​الكلمة بشكل صحيح "حفلات الزفاف" عند النظر إلى نماذج الترجمة الآلية القائمة على الانتباه. يحصل مفكك الشفرة أحادي الاتجاه RNN على الكلمة المترجمة السابقة كمدخلات ، بالإضافة إلى "التضمين" (أي عمليات التنشيط ثنائية الاتجاه من المشفر RNN) للكلمة الحالية المراد ترجمتها ، ولكن أيضًا الكلمات الموجودة حولها ؛ يتم حساب متوسط ​​هذه بطريقة مرجحة في متجه السياق. إنه تعليم أن هذا المتوسط ​​الموزون قادر على الحفاظ على المعلومات التركيبية المعقدة والمعتمدة على الطلب من عمليات تنشيط شبكة التشفير (تذكر ، هذه ليست عمليات زواج معزولة كما في حالتنا ؛ كل منها مملوء بالمتابعة
تحويلة من الكلمات السابقة / التالية).

Sent2Vec

المقدمة في [Pagliardini et al ، 2017[و]جوبتا وآخرون ، 2019] (بما فيها تطبيق Python الرسمي المستند إلى C ++) ، هذه التقنية هي إلى حد كبير مزيجًا من النهجين أعلاه: نموذج CBOW الكلاسيكي لـ word2vec يمتد كلاهما ليشمل كلمة n-grams و  تم تكييفها لتحسين زخرفة الكلمة (و n-grams) لغرض حساب المتوسط ​​لإنتاج متجهات المستند.

تضمين المستند

الشكل 6: يمكن اعتبار sent2vec كنسخة غير خاضعة للإشراف من fastText

بالإضافة إلى ذلك ، تتم إزالة عملية أخذ العينات الفرعية للمدخلات ، مع الأخذ في الاعتبار الجملة بأكملها كسياق بدلاً من ذلك. هذا يعني كلاهما (A) يتم تجاهل استخدام عينات فرعية متكررة من الكلمات - حتى لا يتم منع توليد ميزات n-grams - و (B) نوافذ السياق الديناميكي المستخدمة من قبل word2vec يتم التخلص منها مع: تعتبر الجملة بأكملها بمثابة نافذة سياق ، بدلاً من أخذ عينات من حجم نافذة السياق لكل كلمة مجمعة عينات بشكل موحد بين 1 وطول الجملة الحالية.

طريقة أخرى للتفكير send2vec هي نسخة غير خاضعة للرقابة من نص سريع (انظر الشكل 6) ، حيث الجملة بأكملها هي السياق وتسميات الفصل المحتملة كلها كلمات مفردات. من قبيل الصدفة ، [Agibetov et al ، 2018] مقارنة أداء مدرك متعدد الطبقات باستخدام send2vec المتجهات كميزات لذلك نص سريع، مقابل مهمة تصنيف الجملة الطبية الحيوية.

متجهات الفقرة (doc2vec)

يشار إليها أحيانًا باسم doc2vec، هذه الطريقة ، مقدمة في [Le & Mikolov ، 2014] ربما تكون المحاولة الأولى للتعميم word2vec للعمل مع تسلسل الكلمات. يقدم المؤلفون نوعين مختلفين من pناقلات aragraph نموذج: الذاكرة الموزعة و  حقيبة من الكلمات الموزعة.

متجهات الفقرة: الذاكرة الموزعة (PV-DM)
يعمل نموذج PV-DM على زيادة نموذج وحدة فك التشفير القياسية عن طريق إضافة متجه ذاكرة ، يهدف إلى التقاط موضوع الفقرة ، أو السياق من الإدخال. مهمة التدريب هنا مشابهة تمامًا لمهمة حقيبة كلمات مستمرة؛ كلمة واحدة يمكن توقعها من سياقها. في هذه الحالة ، تكون كلمات السياق هي الكلمات السابقة ، وليست الكلمات المحيطة ، كما هي الفقرة.

تضمين المستند

الشكل 7: نموذج الذاكرة الموزعة لمتجهات الفقرة (PV-DM)

لتحقيق ذلك ، يتم تعيين كل فقرة إلى متجه فريد ، يتم تمثيله بواسطة عمود في مصفوفة (يُشار إليه بواسطة D) ، مثل كل كلمة في المفردات. تكون السياقات ذات طول ثابت ويتم أخذ عينات منها من نافذة منزلقة فوق الفقرة. يتم مشاركة متجه الفقرة عبر جميع السياقات التي تم إنشاؤها من نفس الفقرة ولكن ليس عبر الفقرات. وبطبيعة الحال ، تعتبر حفلات الزفاف كلمة عالمية ، ويمكن استخدام حفلات الزفاف المدربة مسبقًا (انظر التطبيقات والتحسينات أدناه).

كما في word2vec، يجب تلخيص المتجهات بطريقة ما في متجه واحد ؛ ولكن خلافا ل word2vec، يستخدم المؤلفون التسلسل في تجاربهم. لاحظ أن هذا يحافظ على معلومات الطلب. مشابه ل word2vec، مصنف softmax بسيط (في هذه الحالة ، softmax هرمي في الواقع) يتم استخدامه على هذا التمثيل المتجه الملخص للتنبؤ بإخراج المهمة. يتم التدريب بالطريقة القياسية ، باستخدام نزول التدرج العشوائي والحصول على التدرج عبر الانتشار العكسي.

لاحظ أن الفقرات الموجودة في مجموعة التدريب فقط لها متجه عمود من D المرتبطة بهم. في وقت التنبؤ ، يحتاج المرء إلى إجراء خطوة استنتاج لحساب متجه الفقرة لفقرة جديدة: تتم تهيئة متجه المستند بشكل عشوائي. ثم ، بشكل متكرر ، يتم تحديد كلمة عشوائية من المستند الجديد ، ويتم استخدام نزول التدرج لضبط أوزان طبقة الإدخال إلى المخفية بحيث يتم تكبير احتمال softmax للكلمة المحددة ، بينما تكون أوزان مخفية إلى softmax-output هي ثابت. ينتج عن هذا تمثيل المستند الجديد كمزيج من متجهات مستندات مجموعة التدريب (أي أعمدة D) ، يقيمون بشكل طبيعي في مساحة تضمين المستند.

ناقلات الفقرة: حقيبة الكلمات الموزعة (PV-DBOW)
البديل الثاني من ناقلات الفقرة، على الرغم من اسمه ، ربما يكون موازًا لـ word2vecالصورة تخطي جرام هندسة معمارية؛ مهمة التصنيف هي التنبؤ بكلمة سياق واحدة باستخدام متجه الفقرة فقط. في كل تكرار لنسب التدرج العشوائي ، يتم أخذ عينة من نافذة النص ، ثم يتم أخذ عينة من كلمة عشوائية واحدة من تلك النافذة ، لتشكيل مهمة التصنيف أدناه.

تضمين المستند

الشكل 8: نموذج كيس الكلمات الموزع لمتجهات الفقرة (PV-DBOW)

التدريب مشابه بخلاف ذلك ، باستثناء حقيقة أن متجهات الكلمات لا يتم تعلمها بشكل مشترك جنبًا إلى جنب مع متجهات الفقرة. هذا يجعل
أداء كل من الذاكرة ووقت التشغيل لمتغير PV-DBOW أفضل بكثير.

ملحوظة: In تطبيق Gensimيستخدم PV-DBOW عمليات التهيئة العشوائية للكلمة بشكل افتراضي ؛ إذا تم تعيين dbow_words على 1 ، فسيتم تنفيذ خطوة واحدة من تخطي غرام لتحديث تضمين الكلمات قبل تشغيل dbow. [لاو وبالدوين ، 2016] يجادل بأنه على الرغم من أن dbow يمكن نظريًا العمل مع تضمين كلمة عشوائية ، إلا أن هذا يحط من الأداء بشدة في المهام التي قاموا بفحصها.

يمكن إرجاع تفسير بديهي إلى الوظيفة الموضوعية للنموذج ، وهي تعظيم المنتج النقطي بين تضمين المستند وتضمينات الكلمات المكونة له: إذا تم توزيع عمليات دمج الكلمات بشكل عشوائي ، يصبح من الصعب تحسين تضمين المستند ليكون قريبًا من كلمات المحتوى الأكثر أهمية.

التطبيقات والتطبيقات والتحسينات
أظهر [Le & Mikolov، 2014] استخدام ناقلات الفقرة في العديد من مهام تصنيف النص وتحليل المشاعر ، بينما قام [Dai et al، 2015] بفحصها في سياق مهام تشابه المستندات و [Lau & Baldwin، 2016] مقارنتها بمهمة تكرار سؤال المنتدى و تشابه النص الدلالي (STS) نصف النهائي مهمة مشتركة. تقدم كلتا الورقتين الأخيرتين تقييمًا موسعًا للطريقة (يركز الأول على متغير PV-DBOW) ، ومقارنته بعدة طرق أخرى ، وكذلك تقديم المشورة العملية (لاحقًا بما في ذلك التعليمات البرمجية).

الطريقة لها تطبيق Python ، كجزء من حزمة gensimو تطبيق PyTorch. مرة أخرى، [لاو وبالدوين ، 2016] أيضا زودتهم بالكود المستخدم لفحصهم.

أخيرًا ، تم اقتراح تحسينات مختلفة على الطريقة. فمثلا، [Li et al ، 2016] توسيع الطريقة لتشمل أيضًا ميزات n-gram ، بينما يقترح [Thongtan & Phienthrakul، 2019] استخدام تشابه جيب التمام بدلاً من المنتج النقطي عند حساب إسقاط التضمين (يوفر أيضًا تطبيق Java).

Doc2VecC

[تشن ، 2017] قدم أسلوبًا مثيرًا للاهتمام مستوحى من نموذج الذاكرة الموزعة لمقاربة متجهات الفقرة (PV-DM) ويقترب من متوسط ​​تضمين الكلمات لتمثيل المستندات.

تضمين المستند

الشكل 9: بنية نموذج Doc2VecC

على غرار ناقلات الفقرةDoc2VecC (اختصار لـ ناقل الوثيقة من خلال الفساد) يتكون من طبقة إدخال وطبقة إسقاط وطبقة إخراج للتنبؤ بالكلمة المستهدفة ("حفل" في المثال أعلاه). توفر عمليات تضمين الكلمات المجاورة (مثل "الفتح" و "من أجل" و "ال") السياق المحلي بينما يعمل التمثيل المتجه للمستند بأكمله (يظهر باللون الرمادي) كسياق عالمي. أضع ثقتي في ناقلات الفقرة، والتي تتعلم مباشرة متجهًا فريدًا لكل مستند ، Doc2VecC يمثل كل مستند كمتوسط ​​لتضمينات الكلمات المأخوذة عشوائيًا من المستند (مثل "الأداء" في الموضع p، "مدح" في الموقف q، و "البرازيل" في الموضع r).

بالإضافة إلى ذلك ، يختار المؤلفون إتلاف المستند الأصلي عن طريق إزالة جزء كبير من الكلمات بشكل عشوائي ، ويمثل المستند عن طريق حساب متوسط ​​عمليات دمج الكلمات المتبقية فقط. تتيح آلية الفساد هذه تسريعًا أثناء التدريب لأنها تقلل بشكل كبير من عدد المعلمات التي يجب تحديثها في الانتشار الخلفي. يوضح المؤلفون أيضًا كيف يقدم شكلاً خاصًا من التنظيم ، والذي يعتقدون أنه يؤدي إلى تحسين الأداء الملحوظ ، ويتم قياسه وفقًا لمهمة تحليل المشاعر ، ومهمة تصنيف المستندات ومهمة الارتباط الدلالي مقابل عدد كبير من أحدث التقنيات توثيق تقنيات التضمين.

يمكن العثور على تطبيق مفتوح المصدر قائم على C للطريقة والرمز لإعادة إنتاج التجارب في الورقة في مستودع جيثب عام.

تم أيضًا تطبيق الفكرة العامة المتمثلة في إفساد أو إضافة ضوضاء إلى عملية تعلم تضمين المستند لإنتاج مساحة تضمين أكثر قوة من خلال [هيل وآخرون ، 2016] إلى تخطي الفكر نموذج (انظر القسم الفرعي التالي) لإنشاء نموذجهم المتسلسل لتقليل الضوضاء التلقائي (SDAE).

نواقل تخطي الفكر

المقدمة في [كيروس وآخرون ، 2015] ، فهذه محاولة مبكرة أخرى للتعميم word2vec، وتم نشره مع تطبيق رسمي خالص لبايثون (وحديثًا يضم أيضًا تطبيقات لـ PyTorch و  TensorFlow).

هذا ، مع ذلك ، يمتد word2vec - على وجه التحديد تخطي جرام الهندسة المعمارية - بطريقة بديهية أخرى: الوحدة الأساسية هي الآن جمل ، ويتم استخدام جملة مشفرة للتنبؤ بالجمل المحيطة بها. يتم تعلم تمثيلات المتجهات باستخدام نموذج مفكك تشفير تم تدريبه على المهمة المذكورة أعلاه ؛ يستخدم المؤلفون مشفر RNN مع عمليات تنشيط GRU وأجهزة فك تشفير RNN مع GRU شرطي. يتم تدريب اثنين من وحدات فك التشفير المختلفة للجمل السابقة والتالية.

تضمين المستند

الشكل 10: نموذج تخطي الأفكار. بالنظر إلى مجموعة من الجمل المتجاورة ، يتم تشفير الجملة sᵢ وتحاول إعادة بناء الجملة السابقة sᵢ₋₁ والجملة التالية s

توسيع المفردات في تخطي الفكر

• تخطي الفكر يستخدم برنامج التشفير طبقة تضمين الكلمة التي تحول كل كلمة في جملة الإدخال إلى تضمين الكلمة المقابلة لها ، مما يؤدي بشكل فعال إلى تحويل جملة الإدخال إلى سلسلة من عمليات تضمين الكلمات. يتم أيضًا مشاركة طبقة التضمين هذه مع كل من وحدات فك التشفير.

تضمين المستند

الشكل 11: في نموذج تخطي الأفكار ، يتم ترميز الجملة sᵢ بواسطة المشفر ؛ شرط مفككي التشفير على التمثيل الخفي لمخرج المشفر hᵢ للتنبؤ sᵢ₋₁ و sᵢ₊₁ [من بعد عمار زاهر]

ومع ذلك ، يستخدم المؤلفون فقط مفردات صغيرة تتكون من 20,000 كلمة ، ونتيجة لذلك قد يتم مواجهة العديد من الكلمات غير المرئية أثناء استخدامها في مهام مختلفة. للتغلب على هذا ، يتم تعلم رسم الخرائط من كلمة تضمين مساحة مدربة على مفردات أكبر بكثير (على سبيل المثال word2vec) لكلمة تضمين مساحة تخطي الأفكار نموذج ، من خلال حل غير منظم L2 خسارة الانحدار الخطي للمصفوفة W تحديد معلمات هذا التعيين.

التطبيقات والتحسينات والقراءات الإضافية
يوضح المؤلفون استخدام تخطي الفكر متجهات للارتباط الدلالي ، واكتشاف إعادة الصياغة ، وترتيب جملة الصورة ، وتصنيف نوع السؤال وأربع مجموعات بيانات للمشاعر والذاتية. [بروير ، 2017] يحقق كذلك في الخصائص النحوية لـ تخطي الفكر تمثيلات الجملة عن طريق تدريب الانحدار اللوجستي عليها للتنبؤ بعلامات نقاط البيع وعلاقات التبعية.

[Tang et al ، 2017 أ] اقتراح نهج حي ل تخطي الفكر، وإسقاط معلومات الطلب والتنبؤ بكل من الجملة السابقة والتالية باستخدام وحدة فك ترميز واحدة. [Tang وآخرون ، 2017 ب] وسّع هذا الفحص لاقتراح ثلاثة تحسينات على النموذج الذي يزعمون أنه يوفر أداءً مشابهًا باستخدام نموذج أسرع وأخف وزنًا: (1) فقط تعلم فك الجملة التالية ، (2) مضيفا متوسط ​​+ ماكس طبقة اتصال بين المشفر ومفكك التشفير (كطريقة للسماح بهندسة الميزات غير الخطية غير المعلمية) ، و (3) أداء تهيئة تضمين الكلمة الجيدة. أخيرا، [جان وآخرون ، 2016] طبق نفس الأسلوب باستخدام التشفير الهرمي المستند إلى CNN-LSTM بدلاً من المشفر RNN الوحيد ، عبر مجموعة واسعة من التطبيقات.

شكل آخر ، تم تقديمه في [لي آند بارك ، 2018] ، يتعلم تضمين الجمل عن طريق اختيار ، لكل جملة هدف ، جمل مؤثرة في المستند بأكمله بناءً على بنية المستند ، وبالتالي تحديد هياكل التبعية للجمل باستخدام البيانات الوصفية أو أنماط النص. بالإضافة إلى، [هيل وآخرون ، 2016] أقترح ال جهاز التشفير التلقائي لإزالة الضوضاء المتسلسل (SDAE) نموذج متغير من تخطي الفكر حيث يتم إتلاف بيانات الإدخال وفقًا لبعض وظائف الضوضاء ، ويتم تدريب النموذج على استعادة البيانات الأصلية من البيانات التالفة.

لمزيد من القراءة غير الأكاديمية على تخطي الفكر نموذج، يعطي Sanyam Agarwa نظرة عامة مفصلة رائعة عن الطريقة على مدونتهو عمار زاهر يبرهن على استخدامها لبناء مساحة متضمنة لوصفات الطبخ.

إرسال سريع

[هيل وآخرون ، 2016] اقترح تباينًا أبسط بشكل ملحوظ في تخطي الأفكار نموذج؛ إرسال سريع عبارة عن نموذج جملة مضاف بسيط (سجل ثنائي الخط) مصمم لاستغلال نفس الإشارة ، ولكن بتكلفة حسابية أقل بكثير. بالنظر إلى تمثيل BOW لبعض جملة السياق ، يتنبأ النموذج ببساطة بالجمل المجاورة (يتم تمثيلها أيضًا باسم BOW). أكثر رسميا، إرسال سريع يتعلم المصدر u والهدف vᵂ التضمين لكل كلمة w في المفردات النموذجية. على سبيل المثال التدريب Sᵢ₋₁ ، Sᵢ ، Sᵢ₊₁ من الجمل المتتالية ، يتم تمثيل Sᵢ كمجموع من التضمينات المصدر ص=Σش على مدى wSᵢ. تكلفة المثال إذن ببساطة Σ 𝜙 (ص,ت) أكثر ث∈Sᵢ₋₁∪Sᵢ₊₁ ، حيث 𝜙 هي وظيفة softmax. الورقة مصحوبة تطبيق رسمي لبايثون.

نواقل سريعة التفكير

[لوجيسواران ولي ، 2018] إعادة صياغة مهمة تضمين المستند - مشكلة التنبؤ بالسياق الذي تظهر فيه الجملة - كمشكلة تصنيف خاضعة للإشراف (انظر الشكل 12 ب) بدلاً من مهمة التنبؤ الخاصة بالمقاربات السابقة (انظر الشكل 12 أ).

تضمين المستند

الشكل 12: صياغة مشكلة الفكر السريع (ب) تتناقض مع نهج تخطي الفكر (أ)

يتمثل الجوهر في استخدام معنى الجملة الحالية للتنبؤ بمعاني الجمل المجاورة ، حيث يتم تمثيل المعنى بتضمين الجملة المحسوبة من دالة ترميز ؛ لاحظ أنه تم تعلم اثنين من التشفير هنا: f لجملة الإدخال و g للمرشحين. بالنظر إلى جملة الإدخال ، يتم ترميزها بواسطة جهاز تشفير (RNNs ، في هذه الحالة) ، ولكن بدلاً من إنشاء الجملة المستهدفة ، يختار النموذج الجملة المستهدفة الصحيحة من مجموعة من الجمل المرشحة ؛ تم إنشاء المجموعة المرشحة من جمل السياق الصالحة (الحقيقة الأساسية) والعديد من الجمل الأخرى غير المرتبطة بالسياق. أخيرًا ، يزيد الهدف التدريبي المُنشأ من احتمال تحديد جمل السياق الصحيحة لكل جملة في بيانات التدريب. بالنظر إلى صياغة توقع الجملة السابقة على أنها اختيار جملة من جميع الجمل الممكنة ، يمكن اعتبار هذا النهج الجديد بمثابة تقريب تمييزي لمشكلة التنبؤ.

يقوم المؤلفون بتقييم نهجهم في تصنيف النصوص المختلفة ، وتحديد إعادة الصياغة ومهام الارتباط الدلالي ، وكذلك تقديم تطبيق رسمي لبايثون.

تضمين Word Mover (WME)

طريقة حديثة جدًا ، خرجت من أبحاث IBM ، هي تضمين Word Mover (WME) ، مقدمة في [وو وآخرون ، 2018 ب]. يتم توفير تنفيذ رسمي مستند إلى لغة C وملفوفة بلغة Python.

[كوشنر وآخرون ، 2015] قدم دبليوالمسافة أو المحرك (WMD) ؛ يقيس هذا الاختلاف بين وثيقتين نصيتين كحد أدنى من المسافة التي تحتاجها الكلمات المضمنة في مستند واحد "للسفر" في مساحة التضمين للوصول إلى الكلمات المضمنة في مستند آخر (انظر الشكل 13 أ). بالإضافة إلى، [وو وآخرون ، 2018 أ] D2KE المقترح (المسافات إلى الألباب والزفاف) ، وهي منهجية عامة لاشتقاق نواة موجبة التحديد من دالة مسافة معينة.

تضمين المستند

الشكل 13: تباين أسلحة الدمار الشامل مع أسلحة الدمار الشامل. (أ) تقيس أسلحة الدمار الشامل المسافة بين وثيقتين x و y ، بينما (ب) تقارب WME نواة مشتقة من أسلحة الدمار الشامل بمجموعة من الوثائق العشوائية 𝜔.

يعتمد WME على ثلاثة مكونات لتعلم تمثيلات المتجهات المستمرة للنصوص ذات الأطوال المختلفة:

  1. القدرة على تعلم تضمين الكلمات عالية الجودة بطريقة غير خاضعة للرقابة (على سبيل المثال ، استخدام word2vec).
  2. القدرة على إنشاء مقياس مسافة للمستندات بناءً على حفلات الزفاف المذكورة باستخدام Wالمسافة أو المحرك (أسلحة الدمار الشامل).
  3. القدرة على اشتقاق نواة موجبة التحديد من دالة مسافة معينة باستخدام D2KE.

باستخدام هذه المكونات الثلاثة ، يتم تطبيق النهج التالي:

  1. بناء موجب محدد نواة Word Mover's (WMK) عبر خريطة معالم غير محدودة الأبعاد مقدمة من مسافة Word Mover (WMD) للوثائق العشوائية 𝜔 من توزيع معين ، باستخدام D2KE. نظرًا لاستخدامها لأسلحة الدمار الشامل ، فإن خريطة المعالم تأخذ في الاعتبار محاذاة الكلمات الفردية بين المستندات في الفضاء الدلالي الذي توفره عمليات دمج الكلمات المدربة مسبقًا (انظر الشكل 13 ب).
  2. بناءً على هذه النواة ، قم باشتقاق تضمين مستند عبر تقريب ميزات عشوائي للنواة ، التي تقارب منتجاتها الداخلية حسابات النواة الدقيقة.

هذا الإطار قابل للتوسعة ، منذ لبناته الأساسية ، word2vec وأسلحة الدمار الشامل ، بتقنيات أخرى مثل قفاز (لتضمين الكلمات) أو S-WMD (لترجمة الكلمة تضمين مساحة في وثيقة مسافة مترية).

قام المؤلفون بتقييم WME على 9 مهام لتصنيف النص في العالم الحقيقي و 22 مهمة تشابه نصي ، ويظهرون أنها تتطابق باستمرار ، بل وتتفوق في بعض الأحيان ، على أحدث التقنيات الأخرى.

جملة- بيرت (سبيرت)

تميز عام 2018 في البرمجة اللغوية العصبية بظهور المحولات (انظر الشكل 14) ، أحدث نماذج اللغة العصبية المستوحاة من نموذج المحولات المقدم في [فاسواني وآخرون 2017] - نموذج تسلسلي يوزع كل من التلافيف والتكرار ويستخدم الانتباه بدلاً من ذلك لدمج المعلومات المتسلسلة في تمثيل التسلسل. تشمل هذه العائلة المزدهرة BERT (وامتداداتها) و GPT (1 و 2) والمحولات ذات النكهة XL.

تضمين المستند

الشكل 14: صعود المحولات

تولد هذه النماذج تضمينًا سياقيًا لرموز الإدخال (وحدات الكلمات الفرعية عادةً) ، كل منها مملوء بمعلومات عن المنطقة المجاورة لها ، ولكنها لا تهدف إلى إنشاء مساحة تضمين غنية لتسلسلات الإدخال. حتى أن BERT لديها رمز خاص [CLS] يستخدم تضمين مخرجاته في مهام التصنيف ، ولكن لا يزال يتضح أنه دمج رديء لتسلسل الإدخال لمهام أخرى. [Reimers & Gurevych ، 2019]

الجملة- بيرت، المقدمة في [Reimers & Gurevych ، 2019] ويرافقه تطبيق بايثون، يهدف إلى تكييف بنية BERT باستخدام هياكل شبكة سيامي وثلاثية لاشتقاق زخارف جمل ذات مغزى يمكن مقارنتها باستخدام تشابه جيب التمام (انظر الشكل 15).

تضمين المستند

الشكل 15: بنية SBERT في التدريب على هدف التصنيف (يسار) والاستدلال (يمين)

تقنيات تضمين المستندات الخاضعة للإشراف

سمحت لنا الأساليب غير الخاضعة للإشراف التي تم تناولها في القسم السابق بتعلم تمثيلات مفيدة من مجموعة كبيرة غير موسومة. ليس هذا الأسلوب فريدًا في معالجة اللغة الطبيعية ، بل يركز على تمثيلات التعلم من خلال تصميم أهداف التعلم التي تستغل التسميات المتاحة مجانًا داخل البيانات. وبالتالي ، فإن قوة هذه الأساليب وقوتها لا تعتمد بشكل كبير على إطار التعلم فحسب ، بل تعتمد أيضًا على مدى نجاح هدف التعلم المصمم بشكل مصطنع في أن يتطلب أو يؤدي إلى تعلم ميزات أو معرفة ذات مغزى من شأنها أن تكون مفيدة في مختلف المهام النهائية. على سبيل المثال ، نتوقع أن يتم التقاط المعلومات الدلالية والنحوية جيدًا عن طريق مسافات تضمين الكلمات والمستندات.

تتمثل الطريقة المتناقضة لتعلم تمثيلات ذات مغزى للبيانات - في تسلسل الكلمات في حالتنا - في استخدام التسميات الصريحة (التي يتم إنشاؤها دائمًا بواسطة الشروح البشرية بطريقة ما). هنا ، تعتمد الصلة بالمهام المختلفة على مدى قرب المهمة الواضحة والتسميات المستخدمة من التطبيق النهائي ، ومرة ​​أخرى ، مدى جودة هذه المهمة في تحقيق تعلم الميزات والمعرفة القابلة للتعميم.

سنرى أن المناهج الخاضعة للإشراف تتراوح من تلك التي تستخدم مباشرة مهمة محددة معنونة لتعلم التمثيلات ، إلى تلك التي تعيد هيكلة المهام أو تستخرج مهامًا جديدة معنونة منها للحصول على تمثيلات أفضل.

تعلم حفلات الزفاف وثيقة من البيانات المسمى

كانت هناك محاولات مختلفة لاستخدام البيانات المصنفة أو المنظمة لتعلم تمثيلات الجملة. على وجه التحديد، [شو وآخرون ، 2014 أ[و]Sutskever et al ، 2014] ربما تكون المحاولات الأولى لتطبيق نهج وحدة فك التشفير لتعلم صراحة تضمين الجملة / العبارة مع البيانات المصنفة ؛ أول استخدام Europarl، مجموعة عبارات متوازية للترجمة الآلية الإحصائية ، والثانية تستخدم مهمة الترجمة من الإنجليزية إلى الفرنسية من مجموعة بيانات WMT-14. يتم تقديم محاولة بارزة أخرى في [Wieting et al ، 2015] و [Wieting & Gimpel ، 2017] ، حيث يتم تعلم كل من حفلات الزفاف وتخطيطها بشكل مشترك لتقليل تشابه جيب التمام بين أزواج من إعادة الصياغة (من مجموعة بيانات PPDB). [هيل وآخرون ، 2015] نماذج اللغة العصبية المدربة على تعيين تعريفات القاموس لتضمينات الكلمات المُدرَّبة مسبقًا للكلمات المحددة بواسطة تلك التعريفات. أخيرا، [كونو وآخرون ، 2017] دربت مشفرات NN لبنى مختلفة على مهمة استدلال اللغة الطبيعية في ستانفورد (انظر الشكل 16).

تضمين المستند

الشكل 16: مخطط التدريب العام على NLI

التضمينات السياقية لتشابه الوثيقة

هناك حالة معينة من النهج أعلاه مدفوعة بتشابه المستند. [داس وآخرون ، 2016] عرض حفلات الزفاف للوثيقة تعلمت زيادة التشابه بين وثيقتين عبر شبكة سيامية للمجتمع Q / A. (انظر الشكل 17)

تضمين المستند

الشكل 17: تتكون شبكة SCQA من تكرار الالتفاف ، والتجميع الأقصى وطبقات ReLU وطبقة متصلة بالكامل. يتم تقاسم الأوزان من W1 إلى W5 بين الشبكات الفرعية.

وبالمثل ، [نيقوسيا وموسكيتي ، 2017] استخدم الشبكات السيامية لإنتاج تمثيلات للكلمات أثناء تعلم تشابه النص الثنائي ، مع الأخذ في الاعتبار الأمثلة في نفس الفئة على أنها متشابهة. (انظر الشكل 18)

تضمين المستند

الشكل 18: هندسة الشبكة السيامية من [نيقوسيا وموسكيتي ، 2017]. يتم استهلاك عمليات دمج الكلمات لكل جملة بواسطة كومة من 3 وحدات GRU ثنائية الاتجاه. يشترك كلا فرعي الشبكة في أوزان المعلمات.

Crosslingual خفضت
-انحدار سلسلة التلال (Cr5)
[Josifoski et al، 2019] يقدم طريقة لتضمين المستندات المكتوبة بأي لغة في مساحة ناقل واحدة مستقلة عن اللغة. يتم ذلك عن طريق تدريب المصنف القائم على الانحدار الذي يستخدم ميزات كيس الكلمات الخاصة باللغة من أجل التنبؤ بالمفهوم الذي تدور حوله وثيقة معينة. عند تقييد مصفوفة الوزن المكتسبة لتكون ذات مرتبة منخفضة ، يوضح المؤلفون أنه يمكن تحليلها للحصول على التعيينات المرغوبة من أكياس الكلمات الخاصة بلغة معينة إلى حفلات الزفاف المستقلة عن اللغة. تطبيق رسمي لبايثون متوفر.

مهام محددة تحت الإشراف وثيقة حفلات الزفاف

تستخدم الطريقة الشائعة الخاضعة للإشراف لإنتاج عمليات دمج المستندات العديد من بنى الشبكات العصبية ، وتعلم مشغلي التكوين الذين يرسمون متجهات الكلمات لتوثيق المتجهات ؛ يتم تمرير هذه إلى مهمة خاضعة للإشراف وتعتمد على ملصق فئة من أجل نشر عكسي من خلال أوزان التركيب (انظر الشكل 19).

لذلك ، يمكن اعتبار جميع الطبقات المخفية تقريبًا في الشبكة لإنتاج متجه لتضمين مستند إدخال ، مع اعتبار بادئة الشبكة حتى تلك الطبقة التعيين المكتسب من متجهات الكلمات إلى مساحة التضمين. يمكن العثور على فحص دقيق للطرق المختلفة لتعلم متجهات الجملة بناءً على متجهات الكلمات ومهمة التعلم الخاضعة للإشراف في [Wieting et al ، 2015].

تضمين المستند

الشكل 19: تتعلم الشبكات العصبية ضمنيًا تعيين تسلسل تضمين الكلمات لتوثيق حفلات الزفاف

لاحظ أنه في حين أن كلمة التضمين المستخدمة يمكن أن تكون مُنشأة مسبقًا ومحايد للمهمة (إلى حد ما ، على الأقل) ، فإن التعيين المستفاد منها لتوثيق التضمين هو مهمة محددة. في حين أن هذه يمكن أن تكون مفيدة للمهام ذات الصلة ، فإن هذه الطريقة لا بد أن تكون أقل قوة وعمومية من تلك غير الخاضعة للإشراف ، على الأقل من الناحية النظرية. [كيروس وآخرون ، 2015]

تشمل الاستخدامات البارزة تصنيف المشاعر باستخدام RNNs [Socher et al ، 2013] ، ومهام تصنيف نص متنوعة باستخدام CNNs [Kalchbrenner et al ، 2014] [Kim ، 2014] وكل من مهام الترجمة الآلية وتصنيف النص باستخدام الشبكات العصبية التلافيفية العودية [Cho et al، 2014a، 2014b] [Zhao et al، 2015].

GPT
[رادفورد وآخرون ، 2018قدم التوليدي قبل التدريب (GPT) (مصحوبًا بتطبيق Python) ، والجمع بين التعلم التمثيلي غير الخاضع للإشراف والمشرف ، باستخدام نموذج المحولات المقدم في [فاسواني وآخرون 2017] لتعلم نموذج لغة غير خاضع للإشراف على مجموعة غير مصنفة ، ثم ضبط استخدامه لكل مهمة على حدة باستخدام البيانات الخاضعة للإشراف. قدموا لاحقًا GPT-2 في [رادفورد وآخرون ، 2019] ، والتركيز على تعزيز جزء التعلم غير الخاضع للإشراف من عملهم ، مرة أخرى الافراج عن تطبيق بايثون الرسمي.

نموذج التشابه الدلالي العميق (DSSM)
مشروع Microsoft Research، DSSM هي تقنية نمذجة شبكة عصبية عميقة لتمثيل سلاسل نصية في فضاء دلالي مستمر ونمذجة التشابه الدلالي بين سلسلتين نصيتين (انظر الشكل 20).

تضمين المستند

الشكل 20: بنية الشبكة العصبية DSSM

تم استخدام DSSM ، من بين تطبيقات أخرى ، لتطوير النماذج الدلالية الكامنة التي تعرض كيانات من أنواع مختلفة (مثل الاستعلامات والوثائق) في مساحة دلالية منخفضة الأبعاد لمجموعة متنوعة من مهام التعلم الآلي مثل التصنيف والتصنيف. فمثلا، [Huang et al ، 2013] استخدمه في استعلامات المشروع والمستندات في مساحة مشتركة منخفضة الأبعاد حيث يتم حساب ملاءمة استعلام مستند معين على أنه المسافة بينهما.

تشمل التطبيقات TensorFlowKeras و  اثنان PyTorch الاختلافات.

التعلم المشترك لتمثيل الجملة

[أحمد وآخرون ، 2018] يقترح أن التعلم المشترك لتمثيل الجمل من مهام تصنيف النص المتعددة والجمع بينها وبين مشفرات مستوى الكلمات والجمل المدربة مسبقًا يؤدي إلى تمثيلات قوية للجمل تكون مفيدة في نقل التعلم

تضمين المستند

الشكل 21: زخارف جمل التعلم المشترك باستخدام المهام المساعدة

[يو وجيانغ ، 2016] أظهر بالمثل أن استخدام مهمتين مساعدتين للمساعدة في تحفيز تضمين الجملة يفترض أنه يعمل بشكل جيد عبر المجالات لتصنيف المشاعر ، وتعلم بشكل مشترك تضمين هذه الجملة مع مصنف المشاعر نفسه (الشكل 21).

التشفير الشامل
المقدمة في [Cer et al، 2018a[و]Cer et al، 2018b] ، ويرافقه أ تنفيذ TensorFlow، تتضمن هذه الطريقة في الواقع نموذجين محتملين لتعلم تمثيل الجملة: محول نموذج و شبكة المتوسطات العميقة (DAN) نموذج (انظر الشكل 22). كلاهما مصمم للسماح بالتعلم متعدد المهام ، مع المهام المدعومة بما في ذلك (1) مثلكيب الفكر مثل مهمة التعلم غير الخاضع للإشراف ؛ (2) مهمة إدخال - استجابة محادثة لإدراج بيانات المحادثة الموزعة ؛ و (3) مهام تصنيف للتدريب على البيانات الخاضعة للإشراف (انظر القسم الفرعي السابق). يركز المؤلفون على التجارب مع نقل مهام التعلم ، وقياس نماذجهم مقابل خطوط الأساس البسيطة لـ CNN و DAN. كانت الطريقة في وقت لاحق مددت لمعالجة الإعدادات متعددة اللغات.

• محول النموذج يعتمد بشكل مباشر على نموذج المحولات المقدم في [فاسواني وآخرون 2017] ، وهو أول نموذج لتوصيل التسلسل يعتمد كليًا على الانتباه ، ليحل محل الطبقات المتكررة الأكثر استخدامًا في معماريات مفكك التشفير مع الانتباه الذاتي متعدد الرؤوس (انظر الشكل 22 أ).

يبني النموذج زخرفة الجملة باستخدام الرسم البياني الفرعي للتشفير لهندسة المحولات. يستخدم المشفر الانتباه لحساب التمثيلات المدركة للسياق للكلمات في الجملة التي تأخذ في الاعتبار كل من ترتيب الكلمات الأخرى وهويتها. يتم حساب متوسط ​​تمثيلات الكلمات الواعية للسياق معًا للحصول على تضمين على مستوى الجملة.

تضمين المستند

الشكل 22: نموذجان من مشفر الجمل الشامل: (أ) المحول و (ب) DAN

على العكس من ذلك ، في نموذج DAN المقدم في [Iyyer et al ، 2015] ، يتم أولاً حساب متوسطات إدخال الكلمات و bi-grams معًا ثم تمريرها عبر شبكة عصبية عميقة (DNN) لإنتاج عمليات دمج الجملة (انظر الشكل 22 ب).

جينسين
يشبه إلى حد كبير Universal Sentence Encoder ، نهج GenSen المقدم في [سوبرامانيان وآخرون ، 2018] معا مع تطبيق رسمي لبايثون، يجمع بين العديد من مهام التعلم الخاضعة للإشراف وغير الخاضعة للإشراف لتدريب نموذج وحدة فك التشفير المستندة إلى RNN w / GRU الذي يتم استخلاص التضمين منه. المهام الأربع المدعومة هي: (1) تخطي الفكر المتجهات ، (2) الترجمة الآلية العصبية ، (3) تحليل الدوائر الانتخابية ، و (4) الاستدلال اللغوي الطبيعي (مشكلة تصنيف ثلاثية الاتجاهات ؛ بالنظر إلى فرضية وجملة فرضية ، فإن الهدف هو تصنيف علاقتهم على أنها إما ضمنية أو تناقض أو محايد). تم نشر تطبيق Python الرسمي.

كيفية اختيار التقنية التي يجب استخدامها

ليس لدي إجابات سهلة هنا ، ولكن إليك بعض النصائح الممكنة:

  1. يعد حساب متوسط ​​متجهات الكلمات أساسًا قويًا، لذا فإن الفكرة الجيدة هي أن تبدأ بحثك عن حفلات زفاف جيدة من خلال التركيز على إنشاء متجهات كلمات جيدة جدًا ، وببساطة حساب متوسطها في البداية. لا شك أن الكثير من قوة عمليات دمج المستندات تأتي من متجهات الكلمات التي تم إنشاؤها عليها ، وأعتقد أنه من الآمن القول أن هناك دلتا كبيرة من المعلومات يجب تحسينها في تلك الطبقة قبل المضي قدمًا. يمكنك تجربة تضمين كلمات مختلفة مُدرَّبة مسبقًا ، واستكشاف مجالات المصدر والطرق (مثل word2vec و GloVe و BERT و ELMo) لالتقاط نوع المعلومات التي تحتاجها بطريقة أفضل. ثم قم بتوسيع هذا قليلاً عن طريق تجربة عوامل تلخيص مختلفة أو حيل أخرى (مثل تلك الموجودة في [Arora et al ، 2016]) قد يكون كافيا.
  2. يمكن أن يكون الأداء أحد الاعتبارات الرئيسية، خاصة بدون قائد واضح بين الأساليب. في هذه الحالة ، كلاهما متوسط ​​نواقل الكلمات، وبعض الطرق البسيطة مثل send2vec و  إرسال سريع، هم مرشحون جيدون. في المقابل ، مطلوب استدلال تمثيل المتجه في الوقت الحقيقي لكل جملة عند الاستخدام doc2vec قد تكون مكلفة بالنظر إلى قيود التطبيق. SentEval ، مجموعة أدوات تقييم لتمثيل الجمل المقدمة في [كونو وكيلا ، 2018] ، هي أداة جديرة بالذكر في هذا السياق.
  3. ضع في اعتبارك صلاحية هدف التعلم لمهمتك. تم تمديد تقنيات الإشراف الذاتي المختلفة التي تم تناولها أعلاه فرضية التوزيع بطرق مختلفة ، مع تخطي الفكر و  سريع التفكير نمذجة علاقة قوية بين الجمل / الفقرات بناءً على المسافة بينهما في المستند. هذا perh
    تنطبق aps بشكل ضئيل على الكتب والمقالات ومنشورات الوسائط الاجتماعية ، ولكنها قد لا تنطبق بقوة على تسلسلات أخرى من النصوص ، خاصة تلك المنظمة ، وبالتالي قد تعرض مستنداتك في مساحة تضمين لا تنطبق عليها. وبالمثل ، قد لا ينطبق نهج محاذاة الكلمات الذي تعتمد عليه WME على كل سيناريو.
  4. تطبيقات المصدر المفتوح وفيرة، لذلك قد يكون من الممكن إجراء مقارنة بين الأساليب المختلفة مقابل مهمتك.
  5. لا يوجد قادة واضحين لمهمة محددة. غالبًا ما تقيس الأوراق طرقًا مختلفة مقابل مهام التصنيف وإعادة الصياغة والارتباط الدلالي. ومع ذلك ، فإن الاستنتاج أعلاه ينشأ عند النظر في كامل الأدبيات حول هذا الموضوع ، وعلى وجه التحديد عند النظر في نتائج أحدث معيارين من 2018 ، أولهما قام به [لوجيسواران ولي ، 2018] عند تقديم سريع التفكير الطريقة والثانية بواسطة [وو وآخرون ، 2018 ب] كجزء من ورقتهم تضمين Word Mover.

الكلمات الأخيرة

هذا هو! كما هو الحال دائمًا ، أنا متأكد من أن المشاركات التي أكتبها ليست كاملة ، لذلك لا تتردد في اقتراح تصحيحات وإضافات إلى النظرة العامة أعلاه ، إما عن طريق التعليق هنا أو الاتصال بي مباشرة.

كما أود أن أشكر كليهما آدم بالي و  أوري كوهين، الذين قدموا ملاحظات قيمة للغاية. اذهب واقرأ منشوراتهم!

أخيرًا ، وجدت أنه من المفيد ذكر ذلك أوراق مع كود لديها مهمة مخصصة لتوثيق التضمين، وأن موقع Facebook Research مفتوح المصدر SentEval ، مجموعة أدوات تقييم لتمثيل الجمل المقدمة في [كونو وكيلا ، 2018].

استرخ الآن ، ودع المراجع تطغى عليك.

مراجع حسابات

Agibetov، A.، Blagec، K.، Xu، H.، & Samwald، M. (2018). نماذج تضمين عصبية سريعة وقابلة للتطوير لتصنيف الجمل الطبية الحيويةالمعلوماتية الحيوية BMC19(شنومكس)، شنومكس.

Ahmad، WU، Bai، X.، Peng، N.، & Chang، KW (2018). تعلم تمثيلات جمل قوية وقابلة للتحويل لتصنيف النصarXiv preprint arXiv: 1810.00681.

Arora، S.، Liang، Y.، & Ma، T. (2016). خط أساس بسيط ولكن يصعب التغلب عليه لحفلات الزفاف بالجملة. [التنفيذ غير الرسمي]

بنجيو ، واي. ، دوشارم ، آر ، فينسينت ، بي ، وجوفين ، سي (2003). نموذج لغوي احتمالي عصبيمجلة أبحاث التعلم الآلي3(فبراير) ، 1137-1155.

بروير ، (2017). الخصائص النحوية لناقلات التفكير التخطيأطروحة ماجستير ، جامعة تيلبورغ.

Cer، D.، Yang، Y.، Kong، SY، Hua، N.، Limtiaco، N.، John، RS،… & Sung، YH (2018). مشفر الجملة الشاملarXiv preprint arXiv: 1803.11175.

Cer، D.، Yang، Y.، Kong، SY، Hua، N.، Limtiaco، N.، John، RS،… & Strope، B. (2018 ، نوفمبر). مشفر الجمل الشامل للغة الإنجليزية. في وقائع مؤتمر 2018 حول الأساليب التجريبية في معالجة اللغة الطبيعية: مظاهرات النظام (ص 169-174).

تشين ، م. (2017). التمثيل الفعال للوثائق من خلال الفسادarXiv preprint arXiv: 1707.02377.

Chen، Q.، Peng، Y.، & Lu، Z. (2018). BioSentVec: إنشاء حفلات الزفاف للنصوص الطبية الحيوية. طبع arXiv التمهيدي arXiv: 1810.09302.

Cho، K.، Van Merriënboer، B.، Gulcehre، C.، Bahdanau، D.، Bougares، F.، Schwenk، H.، & Bengio، Y. (2014). تعلم تمثيلات العبارات باستخدام وحدة فك التشفير RNN للترجمة الآلية الإحصائيةarXiv preprint arXiv: 1406.1078.

تشو ، ك ، فان ميرينبوير ، ب ، باهدانو ، دي ، وبينجيو ، واي (2014). حول خصائص الترجمة الآلية العصبية: مناهج التشفير وفك التشفيرarXiv preprint arXiv: 1409.1259.

كونو ، إيه ، كيلا ، دي ، شوينك ، إتش ، بارولت ، إل ، أند بورديس ، إيه (2017). التعلم الخاضع للإشراف لتمثيلات الجملة العامة من بيانات الاستدلال باللغة الطبيعيةarXiv preprint arXiv: 1705.02364.

كونو ، أ ، وكيلا ، د. (2018). Senteval: مجموعة أدوات تقييم لتمثيل الجملة الشاملةarXiv preprint arXiv: 1803.05449.

Dai ، AM ، Olah ، C. ، & Le ، QV (2015). وثيقة التضمين مع متجهات الفقرةarXiv preprint arXiv: 1507.07998.

Das، A.، Yenala، H.، Chinnakotla، M.، & Shrivastava، M. (2016، August). معا نقف: شبكات سيامية لاسترجاع سؤال مماثل. في وقائع الاجتماع السنوي الرابع والخمسين لجمعية اللغويات الحاسوبية (المجلد 54: الأوراق الطويلة) (ص 378-387).

Gan، Z.، Pu، Y.، Henao، R.، Li، C.، He، X.، & Carin، L. (2016). التعلم غير الخاضع للإشراف لتمثيلات الجملة باستخدام الشبكات العصبية التلافيفية. arXiv preprint arXiv: 1611.07897.

Gan، Z.، Pu، Y.، Henao، R.، Li، C.، He، X.، & Carin، L. (2016). تعلم تمثيلات الجملة العامة باستخدام الشبكات العصبية التلافيفيةarXiv preprint arXiv: 1611.07897.

جوبتا ، ب. ، باجليارديني ، إم ، وجاجي ، إم. (2019). كلمة أفضل
حفلات الزفاف عن طريق فصل المعلومات السياقية n-Gram
arXiv preprint arXiv: 1904.05033.

هاريس ، ZS (1954). الهيكل التوزيعي. كلمة ، 10 (2-3) ، 146-162.

Hill، F.، Cho، K.، Korhonen، A.، & Bengio، Y. (2015). تعلم فهم العبارات من خلال تضمين القاموسمعاملات جمعية اللسانيات الحاسوبية417-30.

هيل ، إف ، تشو ، ك ، وكورونين ، أ. (2016). تعلم التمثيلات الموزعة للجمل من البيانات غير الموسومةarXiv preprint arXiv: 1602.03483.

Huang، PS، He، X.، Gao، J.، Deng، L.، Acero، A.، & Heck، L. (2013 ، أكتوبر). تعلم النماذج الدلالية المنظمة العميقة لبحث الويب باستخدام بيانات النقر. في وقائع المؤتمر الدولي الثاني والعشرين للـ ACM حول إدارة المعلومات والمعرفة (ص 2333-2338). ACM.

Iyyer، M.، Manjunatha، V.، Boyd-Graber، J.، & Daumé III، H. (2015). تنافس التكوين العميق غير المنظم الطرق النحوية لتصنيف النص. في وقائع الاجتماع السنوي الثالث والخمسين لجمعية اللغويات الحاسوبية والمؤتمر الدولي المشترك السابع حول معالجة اللغة الطبيعية (المجلد 53: الأوراق الطويلة) (المجلد 1 ، ص 1681 - 1691).

Josifoski، M.، Paskov، IS، Paskov، HS، Jaggi، M.، & West، R. (2019 ، يناير). التضمين المتقاطع للوثيقة باعتباره انحدار ريدج منخفض الرتبة. في وقائع المؤتمر الدولي الثاني عشر للـ ACM حول البحث على الويب واستخراج البيانات (ص 744-752). ACM.

كالتشبرينر ، ن. ، جريفينستيت ، إي ، وبلونسوم ، ب. (2014). شبكة عصبية تلافيفية لنمذجة الجمل. arXiv preprint arXiv: 1404.2188.

Kenter ، T. ، Borisov ، A. ، & De Rijke ، M. (2016). قوس سيامي: تحسين زخرفة الكلمة لتمثيل الجملةarXiv preprint arXiv: 1606.04640.

كيم ، يون. "الشبكات العصبية التلافيفية لتصنيف الجملة". arXiv preprint arXiv: 1408.5882 (2014).

Kiros، R.، Zhu، Y.، Salakhutdinov، RR، Zemel، R.، Urtasun، R.، Torralba، A.، & Fidler، S. (2015) نواقل تخطي الفكر. في التقدم في أنظمة معالجة المعلومات العصبية (ص 3294-3302).

Kusner ، M. ، Sun ، Y. ، Kolkin ، N. ، & Weinberger ، K. (2015 ، يونيو). من حفلات الزفاف إلى توثيق المسافات. في المؤتمر الدولي للتعلم الآلي (ص 957-966).

Lau، JH، & Baldwin، T. (2016). تقييم تجريبي لـ doc2vec مع رؤى عملية لتوليد تضمين المستنداتarXiv preprint arXiv: 1607.05368. [الكود]

Le ، Q. ، & Mikolov ، T. (2014 ، يناير). تمثيلات موزعة للجمل والوثائق. في المؤتمر الدولي للتعلم الآلي (ص 1188-1196).

لي ، ت ، وبارك ، واي (2018). تضمين الجمل غير الخاضعة للمراقبة باستخدام سياق مستند إلى الهيكل.

لوجيسواران ، إل ، ولي ، إتش (2018). إطار عمل فعال لتعلم تمثيل الجملة. طبع arXiv التمهيدي arXiv: 1803.02893.

Li ، B. ، Liu ، T. ، Du ، X. ، Zhang ، D. ، & Zhao ، Z. (2015). تعلم حفلات الزفاف عن طريق توقع n-grams لتصنيف المشاعر لمراجعات الأفلام الطويلةarXiv preprint arXiv: 1512.08183.

ليو ، واي ، ولاباتا ، إم (2018). تعلم تمثيل النص المنظم. معاملات جمعية اللغويات الحاسوبية ، 6 ، 63-75.

ميكولوف ، ت. ، تشين ، ك. ، كورادو ، جي ، ودين ، ج. (2013). تقدير فعال لتمثيل الكلمات في الفضاء المتجه. طبع arXiv التمهيدي arXiv: 1301.3781.

Mikolov ، T. ، Sutskever ، I. ، Chen ، K. ، Corrado ، GS ، & Dean ، J. (2013). تمثيلات موزعة للكلمات والعبارات وتكوينها. في التقدم في أنظمة معالجة المعلومات العصبية (ص 3111-3119).

نيقوسيا ، م ، وموسكيتي ، أ. (2017 ، أغسطس). تعلم الزخارف السياقية للتشابه الدلالي الهيكلي باستخدام المعلومات الفئوية. في وقائع المؤتمر الحادي والعشرين لتعلم اللغة الطبيعية الحسابي (CoNLL 21)(ص 260-270).

باجليارديني ، إم ، جوبتا ، بي ، وجاجي ، إم (2017). التعلم غير الخاضع للإشراف لحفلات الزفاف باستخدام ميزات n-gram التركيبيةarXiv preprint arXiv: 1703.02507.

بنينجتون ، جيه ، سوتشر ، آر ، آند مانينغ ، سي (2014 ، أكتوبر). القفاز: موجهات عالمية لتمثيل الكلمات. في وقائع مؤتمر 2014 حول الأساليب التجريبية في معالجة اللغة الطبيعية (EMNLP) (ص 1532-1543).

Radford، A.، Narasimhan، K.، Salimans، T.، & Sutskever، I. (2018). تحسين فهم اللغة بالتعلم بدون إشراف. تقرير فني ، OpenAI.

Radford، A.، Wu، J.، Child، R.، Luan، D.، Amodei، D.، & Sutskever، I. (2019). نماذج اللغة عبارة عن متعلمين متعددي المهام غير خاضعين للإشرافمدونة OpenAI1(8).

Reimers، N.، & Gurevych، I. (2019). الجملة بيرت: تضمين الجمل باستخدام شبكات بيرت السياميarXiv preprint arXiv: 1908.10084.

رودولف ، إم ، رويز ، إف ، آثي ، إس ، وبلي ، د. (2017). نماذج التضمين المنظمة للبيانات المجمعة. في التقدم في أنظمة معالجة المعلومات العصبية (ص 251-261).

سالتون ، ج ، وباكلي ، سي (1988). نهج ترجيح المصطلح في الاسترجاع التلقائي للنصمعالجة المعلومات وإدارتها24(شنومكس)، شنومكس-شنومكس.

Sinoara، RA، Camacho-Collados، J.، Rossi، RG، Navigli، R.، & Rezende، SO (2019). تعزيز المعرفة الوثيقة وثيقة لتصنيف النصالأنظمة القائمة على المعرفة163955-971.

Socher، R.، Perelygin، A.، Wu، J.، Chuang، J.، Manning، CD، Ng، A.، & Potts، C. (2013، October). نماذج عميقة متكررة للتكوين الدلالي على ضفة شجرة المشاعر. في وقائع مؤتمر 2013 حول الأساليب التجريبية في معالجة اللغة الطبيعية (ص 1631-1642).

سوبرامانيان ، S. ، Trischler ، A. ، Bengio ، Y. ، & Pal ، CJ (2018). تعلم تمثيلات الجملة الموزعة للأغراض العامة من خلال التعلم متعدد المهام على نطاق واسعarXiv preprint arXiv: 1804.00079.

Sutskever ، I. ، Vinyals ، O. ، & Le ، QV (2014). التسلسل لتسلسل التعلم باستخدام الشبكات العصبية. في التقدم في أنظمة معالجة المعلومات العصبية (ص 3104-3112).

Tang ، S. ، Jin ، H. ، Fang ، C. ، Wang ، Z. ، & de Sa ، VR (2017). إعادة التفكير في تخطي التفكير: نهج قائم على الحيarXiv preprint arXiv: 1706.03146.

Tang ، S. ، Jin ، H. ، Fang ، C. ، Wang ، Z. ، & de Sa ، VR (2017). تقليم وتحسين نواقل تخطي الفكرarXiv preprint arXiv: 1706.03148.

Thongtan، T.، & Phienthrakul، T. (2019، July). تصنيف المشاعر باستخدام Document Embeddings المدربة على تشابه جيب التمام. في وقائع المؤتمر السابع والخمسين لجمعية اللغويات الحاسوبية: ورشة عمل بحثية للطلاب (ص 407-414).

Vaswani، A.، Shazeer، N.، Parmar، N.، Uszkoreit، J.، Jones، L.، Gomez، AN،… & Polosukhin، I. (2017). الاهتمام هو كل ما تحتاجهفي التقدم في أنظمة معالجة المعلومات العصبية (ص 5998-6008).

Wieting ، J. ، Bansal ، M. ، Gimpel ، K. ، & Livescu ، K. (2015). نحو حفلات الزفاف الشاملة المعاد صياغتها. طبع arXiv التمهيدي arXiv: 1511.08198.

Wieting ، J. ، & Gimpel ، K. (2017). إعادة النظر في الشبكات المتكررة لحفلات الزفاف المعاد صياغتها. arXiv preprint arXiv: 1705.00364.

Wu، L.، Yen، IEH، Xu، F.، Ravikumar، P.، & Witbrock، M. (2018). D2ke: من المسافة إلى النواة والتضمينarXiv preprint arXiv: 1802.04956.

Wu، L.، Yen، IE، Xu، K.، Xu، F.، Balakrishnan، A.، Chen، PY،… & Witbrock، MJ (2018). تضمين Word Mover: من Word2Vec إلى تضمين المستندarXiv preprint arXiv: 1811.01713.

Yu ، J. ، & Jiang ، J. (2016 ، نوفمبر). تعلم حفلات الزفاف مع المهام المساعدة لتصنيف المشاعر عبر المجال. في وقائع مؤتمر 2016 حول الأساليب التجريبية في معالجة اللغة الطبيعية (ص 236-246).

Zhang ، Y. ، Chen ، Q. ، Yang ، Z. ، Lin ، H. ، & Lu ، Z. (2019). BioWordVec ، تحسين عمليات دمج الكلمات الطبية الحيوية مع معلومات الكلمات الفرعية و MeSH. البيانات العلمية6(شنومكس)، شنومكس.

Zhao، H.، Lu، Z.، & Poupart، P. (2015 ، يونيو). نموذج الجملة الهرمي التكيف الذاتي. في المؤتمر الدولي الرابع والعشرون للذكاء الاصطناعي.

تم نشر هذه المقالة في الأصل نحو علم البيانات وإعادة النشر إلى TOPBOTS بإذن من المؤلف.

هل تستمتع بهذه المقالة؟ قم بالتسجيل للحصول على المزيد من تحديثات AI و NLP.

سنخبرك عندما نصدر المزيد من التعليم الفني المتعمق.

المصدر: https://www.topbots.com/document-embedding-techniques/؟utm_source=rss&utm_medium=rss&utm_campaign=document-embedding-techniques

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة