شعار زيفيرنت

مشاجرات الترجمة: ماذا يحدث عندما يختلف المعلقون؟

التاريخ:

هناك هذا القول حول كيف إذا أعطيت نفس النص لعشرة مترجمين مختلفين ، فإنهم سيقدمون 10 ترجمات مختلفة ، صالحة بالتساوي. بعد كل شيء ، اللغة هي ذاتية للغاية ، لذلك عندما يتعلق الأمر بالترجمة ، لا توجد إجابة واحدة مقبولة عالميًا. وبالتالي ، من الطبيعي أن يمتلك اللغويون آراء قوية جدًا حول الترجمة التي تعبر بشكل أفضل عن المعنى الأصلي للرسالة. 

نظرًا لأننا نبحث عن أعلى مستويات الترجمة ، فإن هذا يمثل تحديًا كبيرًا لنا. اتضح أن الشيء نفسه ينطبق على التعليق التوضيحي لأخطاء الترجمة. لا يوافق المعلقون دائمًا ، وليس لأنه تم تصنيف خطأ في الترجمة بشكل خاطئ ، ولكن بدلاً من ذلك يمكن تصنيف نفس الخطأ بشكل مختلف ، اعتمادًا على الزاوية التي تنظر إليها. لذا كيف يمكننا أن نأمل في تدريب نماذجنا على الدقة حتى عندما لا يمكننا الاتفاق على الخطأ؟ وهل يمكن أن يكون هذا التنوع في الآراء أمرًا جيدًا؟

يحتاج التعلم تحت الإشراف أمثلة

أولاً ، نحتاج إلى اتخاذ خطوة إلى الوراء: لماذا نهتم بما تقوله التعليقات التوضيحية؟

والسبب بسيط: في الوقت الحالي ، جميع طرق الذكاء الاصطناعي الناجحة تقريبًا هي طرق خاضعة للإشراف. هذا يعني أنهم يتعلمون من الأمثلة. للتعرف على الصور ، الأمثلة هي صور مشروحة بمربعات محيط بها تسميات (هذا الجزء من الصورة هو قطة ، هذا الجزء من الصورة هو كلب ، وما إلى ذلك) ، للتعرف على الكلام ، الأمثلة هي تسجيلات الكلام مع نسخ نصها ، وبالنسبة للترجمة الآلية ، هذا يعني جمل مع ترجمة الترجمات.

تتطلب بعض المهام تصنيف الكلمات أو الجمل بأكملها إلى فئات ثابتة - التحدي مع التعرف على الكيان المسمى (NER) هو التعرف على أجزاء من الجملة تشير إلى فئات معينة من الاهتمام مثل الموقع والاسم والتاريخ.

مثال على نوع البيانات المستخدمة والمنتجة في NER: LOC هي الموقع ، ORG هي المنظمة و NORP هي الجنسيات أو الجماعات الدينية أو السياسية. هذا المثال بالذات هو التنبؤ نموذج اللغة الإنجليزية الكبير Spacy على مقال إخباري من الآكل. لاحظ أن الكيان يمكن أن يتكون من عدة كلمات ، وأن آخر مثيل لـ Corona تم تمييزه عن طريق الخطأ كموقع.

هذه البيانات المصنفة هي الأساس لأي تطبيق تعلم آلي ناجح في العالم الحقيقي ، لأن هذه الأمثلة لا تقوم بتدريب النماذج فحسب - بل تقوم أيضًا بتقييم ما إذا كانت النماذج قد تعلمت بالفعل المهمة في متناول اليد. بعد كل شيء ، نحن لا نريدهم ببساطة نسخ الأمثلة التي تم عرضها ، نريدهم أن يعمموا على الحالات غير المرئية. لهذا السبب ، نحتفظ دائمًا بعدد من الأمثلة ، تُستخدم لاختبار النماذج لاحقًا.

الشيء المهم الذي يجب تذكره هو أن هذه الأمثلة نقدمها نحن البشر! ننشئ بعناية أمثلة الترجمات ونقرر فئات الصور ونختار تصنيف الفئات التي تدخل في نظام NER. يمكننا أن نسمي هذا الجهد ، وعملية إنشاء أمثلة باستخدام التسميات والتعليقات التوضيحية ، والشخص الذي يقوم بذلك كمعلق.

في Unbabel نستخدم مقاييس الجودة متعددة الأبعاد إطار عمل ، أو MQM ، لتقييم جودة ترجماتنا. تعتبر التعليقات التوضيحية جزءًا كبيرًا من العملية - فهي تجري تعليقًا توضيحيًا للخطأ ، وهي عملية تنطوي ، لكل خطأ ترجمة تمت مواجهته ، على إبراز مدى الخطأ ؛ تصنيفها من قائمة القضايا ، وتعيينها في النهاية شدة (طفيفة وكبيرة وحرجة). هذا جهد ثنائي اللغة - يجب أن يكون المُعلّق كفؤًا في اللغتين.

يأتي عملهم بأحجام مختلفة: بعضها عبارة عن تعليق توضيحي للأخطاء الدقيقة ، مثل عندما يتم تقييمهم إذا كانت الكلمات مترجمة بشكل غير صحيح ، أو بشكل حرفي للغاية. ولكن في بعض الأحيان ، يوجد تعليق توضيحي للخطأ على مستوى أعلى ، على سبيل المثال ، عندما يحكمون على ما إذا كانت هذه الجملة هي ترجمة أفضل من هذه الجملة الأخرى (الترتيب) أو هذه الجملة هي 9/10 ولكن هذه الأخرى هي 3/10 ( التقييم المباشر). في بعض الحالات ، خاصة عندما يتعلق الأمر بالمواقف التي أجروا فيها تقييمًا مباشرًا ، قد يكون من الصعب فهم ما دفع حكم المُعلق. إنه أحد الأسباب التي تجعلنا مغرمين بشكل خاص بنهج إدارة الجودة الشاملة: نحصل على الكثير من التبصر في الطبيعة المدركة للأخطاء.

لأن هذا هو الشيء: لا يوافق المعلقون دائمًا. عندما نكون على متن التعليقات التوضيحية الجديدة ، ليس من غير المألوف أن نرى خلافات ، في بعض الحالات ، يدعي أحد المعلقين أنه خطأ طفيف ، ويدعي المرء أنه خطأ رئيسي ، ويدعي الآخر أنه أمر بالغ الأهمية! وهؤلاء المعلقون مؤهلون بالفعل ، إنها ليست مهمة سهلة.

يحدث الخلاف لعدة أسباب. بادئ ذي بدء ، مهمة التعليقات التوضيحية هي ذاتية بطبيعتها. يمكن أن يكون للتعليقات التفضيلية ببساطة تفضيلات مختلفة: يفضل البعض الترجمات التي تظهر طلاقة نحوية أكبر ، بينما يضع البعض الآخر قيمة أكبر في الحفاظ على المعنى في الترجمة.

ولكن هناك أسباب أخرى. على الرغم من أفضل الجهود والضبط المستمر ، فإن التعليمات ليست دائمًا واضحة تمامًا - لا يمكننا التنبؤ بجميع الحالات التي يجب فيها استخدام علامة معينة ، ومرة ​​أخرى ، اللغة غامضة وتطرح تحديات عندما تحاول تصنيفها.

بالإضافة إلى ذلك ، يرتكب البشر أخطاء. كثير. كما أنها مليئة بالتحيّز، سواء على المستوى الفردي (على سبيل المثال ، يفضلون باستمرار قراءة / تفسير واحد على الآخر) وعلى مستوى المجموعة ، بالمعنى الاجتماعي والثقافي للمصطلح.

أخيرًا ، حتى جودة المعلق المختص قد تختلف - ما عليك سوى تجربة اختبار اللغة بلغتك الأم عندما تكون متعبًا أو مشتتًا.

ولكن في حين أن الخلاف أمر طبيعي إلى حد ما ، فإنه يمكن أن يصبح بالتأكيد مشكلة. إذا لم يتفقوا على شدة الخطأ ، فكيف نعرف ما هو؟

اتفاق قياس (ديس)

كبداية ، يمكننا استخدام ميزات عملية التعليقات التوضيحية لقياس الجودة. لكن ذلك يمكن أن يكون مشكلة. خذ على سبيل المثال الوقت الذي يستغرقه المعلق لإكمال المهمة - وهي كمية بسيطة للغاية للحصول عليها. نحن نفترض أن المعلق السريع ربما يكون متسرعًا ، وبالتالي عرضة للأخطاء ، في حين أن المعلق الذي يستغرق وقتًا أطول قليلاً يكون شاملاً. ولكن قد يكون الأمر كذلك أن المعلق السريع يتمتع بالخبرة والكفاءة ، بينما المعلق البطيء يسحب فقط.

من الصعب جدًا التمييز بين التعليقات التوضيحية من خلال الميزات البسيطة وحدها. ولكن عندما تكون البيانات الوصفية أكثر تعبيرًا عن المهمة ، مثل سلوك ضغطات المحرر ، يمكن أن تصبح تنبؤية جدًا بالجودة ، كما هو موضح في مترجم، نموذج تم تطويره في Unbabel.

بدلاً من النظر إلى البيانات السلوكية ، يمكننا أن ننظر إلى التوقعات نفسها. إذا جمعنا عدة أحكام بشأن نفس العنصر ، يمكننا أن نفعل شيئًا أكثر من الوصف - يمكننا المقارنة! وهنا يأتي دور الاتفاق بين التعليقات التوضيحية. يتم قياس الاتفاقية بين التعليقات التوضيحية عادةً بالإحصاءات التي تلخص - في رقم واحد - درجة الاتفاق بين مختلف التعليقات التوضيحية. خذ اتفاقًا خاملاً ، وهو عدد المرات التي يوافق فيها المعلقون على حكمهم. هذا يمثل مشكلة: إذا اختار الناس تسميات عشوائية في كثير من الأحيان بما فيه الكفاية ، فإنهم ملزمون بالموافقة في وقت ما. ولا نريد أن نحسب ذلك. ولهذا السبب بالتحديد كابا كوهين يتمتع بشعبية أكبر بكثير: فهو يصحح ضد اتفاقيات الفرص تلك.

يمكن توسيع هذه الفكرة لقياس اتساق المعلق ، أو بعبارة أخرى ، الاتفاق داخل المعلق. إذا كانت هناك عدة أحكام صادرة عن نفس الشخص على نفس العنصر - ويفضل أن يكون ذلك مع مرور الوقت - يمكن استخدام نفس المقاييس المذكورة أعلاه لقياس التعليق التوضيحي ضده.

نص تقييم الحزن اتفاقية
يحصل تاج محل الهندي على عملية تجميل 8 0.7
بعد رحلة العراق ، تقترح كلينتون حدود الحرب 12.5 - 0.1

توضيح لاتفاقية المعلق (-1 إلى 1) على مثال واضح (أولاً) ومثال مشكوك فيه (ثانيًا) لتصنيف المشاعر (0 إلى 100) ، مأخوذ من Jamison و Gurevych (2015). المثال الثاني هو حيث ينهار تماسك المهمة والعلامات لأنه: "هي منطقة حرب حزين أو مجرد سيئةبينما "من ناحية أخرى: أ قصر في الحرب لا خير شيء؟ ينعكس هذا الاعتراض في درجة الاتفاق التي تشير إلى أنه لم يكن هناك أي ارتباط تقريبًا في أحكام المعلقين (0 الوسائل لا علاقه مترابطه).

في النهاية ، يمكن أن تساعدك هذه المقاييس في السيطرة على جودة بياناتك. توفر لك مقياسًا يمكن أن يوجه عملية صنع القرار: هل تحتاج إلى تخفيض بعض التعليقات التوضيحية؟ هل تحتاج إلى تجاهل بعض الأمثلة؟ ولكن لا تنخدع: جميع المقاييس لها عيوب ، و كابا كوهين ليست استثناء.

نتفق على أن نختلف؟

هل يجب علينا دائما معاقبة اختلاف الحكم؟ بعض مهام وسم البيانات غامضة بطبيعتها ، وفي هذه الحالات ، يمكن أن يخبرنا الخلاف عن شيء ما. تأمل هذا المثال:

مثال غير مسمى للتعليقات التوضيحية MQM على الإنجليزية-الألمانية من اثنين من التعليقات التوضيحية المختلفة. الأصفر هو قاصر خطأ أحمر حرج واحد. يأتي المثال من مجموعة اختبار مستخدمة داخليًا تستخدم لتدريب المعلقين وتقييمهم. (تم إنشاء التصور باستخدام التكيف التشرد.)

الجملة المصدر هي "هل يمكن أن تعطيني أيضًا عنوان البريد الإلكتروني الجديد الذي ترغب في إرفاقه بحسابك." من الواضح أن التعليقات التوضيحية لها طرق مختلفة ، مع نقطة واحدة واضحة للاتفاق (كلمة neuen) وخلاف كبير واحد: الجزء الأخير من الجملة. يبلغ MQM الناتج عن التعليق التوضيحي الثاني 70 بينما يكون الناتج الناتج عن التعليق التوضيحي الأول 40 ، مما يوضح التأثير الكبير الذي يمكن أن يحدثه خطأ فادح على النتيجة النهائية.

في هذا المثال ، نفضل التعليق التوضيحي الثاني. يدعي المعلق الأول أن الجزء الأخير من الجملة غير مفهوم ، مما يعني ، وفقًا لإرشادات إدارة الجودة الشاملة ، أن لا يمكن تحديد الطبيعة الدقيقة للخطأ ، ولكنه يتسبب في انهيار كبير في الطلاقة. هذا خطأ يمكنك تطبيقه على سلسلة مشوهة من الأحرف والأرقام مثل "الفرامل من هذا هذا الجزء رقم S149235 numbr ،،."، وهو ليس بالضرورة ما يحدث في الجملة أعلاه.

ولكن يمكننا القول أن هناك سؤال مثير للاهتمام هنا. إذا كان القسم الأخير من الترجمة يحتوي على العديد من الأخطاء لدرجة أنه يكاد يكون من المستحيل فهمها ، ألا يشكل هذا "انهيارًا كبيرًا في الطلاقة"؟

هذا المثال مأخوذ من تجربة قمنا فيها بمقارنة المعلقين ومحاذاةهم. لأن كلا المعلقين كفؤان ، ومصدر الخلاف
يمكن فهمها ، الخطوة التي تلي الملاحظة أعلاه هي خطوة المعايرة: للتأكد من أن جميع التعليقات التوضيحية موجودة في نفس الصفحة - معنا ومع بعضها البعض.

احتضان الفوضى

عند التعامل مع هذا النوع من الخلاف ، هناك دائمًا بعض الأشياء التي يمكننا القيام بها للتخفيف منها. في بعض الأحيان ، يمكنك تقليل الخلاف من خلال تقديم المزيد من التوجيه. يتعلق الأمر باستثمار المزيد من ساعات العمل البشرية ، وفهم أي العلامات وأي المهام التي تسبب الخلاف ، ويمكن أن يشمل الحل إعادة التفكير في التصنيفات والأدوات والحوافز والواجهات. هذا هو نهج مجرب وموثوق هنا في Unbabel.

أو تطلب من خبراء آخرين إصلاح بياناتك. عندما تم ذلك مؤخرًا من أجل الكلاسيكية ، ولا تزال تستخدم مجموعة بيانات NER, وجد الباحثون أخطاء تسمية في أكثر من 5 في المائة من جملة الاختبار. قد لا يبدو هذا مهمًا للغاية ، ولكن هذا رقم كبير جدًا لمجموعة البيانات حيث تحقق أحدث الأساليب أداء أكثر من 93 في المئة!

مثال على التصحيحات التي قام بها Wang et al. (2019) إلى مجموعة بيانات CoNLL03 NER. (مقتبس من Wang et al. باستخدام التشرد)

من الطرق المثيرة للاهتمام دمج الأحكام - إذا كان بإمكانك الحصول على العديد من التعليقات التوضيحية على نفس عنصر البيانات ، فلماذا لا تحاول دمجها في واحد؟

نميل إلى الاعتماد على الخبراء ، لأننا نعتقد أنهم أكثر دقة وشمولًا وموثوقًا في نهاية المطاف. نظرًا لأن التعليقات التوضيحية التي نستخدمها تتعامل مع تصنيف متخصص للأخطاء وتتطلب مستوى كبيرًا من فهم اللغة حتى يتم استخدامها بشكل صحيح ، فإننا نعتمد على التعليقات التوضيحية المؤهلة تأهيلًا عاليًا.

ولكن هنا الشيء الرائع: بالنسبة لبعض المهام التي لا تستخدم تصنيفًا متخصصًا للغاية أو تفترض نوعًا متخصصًا من المعرفة ، فإن الحكم المجمع من العديد من غير الخبراء موثوق به بنفس القدر كحكم واحد من خبير. بمعنى آخر: يكفي عدد غير الخبراء في المتوسط ​​ليكون خبيرًا واحدًا. ويمكن أن يكون عدد غير الخبراء المطلوب لذلك منخفضًا بشكل مدهش. هذا النوع من المعرفة الجماعية هو الذي بنى ويكيبيديا ، على سبيل المثال.

تولي مهمة التعرف على التورط النصي (RTE). التورط النصي هو علاقة منطقية بين جزأين نصيين - تبقى العلاقة عندما تأتي حقيقة جملة واحدة من أخرى. فمثلا: "تراجع أسعار النفط الخام"يستلزم أن"انخفاض أسعار النفط"؛ لا يعني ذلك "سترفع الحكومة أسعار النفط"(مقتبس من سنو وآخرون ، 2018).

تجميع أحكام العديد من غير الخبراء في حكم خبير واحد (خط متقطع أخضر). مقتبس من Snow et al. (2008)

هنا ، نرى كيف يمكن لتجميع حكم هؤلاء غير الخبراء أن يحسن دقة التعليقات التوضيحية (الخط الأسود). ويمكننا تعزيزه أكثر من خلال وزن كل حكم غير خبير بنتيجة يتم تحديدها تلقائيًا والتي يمكن حسابها من اتفاقهم مع خبير ، وتصحيح انحيازهم بشكل فعال ، كما يظهر الخط الأزرق.

بدلًا من الموازنة بين التعليقات التوضيحية ، يمكنك أيضًا محاولة الوزن الأمثلة الخاصة بك بصعوبة. على سبيل المثال عن طريق التعيين أقل أهمية للأمثلة السهلة - أو حتى أكثر صرامة: بواسطة وإزالتها بالكامل. جمال النهجين أعلاه هو أنه يمكن استخدام النماذج نفسها لتحديد هؤلاء المرشحين.

بشكل عام ، من الصعب إزالة كل الغموض. خذ الترجمة: للجملة الواحدة ، هناك العديد من الترجمات الصالحة (ربما كميات كبيرة جدًا) ، ربما كل منها يعطي أولوية لجانب مختلف من جودة الترجمة - فكر فقط في الترجمات المتعددة لرواية بين المترجمين ، أو حتى على مدى العقود. ويؤخذ هذا في الحسبان صراحة في تقييم أنظمة الترجمة ، حيث يعتبر أفضل ممارسة فكر دائمًا في عدة ترجمات مرجعية صالحة عند استخدام مقياس تلقائي. من ناحية أخرى ، في تدريب نماذج الترجمة الآلية ، يبقى السؤال المفتوح حول كيفية تعزيز التنوع ، أو بعبارات أوسع: كيفية التعامل مع عدم اليقين الأساسي في مهمة الترجمة.

اتضح أن الكثير من الاتفاق ليس جيدًا لنماذجك أيضًا. عندما يحدث ذلك ، يمكن أن تبدأ التعليقات التوضيحية ترك وراءهم أنماط سهلة، ما يسمى "القطع الأثرية المفسرة" ، والتي يمكن التقاطها بسهولة بواسطة النماذج. تحدث المشكلة بسبب الميزات الموجودة في مثال الإدخال والتي ترتبط بقوة بملصق الإخراج ولكن لا تلتقط أي شيء أساسي حول المهمة. فمثلا، إذا كانت جميع صور الذئاب في التدريب تظهر الثلوج وجميع صور أقوياء البنية لا تفعل ذلك، فهذا من السهل جدًا التقاطه - ومن السهل أيضًا خداعه. تفشل النماذج ، على افتراض أن نقص الثلج هو ما يميز أجش.

اتضح أن اللغة لها نسختها الخاصة من الثلج ، كما تم اكتشافها ل مجموعة بيانات في استدلال اللغة الطبيعيةوهي نسخة معممة من هيئة الطرق والمواصلات. مجموعة البيانات جزء من معيار شائع جدًا للتدريب وتقييم أنظمة فهم اللغة التي توفر "مقياسًا أحادي الرقم يلخص التقدم المحرز في مجموعة متنوعة من هذه المهام" ، وكان محركًا مهمًا للاتجاه نماذج أكبر وأقوى وأسرع.

مقدمة امرأة تبيع عصي من الخيزران تتحدث إلى رجلين على رصيف التحميل.
استحضار هناك على الأقل ثلاثة الناس على رصيف التحميل.
متعدد امرأة تبيع عصي من الخيزران للمساعدة في إعالة أسرتها.
تناقض المرأة هي ليس أخذ المال لأي من عصيها.

الجمل سبيل المثال الاستدلال على اللغة الطبيعية (NLI) التي تم إنشاؤها من فرضية باتباع الاستدلال البسيط. (مأخوذ من Gururangan et al. (2018).) يتم إعطاء التعليق التوضيحي للفرضية ويقوم ببناء جملة لكل من العلاقات المنطقية الثلاث (التضمين والحياد والتناقض). تسمى الجملة التي تم إنشاؤها الفرضية. إن مهمة التعلم الآلي هي التنبؤ بالعلاقة بالنظر إلى الفرضية والفرضية.

تم إنشاء الأمثلة في مجموعة البيانات هذه بواسطة البشر ، الذين اتضح أنهم غالبًا ما يعتمدون على الاستدلال البسيط في هذه العملية. والنتيجة هي مجموعة بيانات حيث تحتوي الفرضيات التي تتعارض مع الفرضية بشكل غير متناسب لا ، لا أحد ، لا ، أبداً و لا شى، بينما الفرضيات المترتبة عليها مليئة بالفرط مثل حيوان صك و في الهواء الطلق للتعميم كلب ، جيتار و الشاطئأو أرقام تقريبية مثل ثلاثة على الأقل بدلا من اثنان. لا عجب في العديد من الأمثلة يمكن التنبؤ بها بدقة من الفرضية وحدها: كل ​​ما يحتاجه النموذج هو التقاط وجود مثل هذه الكلمات! ولأن المعلقين المختلفين يلجأون إلى أساليب مختلفة ، يساعد النموذج على معرفة أي من التعليقات التوضيحية الذي أنشأ المثال ، بينما يكافح للتنبؤ بأمثلة من التعليقات التوضيحية الجديدة بشكل صحيح.

من الناحية العملية ، فإن تعلم هذا النوع من العلاقات سيمنع التعميم على الأمثلة التي لا تظهر هذا الارتباط. وهذا التعميم هو بالضبط ما نسعى إليه. بعد كل شيء ، لا تريد ذلك يكون على حق لأسباب خاطئة: سيكون من السهل جدًا خداعك باستخدام أمثلة مبنية على الخصومة. وأفضل حل لهذه المشكلة في مجموعة البيانات يمكن أن يكون قاسياً ، كما في الحالة أعلاه حيث تقرر ذلك لا يتم تضمينه في التكرار الثاني للمعيار - مثال جدير بالاهتمام على تعزيز الأفكار في مجتمعنا.

في مرحلة ما ، سيكون عليك احتضان الفوضى. إن التنوع في البيانات أمر جيد ، ويجب أن نعتز به. من وجهة النظر هذه اختلاف المعلقين هو إشارة وليس ضجيج. يمكننا حتى أن نجعل الغموض سمة واضحة لنماذجنا - وهو النهج الذي كان طبقت بنجاح في تقدير جودة أنظمة الترجمة الآلية.

عقوبة درجة الجملة معنى نتيجة التصنيف
تدجين النباتات له ، على مر القرون تحسن مقاومة الأمراض. 0.63 تحسن أو تراجع 0.83
سبب لإحراز تقدم 0.68
الرقص يشمل الانحناء و استقامة من الركبة مما يمنحها لمسة من الحركة الكوبية. 0.24 إعادة تشكيل 0.50
ترتيب 0.30
حركة الجسد 0.30
تسبب الحركة 0.25

غموض صريح في مجموعة بيانات حول دلالات الإطار (من Dumitrache et al. ، 2019). يتناسب المثال الأول بدقة مع التصنيف ، كما يتضح من الثقة العالية في كل من التسميات وفي الجملة بشكل عام. يوضح المثال الثاني تداخلًا أكبر بكثير في التسميات حيث يمكن رؤيته على أنه مزيج من كل منها ، إلى حد ما.

مع اتخاذ هذه الخطوة إلى أبعد من ذلك ، يمكنك أن تقرر إنشاء مجموعة بيانات تحتوي على غموض عن قصد. بدلاً من توفير تسمية واحدة لنقاط البيانات ، يُسمح للمعلقين بتقديم تصنيفات متعددة ، وبدلاً من المعلق الفردي لكل عنصر يطلبون أحكامًا من العديد من المعلقين. يتيح لك هذا العدد الكبير من الأحكام إنشاء مجموعة بيانات تحتوي على إجابات صحيحة متعددة ، يتم تقييم كل منها بمقياس دي
علامات sagreement التي تشير إلى الثقة في هذا التصنيف.

خذ المثال أعلاه ، موضحًا نتائج هذا الجهد. تتمثل المهمة في التعرف على العديد من حواس الكلمات المعقولة ("الإطارات") ، وستحصل على شعور بعدم اليقين المحيط بكل عنصر. يتم التعبير عن عدم اليقين هذا من خلال الأوزان المخصصة للفصول ، والجمل (Dumitrache et al. ، 2019). درجة الملصق هي الدرجة التي اتفق عليها المعلقون على ذلك الملصق الفردي مرجحًا بجودة المعلق ، ونقاط الجملة هي الدرجة التي اتفق عليها جميع المعلقين على جميع الملصقات في الجملة.

في بحثهم ، وجدت أنكا دوميتراش وزملاؤها "العديد من الأمثلة حيث تتداخل دلالات الإطارات الفردية بشكل كافٍ لجعلها بدائل مقبولة لتفسير الجملة". وتجادل في أن تجاهل هذا الغموض يخلق هدفًا عشوائيًا بشكل مفرط لتدريب وتقييم أنظمة معالجة اللغات الطبيعية: "إذا كان البشر لا يمكنهم الموافقة ، فلماذا نتوقع أن تكون الإجابة من الجهاز مختلفة؟"

وبالفعل ، فإن بحثنا يتطور باستمرار في هذا الاتجاه. يساعدنا هذا التنوع في التعليقات التوضيحية في الواقع على إنشاء تصنيفات أفضل وأدوات أفضل ونماذج تعلم آلي أفضل في نهاية المطاف. وفي حين أن شخصًا منظمًا جدًا لا يعترف بهذا عادةً ، فأنت تحتاج فقط في بعض الأحيان إلى التوقف عن القلق وتعلم تبني الفوضى.

مصادر

  • لورا أرويو ، كريس ويلتي ، 2015 ، "الحقيقة كذبة: الحقيقة المزدحمة والأساطير السبع للتعليقات البشرية" ، جمعية النهوض بالذكاء الاصطناعي ، https://www.aaai.org/ojs/index.php/aimagazine/article/view/2564
  • تريفور كوهن ، لوسيا سبيسيا ، 2013 ، "نمذجة نمذجة التحيز مع العمليات الغوسية متعددة المهام: تطبيق لتقدير جودة الترجمة الآلية" ، وقائع الاجتماع السنوي الحادي والخمسين لجمعية اللغويات الحاسوبية (المجلد 51: الأوراق الطويلة) ، https://www.aclweb.org/anthology/P13-1004
  • Anca Dumitrache، Lora Aroyo، Chris Welty، 2019، "A Crowdsourced Frame Disambiguation Corpus with Ambiguity"، https://arxiv.org/pdf/1904.06101.pdf
  • مور جيفا ، يوآف غولدبيرغ ، جوناثان برانت ، 2019 ، "هل نمثل المهمة أم نعلق؟ تحقيق في انحياز المُعلِق في مجموعات بيانات فهم اللغة الطبيعية ، وقائع مؤتمر 2019 حول الأساليب التجريبية في معالجة اللغات الطبيعية والمؤتمر الدولي المشترك التاسع حول معالجة اللغات الطبيعية ، https://www.aclweb.org/anthology/D19-1107.pdf
  • Suchin Gururangan، Swabha Swayamdipta، Omer Levy، Roy Schwartz، Samuel R. Bowman، Noah A. Smith، 2018، "Annotation Artifacts in Natural Language Inence Data"، Proceedings of NAACL-HLT 2018، https://www.aclweb.org/anthology/N18-2017.pdf
  • Emily K. Jamison and Iryna Gurevych، 2015، "Noise or information information؟ الاستفادة من اتفاقية البند التوضيحي الجماعي للحصول على مهام اللغة الطبيعية. ”، وقائع مؤتمر 2015 حول الأساليب التجريبية في معالجة اللغات الطبيعية ، https://www.aclweb.org/anthology/D15-1035.pdf
  • Ronan Le Bras و Swabha Swayamdipta و Chandra Bhagavatula و Rowan Zellers و Matthew E. Peters و Ashish Sabharwal و Yejin Choi، 2020، "Adversarial Filters of Dataset Biases"، https://arxiv.org/pdf/2002.04108.pdf
  • ربيع كريمي مهابادي ، جيمس هندرسون ، 2019 ، "تقنيات بسيطة لكنها فعالة للحد من تحيزات مجموعة البيانات" ، https://arxiv.org/pdf/1909.06321.pdf
  • R. Thomas McCoy و Ellie Pavlick و Tal Linzen ، 2019 ، "صحيح للأسباب الخاطئة: تشخيص الاستدلال النحوي في استدلال اللغة الطبيعية" ، وقائع جمعية اللغويات الحاسوبية (ACL) ،
    https://arxiv.org/pdf/1902.01007.pdf
  • Rion Snow، Brendan O'Connor، Daniel Jurafsky، Andrew Ng، 2008، "Cheap and Fast - ولكن هل هو جيد؟ تقييم التعليقات التوضيحية غير الخبيرة لمهام اللغة الطبيعية ، وقائع مؤتمر عام 2008 حول الأساليب التجريبية في معالجة اللغات الطبيعية ، https://www.aclweb.org/anthology/D08-1027.pdf
  • Zihan Wang ، Jingbo Shang ، Liyuan Liu ، Lihao Lu ، Jiacheng Liu ، Jiawei Han ، 2019 ، "CrossWeigh: Training Named Entger Tagger from Imperfect Annotations" ، وقائع مؤتمر 2019 حول الأساليب التجريبية في معالجة اللغات الطبيعية والمؤتمر الدولي المشترك التاسع في معالجة اللغات الطبيعية ، https://www.aclweb.org/anthology/D19-1519.pdf

المصدر: https://unbabel.com/blog/translation-ambiguity/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة