شعار زيفيرنت

اختبار التعرف على الكلام المستمر

التاريخ:


جدول المحتويات:

الذكاء الاصطناعي والصوت للمحادثة
اختبار التعرف على الكلام المستمر

تكوين خدمات الكلام في Botium Box

التعرف على الكلام (تحويل الكلام إلى نص)
تركيب الكلام (تحويل النص إلى كلام)
محركات الكلام المخصصة
تحضير روبوتات المحادثة لتركيب الكلام والتعرف عليه
تحضير مجموعة الاختبار

جمع بيانات الاختبار

ملفات الصوت المرجعية المصنفة
تركيب الكلام
سجل الكلام
قم بتشغيل جلسة اختبار التعرف على الكلام

أنسنة: إضافة الضوضاء

تأثيرات الصوت
تطبيق تأثيرات الضوضاء

المكافأة: تحقق من معدل أخطاء الكلمات

المكافأة: اختبارات انحدار التعرف على الكلام

الذكاء الاصطناعي والصوت للمحادثة

من أنظمة IVR التقليدية ، التي لا تزال شائعة جدًا في خدمة العملاء ، إلى المساعدين الصوتيين على Alexa أو Google Assistant - تعد تقنية الصوت في الوقت الحاضر جزءًا من الحياة اليومية ، وستستمر في اكتساب الأهمية في المستقبل. تتضمن حزمة المكونات الخاصة بالمساعد الصوتي النموذجي التعرف على الكلام وتركيب الكلام ، بصرف النظر عن مكونات المحادثة المعتادة مثل NLU (فهم اللغة الطبيعية) وإدارة الحوار و NLG (توليد اللغة الطبيعية).

يُمكّن Botium Box الشركات من تنفيذ استراتيجية اختبار شاملة للمساعدين الصوتيين على جميع مستويات مجموعة المكونات. تركز هذه المقالة على جزء التعرف على الكلام وتوضح كيفية إنشاء مجموعة اختبار انحدار استنادًا إلى الملفات الصوتية وملفات النسخ والتحقق من معدل أخطاء الكلمات.

اختبار التعرف على الكلام المستمر

يوفر كل من مزودي الخدمات السحابية الكبيرة Google و Amazon و Microsoft و IBM خدمات الكلام عالية الجودة مع أفضل معدلات التعرف في السوق. ولكن حتى مع مزودي الخدمات السحابية هؤلاء ، يتيح البعض إمكانية إضافة التحسينات الخاصة بك عن طريق تحميل بيانات تدريب إضافية - وغالبًا ما يستخدم هذا لتحسين معدلات التعرف على المفردات الخاصة بالمجال. بصرف النظر عن مزودي الخدمات السحابية الكبيرة ، هناك أيضًا عدد من حزم البرامج المجانية المتاحة مثل Kaldi (للتعرف على الكلام) أو MaryTTS (لتركيب الكلام) ، والتي تقوم الشركات بتثبيتها وتدريبها وتشغيلها على بنيتها التحتية الخاصة.

يتمتع الاختبار المستمر للتعرف على الكلام بمعظم الفوائد للمساعدين الصوتيين الذين يستخدمون خدمة الكلام السحابية المحسّنة أو نماذج اللغة المدربة ذاتيًا بالكامل. كجزء من إستراتيجية اختبار المساعد الصوتي ، يجب التحقق من جودة التعرف على الكلام بشكل مستمر ، مثل جميع مكونات المكدس الأخرى. ستوضح هذه المقالة كيفية إعداد مجموعة اختبار التعرف المستمر على الكلام.

تكوين خدمات الكلام في Botium Box

في Botium Box ، قم بالتبديل إلى خدمات صوتية في القسم الإعدادات القائمة (من أيقونة المستخدم في أعلى اليمين).

التعرف على الكلام (الكلام إلى نص)

في مجلة التعرف على الكلام القائمة ، نقوم بتسجيل خدمة الكلام (بما في ذلك بيانات الاعتماد) واللغة والاستخدام. اعتمادًا على خدمة الكلام ، هناك معلمات إضافية مطلوبة - على سبيل المثال ، بالنسبة للخدمات السحابية مثل Google ، فإن بيانات الاعتماد مطلوبة.

يسمح Botium Box بالتحكم الدقيق للغاية في كيفية استخدام خدمة الكلام مع تكوين المحرك المخصص حقل. على سبيل المثال ، لتحديد نموذج الكلام المخصص الخاص بك في Azure:

{
 "تكوين الكلام": {
 "endpointId": "xxx-yyyy-zzzzzzzzzz"
 }
}

من الممكن اختبار تكوين خدمة الكلام على الفور باستخدام الميكروفون الخاص بك.

توليف الكلام (تحويل النص إلى كلام)

في مجلة اصطناع الكلام القائمة ، نقوم بتسجيل خدمة الكلام (بما في ذلك بيانات الاعتماد) واللغة والصوت لاستخدامهما لتجميع الصوت من النص. اعتمادًا على خدمة الكلام ، هناك معلمات إضافية مطلوبة - على سبيل المثال ، بالنسبة للخدمات السحابية مثل Google ، فإن بيانات الاعتماد مطلوبة.

مرة أخرى ، يمكنك اختبار التكوين من خلال الاستماع إلى المثال الأول.

محركات الكلام المخصصة

يستخدم Botium Box المصدر المفتوح معالجة الكلام البوتيوم مكدس البرامج (انظر مشروع جيثب). باستخدام شفرة مصدر Github كأساس ، يمكن إضافة التعرف على الكلام المخصص أو توليف الكلام بالإضافة إلى المؤثرات الصوتية إلى اختبارات Botium الخاصة بك. كن مستعدًا للقيام ببعض ترميز Node.js!

قم بإعداد Chatbot لتركيب الكلام والتعرف عليه

بعد ذلك سننشئ روبوت محادثة في Botium Box باستخدام موصل النطق والتعرف عليه. في قسم Chatbots ، قم بتسجيل روبوت محادثة جديد ، وحدد التكنولوجيا من القائمة وملفات تعريف التعرف على الكلام وتوليف الكلام التي تم تكوينها مسبقًا.

تخليق الكلام والتعرف عليه الموصل عبارة عن موصل Botium رفيع جدًا يمكنه إجراء محادثات بسيطة من خطوتين:

  • استخدام ملف صوتي مسجل مسبقًا أو توليف ملف صوتي لنص معين بصوت معين
  • إرسال هذا الملف الصوتي إلى محرك التعرف على الكلام وإظهار نتائج النص و WER

يمكن اختبار التكوين على الفور باستخدام Say Hello أو حتى مع Live Chat. يمكنك إما إدخال بعض النص في الدردشة الحية التي سيتم تركيب الصوت لها ، أو يمكنك تسجيل صوتك أيضًا.

تحضير مجموعة الاختبار

كخطوة تالية علينا إعداد ملف مجموعة الاختبار. مجموعة الاختبار في Botium Box هي حاوية بيانات الاختبار نفسها بالإضافة إلى تكوين كيفية تفسير بيانات الاختبار لحقنها في خط أنابيب اختبار Botium.

عادة ، يتم تعريف حالات الاختبار في Botium Box بلغة البرمجة النصية بوتيوم سكريبتواختبارات تدفق المحادثة وكذلك اختبارات البرمجة اللغوية العصبية وأنواع الاختبارات الأخرى التي يدعمها Botium. في حالة اختبار التعرف على الكلام ، ليس مطلوبًا استخدام BotiumScript: لاختبار التعرف على الكلام ، تكون الملفات الصوتية المصنفة كافية لبناء حالات الاختبار.

  • يجب تحميل ملفات الصوت كملفات wav أو mp3 إلى Botium Box
  • يبحث Botium عن النسخ المتوقع ...
  • في ملف يحمل نفس الاسم ولكن بامتداد .txt بدلاً من ذلك
  • في ملف CSV transcript.csv
  • من اسم الملف نفسه

في مجلة مجموعات الاختبار القائمة ، قم بإنشاء مجموعة اختبار جديدة وانتقل إلى ملف إعدادات موارد الوسائط. في استخدام ملف الصوت حدد الخيار استخدم جميع الملفات الصوتية كمدخلات لحالة الاختبار ، واقرأ النسخ من الملف.

المجلد الافتراضي لملفات المرفقات هو المجلد الموجود في Botium Box حيث سنضع ملفاتنا الصوتية الاختبارية في الخطوات التالية. يمكنك نا
انتقل إلى هناك من خلال النقر على افتح في متصفح الملفات لإظهار مجلد لا يزال فارغًا في متصفح ملفات Botium Box.

جمع بيانات الاختبار

كما هو الحال دائمًا ، تكون استراتيجية الاختبار جيدة فقط مثل جودة بيانات الاختبار. اعتمادًا على أهدافك ، توجد بعض الطرق لجمع بيانات الاختبار.

ملفات الصوت المرجعية المصنفة

إذا كنت تعمل على مساعد الصوت الخاص بك ، فمن المرجح أنك تمتلك بالفعل بيانات مرجعية في شكل ملفات صوتية معنونة (ملف صوتي + النسخ المتوقع). يتوقع Botium النسخ المتوقع في ملف نصي منفصل باسم ملف الصوت ، أو في ملف CSV منفصل.

على سبيل المثال ، ضع في اعتبارك أن هناك بضعة ملفات صوتية ذات تصنيف:

  • F01-مرحبا-كيف-حالك.wav، تسجيل صوتي متوقع "مرحبًا كيف حالك"
  • F02-مرحبا-واتس اب. wav، تحويل صوتي متوقع "مرحبًا ما الأمر"

في Botium Box ، افتح ملف المجلد الافتراضي لملفات المرفقات من مجموعة الاختبار التي أنشأتها أعلاه في متصفح الملفات.

  1. تحميل الملفين الصوتيين
  2. قم بأي مما يلي
  3. ضع ملفين نصيين إضافيين في هذا المجلد
  4. F01-مرحبا-كيف-حالك.txt مع محتوى نصي "مرحبًا كيف حالك"
  5. F02-مرحبا-ما-up.txt مع محتوى نصي "مرحبًا ما الأمر"
  6. أو ضع ملف transcript.csv في هذا المجلد
  7. يمكنك تحضير هذا الملف باستخدام محرر نصوص أو باستخدام جدول بيانات مثل Excel
F01-hello-how-are-you.wav ؛ مرحباً كيف حالك
F02-hi-whats-up.wav ؛ مرحبًا ما الأمر

يعرف Botium الآن ما يمكن توقعه عند إرسال ملف صوتي إلى محرك التعرف على الكلام.

تركيب الكلام

هناك طريقة أخرى لبدء اختبار التعرف على الكلام وهي تجميع ملفات الصوت من النص. يحتوي Botium Box على معالج الصوت لدعمك في القيام بذلك. الصق النص الذي تريد إنشاء ملفات الصوت له ، وحدد الأصوات التي تريد استخدامها ومجلد الإخراج. سيضع معالج الصوت ملفات الصوت بالإضافة إلى ملفات النسخ هناك.

عند فتح المجلد الآن في متصفح الملفات ، يمكنك رؤية مجموعة من الملفات الصوتية - واحد لكل سطر من النص والصوت - بالإضافة إلى ملف نسخ واحد لكل ملف صوتي ، ينتهي بـ .رسالة قصيرة.

هذه هي أسرع طريقة لإنشاء بيانات اختبار الصوت بشكل جماعي.

سجل الكلام

بالنسبة للمشروعات الأصغر حجمًا ، قد يكون من الممكن أيضًا تسجيل صوتك واستخدامه لاختبار التعرف على الكلام. يحتوي معالج الصوت أيضًا على خيار تسجيل ملف صوتي ووضعه في مجلد مجموعة الاختبار.

سيتعين عليك إضافة ملفات النسخ يدويًا إذا اخترت هذا الخيار.

قم بتشغيل جلسة اختبار التعرف على الكلام

الآن بعد أن أصبح لدينا كل شيء في مكانه لإجراء أول اختبار - الاتصال بمحرك التعرف على الكلام وبيانات الاختبار المصنفة - قمنا بإجراء اختبار أول. لهذا نقوم بإنشاء مشروع اختبار - في مشاريع الاختبار القائمة ، قم بتسجيل مشروع اختبار جديد ، وحدد Chatbot ومجموعة الاختبار التي أنشأناها في الخطوات السابقة وانقر فوق حفظ.

الآن انقر على ابدأ جلسة الاختبار الآن لبدء جلسة الاختبار الأولى. بعد بضع دقائق ، يمكنك بالفعل البدء في فحص النتائج.

يمكنك رؤية قائمة الملفات الصوتية حيث تطابق التعرف على الكلام مع النسخ المتوقع ، وتلك التي فشلت فيها. يمكنك الغوص في النتائج والاستماع إلى الملفات الصوتية وعرض تفاصيل النتيجة على مستوى رمز JSON (استخدم زر <>).

كما هو متوقع ، تجتاز معظم الاختبارات الآن ، لأننا نستخدم أفضل ملفات صوتية يمكننا الحصول عليها - بيانات مرجعية معنونة ، أو تسجيلات صوتية خاصة بك أو حتى صوت مركب ، وهو بكل تعريف نظيف للغاية. يمكننا الآن إضافة بعض الضوضاء إلى الملفات الصوتية لتحدي التعرف على الكلام بسيناريوهات واقعية.

أنسنة: إضافة الضوضاء

في Botium Box ، المصطلح أنسنة يستخدم لوصف تطبيق الخوارزميات لإدخال الضوضاء في بيانات الاختبار. بالنسبة للاختبار المستند إلى النص ، يعني هذا مراعاة أنماط السلوك البشري النموذجية والعيوب البشرية النموذجية مثل الأخطاء المطبعية ، وعدم الحساسية لحالة الأحرف ، والمسافات البيضاء (أو عدم وجود مسافات بيضاء) ، واستخدام الرموز التعبيرية وغيرها. للاختبار الصوتي ، ضجيج يمكن أن يكون ضوضاء بالفعل - مثل إضافة بعض الضوضاء الخلفية الخاصة بالبيئة.

تأثيرات الصوت

قم بالتبديل إلى خدمات صوتية في القسم الإعدادات القائمة (من أيقونة المستخدم في أعلى اليمين). في ال تأثيرات صوتية قائمة يمكنك تكوين خط الأنابيب الخاص بك من طبقات الضوضاء الإضافية لتطبيقها على ملف صوتي. هناك العديد من المؤثرات الصوتية الشائعة المتاحة لمحاكاة بيئات الحياة الواقعية:

  • مضيفا ضوضاء الخلفية
  • اجعلها تبدو وكأنها مكالمة هاتفية GSM ذات نطاق ترددي منخفض
  • محاكاة خط هاتف متقطع قليلاً عن طريق إضافة فواصل
  • … و اكثر

استنساخ مجموعة الاختبار من أعلى وأضف شيئًا مع "الضوضاء" إلى الاسم. مجموعة الاختبار هذه فارغة في البداية ، لكن لها نفس الإعدادات المذكورة أعلاه.

تحقق من أن استخدام ملف الصوت تم تعيين الحقل بالفعل إلى استخدم جميع الملفات الصوتية كمدخلات لحالة الاختبار ، واقرأ النسخ من الملف.

تطبيق تأثيرات الضوضاء

في مجموعة الاختبار النظيفة الخاصة بك ، افتح ملف تأثيرات صوتية في القسم معالج الصوت. حدد المجلد الذي وضعت فيه ملفاتك الصوتية من قبل وحدد ملف تعريف الضوضاء من أعلى. في ال المجلد الإخراج، حدد مجلد الوسائط من مجموعة اختبار الضوضاء الجديدة التي أنشأتها في الخطوة السابقة. عند النقر فوق تطبيق تأثير الصوت، سيقوم Botium Box بتشغيل جميع الملفات الصوتية في المجلد المحدد (بما في ذلك المجلدات الفرعية!) من خلال مسار التأثير الصوتي ووضع الملفات الصوتية الناتجة في مجلد الإخراج.

أنشئ الآن مشروعًا اختباريًا جديدًا لمجموعة الاختبار الجديدة مع الضوضاء ، وابدأ جلسة اختبار أولى.

مرة أخرى ، يمكنك فحص نتائج الاختبار بعد بضع دقائق للتحقق مما إذا كانت الضوضاء المطبقة تسبب صعوبة في التعرف على الكلام.

تهانينا ، يمكنك الآن إجراء اختبارات التعرف على الكلام باستخدام بياناتك المرجعية والبيانات الصاخبة مرارًا وتكرارًا - يكون ذلك منطقيًا عند إعادة تدريب التعرف على الكلام بالطبع.

مقالات البوت الشائعة:
1. كيف يمكن لمنظمة العفو الدولية للمحادثة أتمتة خدمة العملاء
2. الدردشات الآلية مقابل الدردشات المباشرة: كيف سيبدو مستقبل خدمة العملاء؟
3. روبوتات المحادثة كمساعدين طبيين في جائحة COVID-19
4. Chatbot Vs. مساعد افتراضي ذكي - ما هو الفرق ولماذا
 رعاية؟

المكافأة: تحقق من معدل أخطاء الكلمات

في كثير من الحالات ، قد لا تكون مهتمًا في الواقع بالنسخ الدقيق لملف الصوت ، ولكن إذا تم استيفاء معايير جودة معينة حول النسخ - هذا هو المكان الذي معدل خطأ الكلمة يأتي دور. إنه مقياس لعدد الكلمات في النسخ الفردي التي تم التعرف عليها بشكل صحيح - للحصول على نسخة مثالية تتطابق تمامًا مع الملصق ، تكون القيمة 0 ، وتتراوح القيمة بين 0 و 1. اعتمادًا على متطلباتك ، قد تفكر في معدل خطأ في الكلمات يبلغ 0.1 (نسخ واحد خاطئ من 10 كلمات) حسنًا. يمكن أن يتحقق Botium Box من معدل أخطاء الكلمات على مستوى الكلام الفردي بدلاً من النسخ الدقيق.

أولاً ، قم بتبديل قيمة استخدام ملف الصوت في إعدادات مجموعة الاختبار إلى استخدم جميع الملفات الصوتية كمدخلات لحالة الاختبار ، واحسب معدل أخطاء الكلمات من النسخ من الملف - هذا سوف يرشدك Botium لحساب معدل خطأ الكلمات ، بدلاً من التأكيد على النسخ الدقيق.

لا يوجد حاليًا مؤكد خاص لمعدل أخطاء الكلمات في Botium Box ، ولكن يمكننا تخصيص عام JSONPath Asserter لفعل هذا. في Botium Box ، في الإعدادات القائمة افتح ملف المكونات المسجلة الجزء. قم بتسجيل مكون جديد هناك ، سميه تحقق WER وحدد اختبار مصدق الحالة as نوع المكون.

As كود مرجع المكون، استخدم WER وفي مصدر المكون أدخل الحقل JsonPathAsserter. هذا سوف يوجه Botium لاستخدام عام JSONPath Asserter لهذا المكون. قم بتمكين التبديل سجل كمكون البرمجة النصية العالمية لجعل Botium يستخدم هذا المؤكد لجميع حالات الاختبار. أخيرًا ، في تكوين المكون ، نخبر Botium أن ملف JSONPath نتوقع أن تتطابق مع استجابة التعرف على الكلام.

إذا كنا نتوقع معدل خطأ مثالي للكلمات قدره 0 ، فيمكننا إدخال هذا التعبير:

{
 "المسار": "$ .response .. [؟ (@. wer == 0)]"
}

إذا كنا على ما يرام مع معدل خطأ في الكلمات يبلغ بالضبط 0.1 أو أقل ، فهذا هو التعبير الذي يجب استخدامه:

{
 "المسار": "$ .response .. [؟ (@. wer <= 0.1)]"
}

علينا الآن إخبار Botium Box لاستخدام هذا المؤازر في اختباراتنا. احفظ المكون المسجل ، وانتقل إلى مشروع الاختبار الخاص بك. افتح ال تنفيذ اختبار القسم الإعدادات، وأضف تحقق WER مكون ل المكون (المكونات) المسجل المعنية الميدان.

عند إجراء جلسة اختبار الآن ، لن يؤكد Botium على النسخ الدقيق بعد الآن ، ولكنه سيستخدم بدلاً من ذلك تحقق WER تأكيد فشل حالة الاختبار إذا كان معدل خطأ الكلمات أعلى من 0.1 - يمكنك فحص النتائج التفصيلية في جلسة الاختبار مرة أخرى:

المكافأة: اختبارات انحدار التعرف على الكلام

عند اختبار الانحدار لنموذج الكلام ، غالبًا لا يكون معدل الخطأ في الكلمات هو المعيار الرئيسي - ولكن للتأكد من أن النسخ لبعض الملفات الصوتية المرجعية هو نفسه دائمًا ، قبل تدريب نموذج حديث جديد وبعد ذلك. باستخدام هذا ، من الممكن معرفة ما إذا كان نموذج الكلام الذي تم تدريبه حديثًا به أي عيوب واضحة.

في هذه الحالات ، يكون لديك على الأرجح مكتبة من الملفات الصوتية المرجعية ، مصنفة أو غير مسماة. في حالة الاستخدام هذه ، يمكننا البدء بالملفات الصوتية غير المسماة لإنشاء مجموعة اختبار انحدار.

  1. قم بإنشاء مجموعة اختبار جديدة ، واضبط ملف استخدام ملف الصوت إلى استخدم جميع ملفات الصوت كإدخال حالة الاختبار
  2. قم بتحميل ملفات الصوت غير المسماة إلى ملف وسائل الإعلام مجلد مجموعة الاختبار هذه
  3. ابدأ جلسة اختبار أولى - سيرسل Botium Box جميع الملفات الصوتية إلى محرك التعرف على الكلام ويقبل أي نسخ
  4. في مجلة المرفقات من نتيجة الاختبار ، قم بتنزيل النسخة الكاملة كملف CSV وافتحه في Excel

في ملف CSV هذا ، نحن مهتمون فقط بالأعمدة المسماة testCaseName (الذي يحتوي على اسم الملف) و خطوبة محدثة (الذي يحتوي على النسخ). قم بتصفية ملف كونفوستيبسيندر العمود على القيمة بوت وإخفاء جميع الأعمدة الأخرى ما عدا العمودين المذكورين. انسخ البيانات المتبقية كملف transcript.csv إلى المجلد الذي يحتوي على ملفات الصوت في Botium Box.

عندما يتم الآن تبديل ملف استخدام ملف الصوت لاستخدام جميع الملفات الصوتية كمدخلات اختبار الحالة ، وقراءة النسخ من الملف ، سيقرأ Botium النسخ المتوقعة من هذا الملف وستظهر أي تغييرات في النسخ لملفاتك المرجعية في نتائج الاختبار.


اختبار التعرف على الكلام المستمر نشرت في الأصل في الحياة Chatbots على المتوسط، حيث يواصل الناس المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة