شعار زيفيرنت

حسِّن تجربة النسخ المتدفقة مع تثبيت النتائج الجزئية في Amazon Transcribe

التاريخ:

سواء كنت تشاهد بثًا مباشرًا لفريق كرة القدم المفضل لديك ، أو تجري محادثة فيديو مع بائع ، أو تتصل بالمصرف الذي تتعامل معه بشأن سداد قرض ، فإن محتوى الكلام المتدفق موجود في كل مكان. يمكنك تطبيق خدمة نسخ متدفقة لإنشاء ترجمات لفهم المحتوى وإمكانية الوصول إليه ، أو لإنشاء بيانات وصفية لتمكين البحث ، أو لاستخراج رؤى لتحليلات المكالمات. تعالج خدمات النسخ هذه دفق المحتوى الصوتي وتنتج نتائج نسخ جزئية حتى توفر نسخًا نهائيًا لجزء من الكلام المستمر. ومع ذلك ، قد تتغير بعض الكلمات أو العبارات في هذه النتائج الجزئية ، حيث تتفهم الخدمة سياق الصوت بشكل أكبر.

يسعدنا أن نعلن أن Amazon Transcribe يتيح لك الآن تمكين وتكوين تثبيت جزئي للنتائج لدفق النسخ الصوتية. Amazon Transcribe هو ملف خدمة التعرف التلقائي على الكلام (ASR) تمكن المطورين من إضافة إمكانات تحويل الكلام إلى نص في الوقت الفعلي في تطبيقاتهم للمحتوى عند الطلب والبث المباشر. بدلاً من انتظار نسخ جملة كاملة ، يمكنك الآن التحكم في مستوى تثبيت النتائج الجزئية. يقدم Transcribe 3 إعدادات: مرتفع ومتوسط ​​ومنخفض. يسمح ضبط التثبيت "عالي" بإصلاح جزء أكبر من النتائج الجزئية مع تغيير الكلمات القليلة الأخيرة فقط أثناء عملية النسخ. تساعدك هذه الميزة في الحصول على مزيد من المرونة في تدفقات عمل النسخ المتدفق استنادًا إلى تجربة المستخدم التي تريد إنشاءها.

في هذا المنشور ، نتعرف على فوائد هذه الميزة وكيفية تمكينها عبر وحدة تحكم Amazon Transcribe أو واجهة برمجة التطبيقات.

كيف يعمل تثبيت النتائج الجزئية

دعونا نتعمق في هذا بمثال.

أثناء محادثاتك اليومية ، قد تعتقد أنك تسمع كلمة أو عبارة معينة ، لكنك أدركت لاحقًا أنها كانت غير صحيحة بناءً على سياق إضافي. لنفترض أنك كنت تتحدث إلى شخص ما عن الطعام ، وقد سمعته يقول "الليلة ، سوف آكل كمثرى ..." ومع ذلك ، عندما ينتهي المتحدث ، تدرك أنهم قالوا بالفعل "الليلة سوف أتناول زوجًا من الفطائر." تمامًا كما قد يغير البشر فهمنا استنادًا إلى المعلومات المتوفرة ، تستخدم Amazon Transcribe التعلم الآلي (ML) للتصحيح الذاتي لنسخ الصوت المتدفق بناءً على السياق الذي يتلقاه. لتمكين ذلك ، تستخدم Amazon Transcribe نتائج جزئية.

أثناء عملية النسخ المتدفقة ، تُخرج Amazon Transcribe أجزاء من النتائج بامتداد isPartial علم. النتائج مع هذه العلامة مميزة على أنها true هي تلك التي قد يتغير بها Amazon Transcribe في المستقبل اعتمادًا على السياق الإضافي الذي تم تلقيه. بعد أن صنفت Amazon Transcribe أن لديها سياقًا كافيًا لتجاوز حد ثقة معين ، يتم تثبيت النتائج و isPartial يتم وضع علامة على تلك النتيجة الجزئية المحددة false. يمكن أن يتراوح حجم نافذة هذه النتائج الجزئية من بضع كلمات إلى جمل متعددة اعتمادًا على سياق التدفق.

تعرض الصورة التالية كيفية إنشاء النتائج الجزئية (وتحريرها) في Amazon Transcribe لتدفق النسخ.

يتيح تثبيت النتائج مزيدًا من التحكم في زمن الوصول ودقة نتائج النسخ. اعتمادًا على حالة الاستخدام ، يمكنك إعطاء الأولوية لأحدهما على الآخر. على سبيل المثال ، عند تقديم ترجمات مباشرة ، قد يكون من المفضل تحقيق الاستقرار العالي للنتائج لأن السرعة أهم من الدقة. من ناحية أخرى ، بالنسبة لحالات الاستخدام مثل الإشراف على المحتوى ، يُفضل الاستقرار الأقل لأن الدقة قد تكون أكثر أهمية من زمن الوصول.

يتيح مستوى الثبات العالي تحقيق استقرار أسرع لنتائج النسخ عن طريق الحد من نافذة السياق لتحقيق استقرار النتائج ، ولكن يمكن أن يؤدي إلى انخفاض الدقة الإجمالية. من ناحية أخرى ، يؤدي مستوى الاستقرار المنخفض إلى نتائج نسخ أكثر دقة ، ولكن من المرجح أن تتغير نتائج النسخ الجزئي.

باستخدام واجهة برمجة تطبيقات النسخ المتدفق ، يمكنك الآن التحكم في استقرار النتائج الجزئية في تدفق النسخ.

الآن دعونا نلقي نظرة على كيفية استخدام الميزة.

الوصول إلى استقرار النتائج الجزئي عبر وحدة تحكم Amazon Transcribe

لبدء استخدام التثبيت الجزئي للنتائج على وحدة تحكم Amazon Transcribe ، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon Transcribe ، تأكد من أنك في ملف المنطقة التي تدعم Amazon Transcribe Streaming.

لهذا المنصب ، نستخدم us-east-1.

  1. في جزء التنقل ، اختر النسخ في الوقت الفعلي.
  2. تحت إعدادات إضافية، تمكين استقرار النتائج الجزئي.

  1. حدد مستوى الاستقرار الخاص بك.

يمكنك الاختيار بين ثلاثة مستويات:

  • مرتفع - يوفر نتائج النسخ الجزئي الأكثر استقرارًا وبدقة أقل مقارنة بالإعدادات المتوسطة والمنخفضة. من غير المرجح أن تتغير النتائج كلما تم جمع سياق إضافي.
  • متوسط - يقدم نتائج نسخ جزئية توازن بين الاستقرار والدقة
  • منخفض - يوفر نتائج نسخ جزئي أقل استقرارًا نسبيًا وبدقة أعلى مقارنة بالإعدادات العالية والمتوسطة. يتم تحديث النتائج عند جمع سياق إضافي واستخدامه.

  1. اختار ابدأ البث لتشغيل البث والتحقق من النتائج.

الوصول إلى استقرار النتائج الجزئي عبر API

في هذا القسم ، نوضح البث باستخدام HTTP / 2. يمكنك تمكين المستوى المفضل لديك لتثبيت النتائج الجزئية في طلب واجهة برمجة التطبيقات.

يمكنك تمكين هذه الميزة عبر enable-partial-results-stabilization العلم و partial-results-stability معلمات إدخال المستوى:

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-enable-partial-results-stabilization= true
x-amzn-transcribe-partial-results-stability = low | medium | high

يؤدي تمكين تثبيت النتائج الجزئي إلى تقديم علامة المعلمة الإضافية Stable في استجابة API على مستوى العنصر في نتائج النسخ. إذا كان عنصر النتائج الجزئية في نتيجة النسخ المتدفق يحتوي على الامتداد Stable تم وضع علامة باسم true، فإن نسخ العنصر المقابل في النتائج الجزئية لا يتغير بغض النظر عن أي سياق لاحق تم تحديده بواسطة Amazon Transcribe. إذا كان Stable تم وضع علامة على العلم كـ false، لا تزال هناك فرصة لتغيير العنصر المقابل في المستقبل ، حتى IsPartial تم وضع علامة على العلم كـ false.

يوضح الكود التالي استجابة API الخاصة بنا:

{ "Alternatives": [ { "Items": [ { "Confidence": 0, "Content": "Amazon", "EndTime": 1.22, "Stable": true, "StartTime": 0.78, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "is", "EndTime": 1.63, "Stable": true, "StartTime": 1.46, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "the", "EndTime": 1.76, "Stable": true, "StartTime": 1.64, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "largest", "EndTime": 2.31, "Stable": true, "StartTime": 1.77, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "rainforest", "EndTime": 3.34, "Stable": true, "StartTime": 2.4, "Type": "pronunciation", "VocabularyFilterMatch": false }, ], "Transcript": "Amazon is the largest rainforest " } ], "EndTime": 4.33, "IsPartial": false, "ResultId": "f4b5d4dd-b685-4736-b883-795dc3f7f636", "StartTime": 0.78
}

وفي الختام

يقدم هذا المنشور ميزة تثبيت النتائج الجزئية التي تم إطلاقها مؤخرًا في Amazon Transcribe. لمزيد من المعلومات ، راجع Amazon Transcribe وثائق تثبيت النتائج الجزئية.

لمعرفة المزيد حول Amazon Transcribe Streaming Transcription API ، تحقق من استخدام تدفق Amazon Transcribe باستخدام HTTP / 2 و استخدام بث Amazon Transcribe مع WebSockets.


عن المؤلف

أليكس شيرايث هو SDE في مختبر حلول التعلم الآلي في أمازون. يساعد العملاء على اعتماد خدمات AWS AI من خلال بناء حلول لمعالجة مشاكل العمل الشائعة.

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-now-supports-partial-results-stabilization-for-streaming-audio/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة