お気に入りのサッカーチームのライブ放送を見ているときも、ベンダーとビデオチャットをしているときも、ローンの支払いについて銀行に電話をかけているときも、音声コンテンツのストリーミングはどこにでもあります。 ストリーミングトランスクリプションサービスを適用して、コンテンツの理解とアクセシビリティのための字幕を生成したり、検索を可能にするメタデータを作成したり、通話分析のための洞察を抽出したりできます。 これらの文字起こしサービスは、ストリーミングオーディオコンテンツを処理し、連続音声のセグメントに最終的な文字起こしを提供するまで、部分的な文字起こしの結果を生成します。 ただし、サービスが音声のコンテキストをさらに理解するため、これらの部分的な結果の一部の単語またはフレーズが変更される可能性があります。
Amazon Transcribeで、ストリーミング音声音声文字変換の部分的な結果の安定化を有効にして構成できるようになりました。 AmazonTranscribeは 自動音声認識(ASR)サービス これにより、開発者は、オンデマンドおよびストリーミングコンテンツのアプリケーションにリアルタイムの音声テキスト機能を追加できます。 文全体が転記されるのを待つ代わりに、部分的な結果の安定化レベルを制御できるようになりました。 Transcribeには、高、中、低の3つの設定があります。 安定化を「高」に設定すると、部分的な結果の大部分を修正でき、最後の数語だけが文字起こしプロセス中に変更されます。 この機能は、作成したいユーザーエクスペリエンスに基づいて、ストリーミングトランスクリプションワークフローの柔軟性を高めるのに役立ちます。
この投稿では、この機能の利点と、AmazonTranscribeコンソールまたはAPIを介してこの機能を有効にする方法について説明します。
部分的な結果の安定化のしくみ
例を挙げて、これについてさらに深く掘り下げてみましょう。
日常会話の中で、特定の単語やフレーズを聞いたと思うかもしれませんが、後で、追加のコンテキストに基づいてそれが間違っていたことに気づきます。 誰かに食べ物の話をしていて、「今夜は洋ナシを食べます…」と聞いたとしましょう。しかし、スピーカーが終わると、実際に「今夜はパンケーキを食べます」と言われたことに気づきます。 人間が手元の情報に基づいて理解を変える可能性があるのと同じように、Amazon Transcribeは機械学習(ML)を使用して、受信したコンテキストに基づいてストリーミングオーディオの文字起こしを自己修正します。 これを有効にするために、AmazonTranscribeは部分的な結果を使用します。
ストリーミングトランスクリプションプロセス中に、AmazonTranscribeは結果のチャンクを出力します。 isPartial
国旗。 このフラグがマークされた結果 true
受け取った追加のコンテキストに応じて、AmazonTranscribeが将来変更する可能性があるものです。 Amazon Transcribeが、特定の信頼しきい値を超えるのに十分なコンテキストがあると分類した後、結果は安定し、 isPartial
その特定の部分的な結果のフラグがマークされます false
。 これらの部分的な結果のウィンドウサイズは、ストリームコンテキストに応じて、数語から複数の文に及ぶ可能性があります。
次の画像は、ストリーミング転写のためにAmazon Transcribeで部分的な結果がどのように生成(および編集)されるかを示しています。
結果の安定化により、転写結果の待ち時間と精度をより細かく制御できます。 ユースケースに応じて、一方を他方よりも優先する場合があります。 たとえば、ライブ字幕を提供する場合、精度よりも速度が重要であるため、結果を高度に安定させることが望ましい場合があります。 一方、コンテンツのモデレーションなどのユースケースでは、レイテンシよりも精度が重要になる可能性があるため、安定性を低くすることをお勧めします。
高い安定性レベルは、結果を安定化するためのコンテキストのウィンドウを制限することにより、転写結果のより迅速な安定化を可能にしますが、全体的な精度を低下させる可能性があります。 一方、安定性レベルが低いと、より正確な転写結果が得られますが、部分的な転写結果は変化する可能性が高くなります。
ストリーミングトランスクリプションAPIを使用すると、トランスクリプションストリームの部分的な結果の安定性を制御できるようになりました。
それでは、この機能の使用方法を見てみましょう。
AmazonTranscribeコンソールを介して部分的な結果の安定化にアクセスする
Amazon Transcribeコンソールで部分的な結果安定化の使用を開始するには、次の手順を実行します。
- Amazon Transcribeコンソールで、 Amazon TranscribeStreamingをサポートするリージョン.
この投稿では、 us-east-1
.
- ナビゲーションペインで、 リアルタイムの文字起こし.
- その他の設定、イネーブル 部分的な結果の安定化.
- 安定性レベルを選択します。
次のXNUMXつのレベルから選択できます。
- ハイ –中および低設定と比較して低い精度で最も安定した部分転写結果を提供します。 追加のコンテキストが収集されると、結果が変わる可能性は低くなります。
- M –安定性と正確性のバランスが取れた部分的な転写結果を提供します
- ロー –高および中の設定と比較して、比較的安定性の低い部分的な文字起こしの結果をより高い精度で提供します。 追加のコンテキストが収集されて利用されると、結果が更新されます。
- 選択する ストリーミングを開始する ストリームを再生して結果を確認します。
APIを介して部分的な結果の安定化にアクセスする
このセクションでは、HTTP / 2を使用したストリーミングについて説明します。 APIリクエストで、希望するレベルの部分的な結果の安定化を有効にできます。
この機能を有効にするには、 enable-partial-results-stabilization
フラグと partial-results-stability
レベル入力パラメータ:
部分的な結果の安定化を有効にすると、追加のパラメータフラグが導入されます Stable
転記結果のアイテムレベルでのAPI応答で。 ストリーミング転記結果の部分的な結果アイテムに Stable
としてマークされたフラグ true
、部分的な結果の対応する商品の文字起こしは、AmazonTranscribeによって識別された後続のコンテキストに関係なく変更されません。 の場合 Stable
フラグはとしてマークされています false
、対応するアイテムが将来変更される可能性があります。 IsPartial
フラグはとしてマークされています false
.
次のコードは、API応答を示しています。
まとめ
この投稿では、AmazonTranscribeで最近リリースされた部分的な結果安定化機能を紹介します。 詳細については、を参照してください。 AmazonTranscribe部分的な結果の安定化ドキュメント.
Amazon Transcribe Streaming Transcription APIの詳細については、チェックアウトしてください。 HTTP / 2でAmazonTranscribeストリーミングを使用する & WebSocketでのAmazonTranscribeストリーミングの使用.
著者について
アレックスチラヤス Amazon Machine Learning SolutionsLabのSDEです。 彼は、一般的なビジネス上の問題に対処するソリューションを構築することで、お客様がAWSAIサービスを採用するのを支援しています。
コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-now-supports-partial-results-stabilization-for-streaming-audio/