제퍼넷 로고

Amazon Transcribe 부분 결과 안정화를 통해 스트리밍 트랜스 크립 션 경험 개선

시간

좋아하는 축구 팀의 생방송을 시청하든, 공급 업체와 영상 채팅을하든, 대출 지불에 대해 은행에 전화하든, 스트리밍 음성 콘텐츠는 어디에나 있습니다. 스트리밍 트랜스 크립 션 서비스를 적용하여 콘텐츠 이해 및 접근성을위한 자막을 생성하고, 검색을 가능하게하는 메타 데이터를 생성하거나, 통화 분석을위한 통찰력을 추출 할 수 있습니다. 이러한 트랜스 크립 션 서비스는 스트리밍 오디오 콘텐츠를 처리하고 연속 음성 세그먼트에 대한 최종 트랜스 크립 션을 제공 할 때까지 부분 트랜스 크립 션 결과를 생성합니다. 그러나 서비스가 오디오의 컨텍스트를 더 잘 이해하기 때문에 이러한 부분 결과의 일부 단어 또는 구문이 변경 될 수 있습니다.

이제 Amazon Transcribe를 사용하여 스트리밍 오디오 트랜스 크립 션에 대한 부분 결과 안정화를 활성화하고 구성 할 수 있음을 알려 드리게되어 기쁩니다. Amazon Transcribe는 자동 음성 인식 (ASR) 서비스 이를 통해 개발자는 주문형 및 스트리밍 콘텐츠를 위해 애플리케이션에 실시간 음성-텍스트 기능을 추가 할 수 있습니다. 전체 문장이 전사 될 때까지 기다리는 대신 이제 부분 결과의 안정화 수준을 제어 할 수 있습니다. Transcribe는 높음, 중간 및 낮음의 3 가지 설정을 제공합니다. 안정화를 "높음"으로 설정하면 전사 과정에서 마지막 몇 단어 만 변경하여 부분 결과의 더 많은 부분을 수정할 수 있습니다. 이 기능은 생성하려는 사용자 경험을 기반으로 스트리밍 트랜스 크립 션 워크 플로에서 더 많은 유연성을 갖도록 도와줍니다.

이 게시물에서는이 기능의 이점과 Amazon Transcribe 콘솔 또는 API를 통해 활성화하는 방법을 살펴 봅니다.

부분 결과 안정화 작동 방식

예제를 통해 더 자세히 살펴 보겠습니다.

일상 대화 중에 특정 단어 나 구를 들었다고 생각할 수 있지만 나중에 추가 문맥에 따라 틀렸다는 것을 알게됩니다. 누군가에게 음식에 대해 이야기하고 있는데 그들이“오늘 밤 배를 먹을 게요…”라고 말하는 것을 들었다고 가정 해 봅시다. 그러나 스피커가 끝났을 때 그들이 실제로“오늘 밤 나는 팬케이크 한 쌍을 먹을 것입니다.”라고 말했음을 알게됩니다. 인간이 수면에있는 정보를 기반으로 이해를 변경할 수있는 것처럼 Amazon Transcribe는 기계 학습 (ML)을 사용하여 수신하는 컨텍스트에 따라 스트리밍 오디오의 트랜스 크립 션을 자체 수정합니다. 이를 활성화하기 위해 Amazon Transcribe는 부분 결과를 사용합니다.

스트리밍 트랜스 크립 션 프로세스 중에 Amazon Transcribe는 다음을 사용하여 결과 청크를 출력합니다. isPartial 깃발. 이 플래그가 다음과 같이 표시된 결과 true Amazon Transcribe는 수신 된 추가 컨텍스트에 따라 향후 변경 될 수 있습니다. Amazon Transcribe가 특정 신뢰도 임계 값을 초과하기에 충분한 컨텍스트가 있음을 분류하면 결과가 안정화되고 isPartial 특정 부분 결과에 대한 플래그가 표시됩니다. false. 이러한 부분 결과의 창 크기는 스트림 컨텍스트에 따라 몇 단어에서 여러 문장까지 다양 할 수 있습니다.

다음 이미지는 스트리밍 트랜스 크립 션을 위해 Amazon Transcribe에서 부분 결과가 생성 (및 편집)되는 방식을 보여줍니다.

결과 안정화를 통해 전사 결과의 지연 시간과 정확성을 더 많이 제어 할 수 있습니다. 사용 사례에 따라 우선 순위를 지정할 수 있습니다. 예를 들어 라이브 자막을 제공 할 때 정확도보다 속도가 더 중요하기 때문에 결과의 높은 안정화가 선호 될 수 있습니다. 반면에 콘텐츠 조정과 같은 사용 사례의 경우 정확도가 지연 시간보다 더 중요 할 수 있으므로 낮은 안정화가 선호됩니다.

안정성 수준이 높으면 결과 안정화를위한 컨텍스트 창을 제한하여 전사 결과를 더 빠르게 안정화 할 수 있지만 전체 정확도가 낮아질 수 있습니다. 반면에 낮은 안정성 수준은 더 정확한 전사 결과로 이어지지 만 부분 전사 결과는 변경 될 가능성이 더 높습니다.

스트리밍 트랜스 크립 션 API를 사용하면 트랜스 크립 션 스트림에서 부분 결과의 안정성을 제어 할 수 있습니다.

이제이 기능을 사용하는 방법을 살펴 보겠습니다.

Amazon Transcribe 콘솔을 통해 부분 결과 안정화에 액세스

Amazon Transcribe 콘솔에서 부분 결과 안정화 사용을 시작하려면 다음 단계를 완료하십시오.

  1. Amazon Transcribe 콘솔에서 Amazon Transcribe Streaming을 지원하는 지역.

이 게시물에는 us-east-1.

  1. 탐색 창에서 실시간 전사.
  2. $XNUMX Million 미만 추가 세팅, 활성화 부분 결과 안정화.

  1. 안정성 수준을 선택하십시오.

세 가지 레벨 중에서 선택할 수 있습니다.

  • 높은 – Medium 및 Low 설정에 비해 정확도가 낮은 가장 안정적인 부분 전사 결과를 제공합니다. 추가 컨텍스트가 수집되면 결과가 변경 될 가능성이 적습니다.
  • 중급 – 안정성과 정확성이 균형을 이룬 부분 전사 결과 제공
  • 낮은 – 높음 및 중간 설정에 비해 정확도가 높은 상대적으로 덜 안정적인 부분 전사 결과를 제공합니다. 추가 컨텍스트가 수집되고 활용되면 결과가 업데이트됩니다.

  1. 왼쪽 메뉴에서 스트리밍 시작 스트림을 재생하고 결과를 확인합니다.

API를 통해 부분 결과 안정화에 액세스

이 섹션에서는 HTTP / 2를 사용한 스트리밍을 보여줍니다. API 요청에서 원하는 수준의 부분 결과 안정화를 활성화 할 수 있습니다.

이 기능은 enable-partial-results-stabilization 플래그와 partial-results-stability 레벨 입력 매개 변수 :

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-enable-partial-results-stabilization= true
x-amzn-transcribe-partial-results-stability = low | medium | high

부분 결과 안정화를 활성화하면 추가 매개 변수 플래그가 도입됩니다. Stable 텍스트 변환 결과에서 항목 수준의 API 응답에서 스트리밍 트랜스 크립 션 결과의 부분 결과 항목에 Stable 다음으로 표시된 플래그 true, 부분 결과의 해당 항목 전사는 Amazon Transcribe에서 식별 한 후속 컨텍스트에 관계없이 변경되지 않습니다. 만약 Stable 플래그는 다음과 같이 표시됩니다. false, 해당 항목이 향후 변경 될 가능성이 있습니다. IsPartial 플래그는 다음과 같이 표시됩니다. false.

다음 코드는 API 응답을 보여줍니다.

{ "Alternatives": [ { "Items": [ { "Confidence": 0, "Content": "Amazon", "EndTime": 1.22, "Stable": true, "StartTime": 0.78, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "is", "EndTime": 1.63, "Stable": true, "StartTime": 1.46, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "the", "EndTime": 1.76, "Stable": true, "StartTime": 1.64, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "largest", "EndTime": 2.31, "Stable": true, "StartTime": 1.77, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "rainforest", "EndTime": 3.34, "Stable": true, "StartTime": 2.4, "Type": "pronunciation", "VocabularyFilterMatch": false }, ], "Transcript": "Amazon is the largest rainforest " } ], "EndTime": 4.33, "IsPartial": false, "ResultId": "f4b5d4dd-b685-4736-b883-795dc3f7f636", "StartTime": 0.78
}

결론

이 게시물은 Amazon Transcribe에서 최근에 출시 된 부분 결과 안정화 기능을 소개합니다. 자세한 내용은 Amazon Transcribe 부분 결과 안정화 문서.

Amazon Transcribe Streaming Transcription API에 대해 자세히 알아 보려면 HTTP / 2에서 Amazon Transcribe 스트리밍 사용WebSocket과 함께 Amazon Transcribe 스트리밍 사용.


저자에 관하여

알렉스 치라 야스 Amazon Machine Learning Solutions Lab의 SDE입니다. 그는 일반적인 비즈니스 문제를 해결하는 솔루션을 구축하여 고객이 AWS AI 서비스를 채택하도록 돕습니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-now-supports-partial-results-stabilization-for-streaming-audio/

spot_img

최신 인텔리전스

spot_img