Amazon Translate에서 퍼지 매칭을 사용하여 기계 번역 결과 개인화

한 사람의 모국어는 그들을 독특하게 만드는 특성의 일부입니다. 하나의 특정 아이디어를 표현하는 방법은 셀 수 없이 많습니다. 기업이 고객과 커뮤니케이션할 때 고객이 전달하려는 정보를 가장 잘 나타내는 방식으로 메시지를 전달하는 것이 중요합니다. 이것은 전문적인 언어 번역의 경우 더욱 중요해집니다. 번역 시스템 및 서비스 고객은 정확하고 고도로 맞춤화된 출력을 기대합니다. 이를 위해 번역 메모리(TM)라고 하는 이전 번역 출력을 재사용하고 새 입력 텍스트와 비교합니다. 컴퓨터 지원 번역에서 이 기술은 퍼지 매칭. 퍼지 매칭의 주요 기능은 번역 프로세스의 속도를 높여 번역가를 지원하는 것입니다. 번역 중인 텍스트에 대해 TM 데이터베이스에서 정확히 일치하는 항목을 찾을 수 없는 경우 번역 관리 시스템(TMS)은 종종 정확하지 않은 일치 항목을 검색할 수 있는 옵션을 제공합니다. 잠재적 일치는 최종 번역을 위한 추가 입력으로 번역가에게 제공됩니다. 다음과 같은 기계 번역 기능으로 작업 흐름을 향상시키는 번역가 아마존 번역 퍼지 일치 데이터가 자동화된 번역 솔루션의 일부로 사용되기를 기대하는 경우가 많습니다.

이 게시물에서는 번역 메모리 퍼지 일치 품질 점수에 따라 Amazon Translate의 출력을 사용자 지정하는 방법을 배웁니다.

번역 품질 일치

XML 현지화 교환 파일 형식(XLIFF) 표준은 TMS와 Amazon Translate 간의 데이터 교환 형식으로 자주 사용됩니다. TMS에서 생성된 XLIFF 파일에는 사용 가능한 TM을 기반으로 한 일치 품질 점수와 함께 소스 및 대상 텍스트 데이터가 포함됩니다. 일반적으로 백분율로 표시되는 이 점수는 번역 메모리가 번역되는 텍스트와 얼마나 가까운지를 나타냅니다.

요구 사항이 매우 엄격한 일부 고객은 일치 품질 점수가 특정 임계값 미만인 경우에만 기계 번역을 사용하기를 원합니다. 이 임계값을 넘어서면 자신의 번역 메모리가 우선 적용되기를 기대합니다. 번역가는 종종 TMS 내에서 또는 텍스트 데이터를 변경하여 이러한 기본 설정을 수동으로 적용해야 합니다. 이 흐름은 다음 다이어그램에 나와 있습니다. 기계 번역 시스템은 번역 데이터(텍스트 및 퍼지 일치 점수)를 처리한 다음 번역가가 원하는 품질 임계값에 따라 검토하고 수동으로 편집합니다. 기계 번역 단계의 일부로 임계값을 적용하면 이러한 수동 단계를 제거할 수 있어 효율성이 향상되고 비용이 최적화됩니다.

그림 1: 기계 번역 검토 흐름

이 게시물에 제공된 솔루션을 사용하면 일치 품질 점수 임계값을 기반으로 규칙을 적용하여 주어진 입력 텍스트를 Amazon Translate에서 기계 번역해야 하는지 여부를 결정할 수 있습니다. 기계 번역되지 않은 경우 결과 텍스트는 최종 출력을 검토하는 번역가의 재량에 맡겨집니다.

솔루션 아키텍처

그림 2에 설명된 솔루션 아키텍처는 다음 서비스를 활용합니다.

아마존 단순 스토리지 서비스 – Amazon S3 버킷에는 다음 콘텐츠가 포함되어 있습니다.
- 퍼지 일치 임계값 구성 파일
- 번역할 원본 텍스트
- Amazon Translate 입력 및 출력 데이터 위치
AWS 시스템 관리자 - 우리는 사용 파라미터 저장소 일치 품질 임계값 구성 값을 저장하기 위한 매개변수
AWS 람다 – 두 가지 Lambda 함수를 사용합니다.
- 하나의 기능은 품질 일치 임계값 구성 파일을 사전 처리하고 데이터를 Parameter Store에 유지합니다.
- 하나의 기능이 자동으로 비동기 번역 작업을 생성합니다.
아마존 단순 대기열 서비스 – Amazon SQS 대기열은 소스 버킷으로 들어오는 새 파일의 결과로 번역 흐름을 트리거합니다.

그림 2: 솔루션 아키텍처

먼저 구성 파일을 편집하고 퍼지 일치 임계값 구성 S3 버킷에 업로드하여 번역 작업에 대한 품질 임계값을 설정합니다. 다음은 CSV 형식의 샘플 구성입니다. 모든 형식을 사용할 수 있지만 단순성을 위해 CSV를 선택했습니다. 각 줄은 특정 번역 작업에 적용되거나 모든 작업에 대한 기본값으로 적용될 임계값을 나타냅니다.

default, 75
SourceMT-Test, 80

구성 파일의 사양은 다음과 같습니다.

열 1은 Amazon Translate 작업에 입력 데이터로 제공된 XLIFF 파일 이름(확장자 없음)으로 채워져야 합니다.
열 2는 품질 일치 비율 임계값으로 채워져야 합니다. 이 값보다 낮은 점수에는 기계 번역이 사용됩니다.
이름이 구성 파일에 나열된 이름과 일치하지 않는 모든 XLIFF 파일의 경우 기본 임계값이 사용됩니다. default 1열에 설정합니다.

그림 3: Systems Manager Parameter Store에서 자동 생성된 매개변수

새 파일이 업로드되면 Amazon S3는 파라미터 처리를 담당하는 Lambda 함수를 트리거합니다. 이 기능은 임계값 매개변수를 읽고 향후 사용을 위해 Parameter Store에 저장합니다. Parameter Store를 사용하면 새 번역 작업이 시작될 때마다 중복 Amazon S3 GET 요청을 수행하는 것을 방지할 수 있습니다. 샘플 구성 파일은 다음 스크린샷에 표시된 매개변수 태그를 생성합니다.

작업 초기화 Lambda 함수는 이러한 파라미터를 사용하여 Amazon Translate를 호출하기 전에 데이터를 사전 처리합니다. 다음 코드와 같이 영어-스페인어 번역 XLIFF 입력 파일을 사용합니다. 여기에는 번역할 초기 텍스트가 포함되어 있습니다. 세그먼트, 소스 태그에 표시됩니다.

<group id="g8">
    <trans-unit id="t8" translate="yes">
        <source>Consent Form</source>
        <target state-qualifier="fuzzy-match"/>
        <alt-trans extype="fuzzy-match" match-quality="99%" >
            <source>CONSENT FORM</source>
            <target>FORMULARIO DE CONSENTIMIENTO</target>
        </alt-trans>
    </trans-unit>
</group>

<group id="g67">
    <trans-unit id="t110" translate="yes">
        <source>Screening Visit:</source>
        <target state-qualifier="fuzzy-match"/>
        <alt-trans extype="fuzzy-match" match-quality="50%">
            <source>Screening Visit</source>
            <target>Selección</target>
        </alt-trans>
    </trans-unit>
</group>

원본 텍스트는 사전에 번역 메모리와 미리 일치되었습니다. 데이터에는 잠재적인 번역 대안이 포함되어 있습니다. <alt-trans> 태그 - 일치 품질 속성과 함께 백분율로 표시됩니다. 비즈니스 규칙은 다음과 같습니다.

대체 번역으로 수신된 세그먼트 및 임계값 미만의 일치 품질은 변경되지 않았거나 비어 있습니다. 이것은 번역해야 함을 Amazon Translate에 알립니다.
임계값 이상의 일치 품질을 가진 대체 번역으로 수신된 세그먼트는 제안된 대상 텍스트로 미리 채워집니다. Amazon Translate는 이러한 세그먼트를 건너뜁니다.

이 작업에 대해 구성된 품질 일치 임계값이 80%라고 가정해 보겠습니다. 일치 품질이 99%인 첫 번째 세그먼트는 기계 번역되지 않은 반면, 두 번째 세그먼트는 일치 품질이 정의된 임계값 미만이기 때문에 기계 번역됩니다. 이 구성에서 Amazon Translate는 다음 출력을 생성합니다.

<group id="g8">
	<trans-unit id="t8" translate="yes">
		<source>Consent Form</source>
		<target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target>
		<alt-trans extype="fuzzy-match" match-quality="99%" >
			<source>CONSENT FORM</source>
			<target>FORMULARIO DE CONSENTIMIENTO</target>
		</alt-trans>
	</trans-unit>
</group>

<group id="g67">
	<trans-unit id="t110" translate="yes">
		<source>Screening Visit:</source>
		<target state-qualifier="fuzzy-match">Visita de selección</target>
		<alt-trans extype="fuzzy-match" match-quality="50%">
			<source>Screening Visit</source>
			<target>Selección</target>
		</alt-trans>
	</trans-unit>
</group>

두 번째 세그먼트에서 Amazon Translate는 처음에 제안된 대상 텍스트를 덮어씁니다(Selección) 고품질 번역: Visita de selección.

이 사용 사례에 대한 한 가지 가능한 확장은 번역된 출력을 재사용하고 자체 번역 메모리를 만드는 것입니다. Amazon Translate는 다음 덕분에 번역 메모리를 사용하여 기계 번역의 사용자 지정을 지원합니다. 병렬 데이터 특징. 이전에 낮은 품질 점수로 인해 기계 번역된 텍스트 세그먼트는 새 번역 프로젝트에서 재사용할 수 있습니다.

다음 섹션에서는 이 솔루션을 배포하고 테스트하는 과정을 안내합니다. 너는 사용한다 AWS 클라우드 포메이션 구성 가능한 품질 일치 임계값으로 개인화된 비동기 번역 작업을 시작하기 위한 스크립트 및 데이터 샘플.

사전 조건

이 연습의 경우 다음이 있어야 합니다. AWS 계정. 아직 계정이 없으면 다음을 수행할 수 있습니다. 생성 및 활성화.

AWS CloudFormation 스택 시작

왼쪽 메뉴에서 발사 스택:
럭셔리 스택 이름이름을 입력하십시오.
럭셔리 구성 버킷 이름, 임계값 구성 파일이 포함된 S3 버킷을 입력합니다.
럭셔리 매개변수 저장소 루트, Lambda 함수를 처리하는 파라미터에 의해 생성된 파라미터의 루트 경로를 입력합니다.
럭셔리 대기열 이름, 소스 버킷에서 작업 초기화 Lambda 함수로 새 파일 알림을 게시하기 위해 생성한 SQS 대기열을 입력합니다. 설정 파일을 읽어오는 기능입니다.
럭셔리 소스 버킷 이름, 번역할 XLIFF 파일이 포함된 S3 버킷을 입력합니다. 기존 버킷을 사용하려면 CreateSourceBucket 파라미터 값을 No로 변경해야 합니다.
럭셔리 작업 버킷 이름, Amazon Translate가 입력 및 출력 데이터에 사용하는 S3 버킷을 입력합니다.
왼쪽 메뉴에서 다음 보기.

그림 4: CloudFormation 스택 세부 정보
선택적으로 스택 옵션 페이지에서 생성하려는 리소스에 할당하려는 태그의 키 이름과 값을 추가합니다.
왼쪽 메뉴에서 다음 보기.
에 검토 페이지, 선택 이 템플릿으로 인해 AWS CloudFormation이 IAM 리소스를 생성할 수 있음을 인정합니다..
다른 설정을 검토한 다음 스택 생성.

AWS CloudFormation에서 사용자를 대신하여 리소스를 생성하는 데 몇 분 정도 걸립니다. 에서 진행 상황을 볼 수 있습니다 이벤트 AWS CloudFormation 콘솔의 탭. 스택이 생성되면 다음을 볼 수 있습니다. CREATE_COMPLETE 메시지 Status 에 열 살펴보기 탭.

솔루션 테스트

간단한 예를 들어 보겠습니다.

다음 다운로드 샘플 데이터.
내용의 압축을 풉니다.

두 개의 파일이 있어야 합니다. XLIFF 형식의 .xlf 파일과 확장자가 .cfg인 임계값 구성 파일입니다. 다음은 XLIFF 파일의 일부입니다.

그림 5: 영어에서 프랑스어로 샘플 파일 추출

Amazon S3 콘솔에서 이전에 지정한 구성 버킷에 품질 임계값 구성 파일을 업로드합니다.

에 대해 설정된 값 test_En_to_Fr 75%입니다. 매개변수 저장소 섹션의 Systems Manager 콘솔에서 매개변수를 볼 수 있어야 합니다.

계속해서 Amazon S3 콘솔에서 .xlf 파일을 원본으로 구성한 S3 버킷에 업로드합니다. 파일이 이라는 폴더 아래에 있는지 확인하십시오. translate (예 : <my_bucket>/translate/test_En_to_Fr.xlf).

번역 흐름이 시작됩니다.

Amazon Translate 콘솔을 엽니다.

진행 중 상태의 새 작업이 나타나야 합니다.

그림 6: Amazon Translate 콘솔에서 진행 중인 번역 작업

작업이 완료되면 작업 링크를 클릭하고 출력을 참조하십시오. 모든 세그먼트가 번역되어야 합니다.

모든 세그먼트가 번역되어야 합니다. 번역된 XLIFF 파일에서 다음과 같은 추가 속성이 있는 세그먼트를 찾습니다. lscustom:match-quality, 다음 스크린샷과 같이. 이러한 사용자 정의 속성은 점수를 기반으로 제안된 번역이 유지된 세그먼트를 식별합니다.

그림 7: 점수를 기반으로 제안된 번역이 유지된 세그먼트를 식별하는 사용자 정의 속성

품질 임계값에 따라 번역 메모리에서 파생되었습니다. 다른 모든 부분은 기계 번역되었습니다.

이제 구성 가능한 번역 메모리 일치 품질 임계값을 적용하는 자동화된 비동기 번역 작업 도우미를 배포하고 테스트했습니다. 잘 했어!

대청소

솔루션을 계정에 배포한 경우 예기치 않은 비용이 발생하지 않도록 CloudFormation 스택을 삭제하는 것을 잊지 마십시오. 미리 S3 버킷을 수동으로 비워야 합니다.

결론

이 게시물에서는 표준 XLIFF 퍼지 일치 품질 지표를 기반으로 Amazon Translate 번역 작업을 사용자 지정하는 방법을 배웠습니다. 이 솔루션을 사용하면 기계 번역 텍스트 검토와 관련된 수작업을 크게 줄이고 Amazon Translate 사용을 최적화할 수 있습니다. 에 설명된 대로 데이터 수집 자동화 및 워크플로 오케스트레이션 기능으로 솔루션을 확장할 수도 있습니다. 완전 자동화된 번역 시스템 도우미로 번역 작업 속도 향상.

저자에 관하여

나르시스 젝파 보스턴에 거주하는 솔루션 아키텍트입니다. 그는 아키텍처 지침을 제공하고 혁신적이고 확장 가능한 솔루션을 설계하여 미국 북동부의 고객이 AWS 클라우드 채택을 가속화하도록 돕습니다. Narcisse는 건물을 짓지 않을 때 가족과 함께 시간을 보내고, 여행하고, 요리하고, 농구를 즐깁니다.

디미트리 레스타이노 뉴욕 브루클린에 거주하는 AWS의 솔루션 아키텍트입니다. 그는 주로 북동부의 의료 및 금융 서비스 회사와 협력하여 고객에게 최상의 서비스를 제공할 수 있는 혁신적이고 창의적인 솔루션을 설계하는 데 도움을 줍니다. 소프트웨어 개발 배경에서 온 그는 서버리스 기술이 세상에 가져올 수 있는 새로운 가능성에 흥분하고 있습니다. 그는 직장 밖에서 하이킹을 하고 NYC 음식 현장을 탐험하는 것을 좋아합니다.

생성 데이터 인텔리전스

Amazon Translate와 퍼지 매칭을 사용하여 기계 번역 결과를 개인화하십시오

번역 품질 일치

솔루션 아키텍처

사전 조건

AWS CloudFormation 스택 시작

솔루션 테스트

대청소

결론

저자에 관하여

VC 카페

VC 카페

최신 인텔리전스

비트코인, 30일 NFT 판매 선두로 24개 블록체인 경쟁사 제치고

이번 주 웹에서 제공하는 멋진 기술 이야기 (27 월 XNUMX 일까지)

보안보다 선점자 우위를 우선시하면 Defi 프로토콜이 해킹에 취약해집니다 – Nikita Ovchinnik

HKTDC, 선물, 인쇄, 포장 및 라이선스 이벤트 공개

Carlie Hanson은 Alice In Chains의 'Nutshell'을 진심 어린 커버로 담아 헌정했습니다.

현대차, EV 수요 둔화를 보완하기 위해 더 많은 하이브리드 생산 – 오토블로그