Amazon Comprehend 맞춤형 엔터티 인식 실시간 엔드포인트 출시 발표

아마존 이해 비정형 텍스트에서 핵심 문구, 장소, 이름, 조직, 이벤트, 감정 등을 추출할 수 있는 자연어 처리(NLP) 서비스입니다(자세한 내용은 다음 참조). 엔터티 감지). 그러나 독점 부품 코드 또는 산업별 용어와 같이 비즈니스에 고유한 엔터티 유형을 추가하려면 어떻게 해야 할까요? 11 월 2018, Amazon Comprehend는 기본 엔터티 유형을 확장하여 사용자 지정 엔터티를 감지하는 기능을 추가했습니다.

지금까지 사용자 지정 엔터티 인식 모델을 사용한 추론은 비동기 작업이었습니다.

이번 포스트에서는 빌드하는 방법에 대해 다룹니다. Amazon Comprehend 맞춤형 엔터티 인식 모델을 설정하고 Amazon Comprehend Custom Entity Recognition 실시간 엔드포인트 동기 추론을 위해. 다음 다이어그램은 이 아키텍처를 보여줍니다.

솔루션 개요

아마존 컴프리헨드 커스텀 기계 학습(ML) 지식 없이도 특정 요구 사항을 충족할 수 있습니다. Amazon Comprehend Custom은 자동 ML(AutoML)을 사용하여 이미 가지고 있는 데이터를 사용하여 사용자를 대신해 맞춤형 NLP 모델을 구축합니다.

예를 들어 채팅 메시지나 IT 티켓을 보고 있는 경우 AWS 오퍼링과 관련이 있는지 알고 싶을 수 있습니다. 입력 메시지에서 단어 또는 단어 그룹을 SERVICE 또는 VERSION 엔터티로 식별할 수 있는 사용자 지정 엔터티 인식기를 빌드해야 합니다.

이 게시물에서는 이 사용 사례에 대한 솔루션을 구현하기 위해 다음 단계를 안내합니다.

SERVICE 또는 VERSION과 같은 사용자 지정 엔터티를 식별하기 위해 주석이 달린 레이블에서 훈련된 사용자 지정 엔터티 인식기를 만듭니다.
SERVICE 또는 VERSION 엔터티를 탐지하기 위해 채팅 메시지를 식별하는 실시간 분석 Amazon Comprehend 사용자 지정 엔터티 인식기 엔드포인트를 생성합니다.
엔드포인트의 추론 용량과 가격을 계산합니다.

샘플 데이터 세트를 제공합니다 aws-service-offerings.txt. 다음 스크린샷은 데이터 세트의 예제 항목을 보여줍니다.

두 가지 방법으로 사용자 지정 엔터티 인식기 교육을 위한 레이블을 제공할 수 있습니다. 엔터티 목록 과 주석. 주석의 컨텍스트가 증가하면 메트릭을 개선할 수 있기 때문에 엔터티 목록보다 주석을 권장합니다. 자세한 내용은 다음을 참조하십시오. 사용자 지정 엔터티 인식기 성능 개선. 사용자 지정 엔터티 인식기를 교육하는 데 필요한 교육 데이터 및 주석을 생성하기 위해 입력 데이터 세트를 사전 처리했습니다.

아래에서 이러한 파일을 다운로드할 수 있습니다.

이 파일을 다운로드한 후 아마존 단순 스토리지 서비스 (Amazon S3) 교육 중에 참조할 수 있도록 계정의 버킷. 파일 업로드에 대한 자세한 내용은 다음을 참조하세요. 파일과 폴더를 S3 버킷에 어떻게 업로드합니까?
사용자 지정 데이터 세트에 대한 주석 또는 레이블 생성에 대한 자세한 내용은 다음을 참조하세요. Amazon SageMaker Ground Truth 및 Amazon Comprehend를 사용하여 NER 모델 개발.

사용자 지정 엔터티 인식기 만들기

인식기를 만들려면 다음 단계를 완료하세요.

에 아마존 종합 콘솔, 사용자 지정 엔터티 인식기를 만듭니다.
왼쪽 메뉴에서 기차 인식기.
럭셔리 인식기 이름, 입력 aws-offering-recognizer.
럭셔리 맞춤 엔티티 유형, 입력 SERVICE.
왼쪽 메뉴에서 유형 추가.
초를 입력하세요 맞춤 엔티티 유형 라는 VERSION.
럭셔리 훈련 유형, 고르다 주석 및 교육 문서 사용.
럭셔리 S3의 주석 위치, 경로를 입력하십시오 annotations.csv S3 버킷에서.
럭셔리 S3의 교육 문서 위치, 경로를 입력하십시오 train.csv S3 버킷에서.
IAM 역할에 대해 선택 IAM 역할 생성.
럭셔리 액세스 권한선택한다. 입력 및 출력 (지정된 경우) S3 버킷.
럭셔리 이름 접미사, 입력 ComprehendCustomEntity.
왼쪽 메뉴에서 Train .

우리 데이터 세트의 경우 학습에는 약 10분이 소요됩니다.

인식기 교육이 완료되면 다음에서 교육 지표를 검토할 수 있습니다. 인식기 세부정보 안내

개별 훈련 성과를 보려면 아래로 스크롤하십시오.

이러한 지표를 이해하고 인식기 성능을 개선하는 방법에 대한 자세한 내용은 다음을 참조하십시오. 맞춤 엔티티 인식 지표.

학습이 완료되면 인식기를 사용하여 문서에서 사용자 지정 엔터티를 감지할 수 있습니다. 최대 5KB의 단일 문서를 실시간으로 빠르게 분석하거나 비동기 작업(사용 Amazon Comprehend 일괄 처리).

사용자 지정 엔터티 끝점 만들기

엔드포인트 생성은 XNUMX단계 프로세스입니다. 즉, 엔드포인트를 구축한 다음 실시간 분석을 실행하여 엔드포인트를 사용하는 것입니다.

엔드포인트 구축

엔드 포인트를 작성하려면 다음 단계를 완료하십시오.

에 아마존 종합 콘솔선택한다. 맞춤설정으로 들어간다.
왼쪽 메뉴에서 사용자 정의 엔터티 인식.
에서 인식기 목록에서 엔드포인트를 생성하려는 사용자 지정 모델의 이름을 선택하고 링크를 따라갑니다. 사용자 지정 모델 세부 정보 페이지의 끝점 목록이 표시됩니다. 또한 이전에 생성된 엔드포인트 및 연결된 모델을 볼 수 있습니다.
모델을 선택하세요.
에서 행위 드롭 다운 메뉴에서 엔드 포인트 생성.
럭셔리 엔드 포인트 이름, 입력 DetectEntityServiceOrVersion.

이름은 AWS 리전 및 계정 내에서 고유해야 합니다. 끝점 이름은 인식기 간에도 고유해야 합니다.

럭셔리 추론 단위, 끝점에 할당할 추론 단위(IU)의 수를 입력합니다.

우리는 토론한다 필요한 IU 수를 결정하는 방법 이 게시물의 뒷부분에 있습니다.

선택적 단계로 아래에서 태그, 키-값 쌍을 태그로 입력합니다.
왼쪽 메뉴에서 엔드 포인트 생성.

XNUMXD덴탈의 종점 목록이 표시되고 새 엔드포인트가 다음과 같이 표시됩니다. Creating. 다음과 같이 표시될 때 Ready, 실시간 분석을 위해 엔드포인트를 사용할 수 있습니다.

실시간 분석 실행

엔드포인트를 생성한 후 사용자 지정 모델을 사용하여 실시간 분석을 실행할 수 있습니다.

럭셔리 분석 유형, 고르다 관습.
럭셔리 종점, 생성한 엔드포인트를 선택합니다.

럭셔리 입력 텍스트, 다음을 입력:

AWS Deep Learning AMI (Amazon Linux 2) Version 220 The AWS Deep Learning AMIs are prebuilt with CUDA 8 and several deep learning frameworks.The DLAMI uses the Anaconda Platform with both Python2 and Python3 to easily switch between frameworks.

왼쪽 메뉴에서 분석.

다음 스크린샷과 같이 SERVICE 또는 VERSION으로 인식되는 엔터티와 신뢰도 점수를 통해 통찰력을 얻을 수 있습니다.

다양한 입력 텍스트 조합을 실험하여 결과를 비교하고 대조할 수 있습니다.

필요한 IU의 수 결정

필요한 IU 수는 요청에서 보내는 문자 수와 Amazon Comprehend에서 필요한 처리량에 따라 다릅니다. 이 섹션에서는 비용이 다른 두 가지 사용 사례에 대해 설명합니다.

모든 경우에 엔드포인트는 최소 1초 단위로 60초 단위로 요금이 청구됩니다. 분석된 문서가 없더라도 엔드포인트를 프로비저닝한 시점부터 삭제될 때까지 요금이 계속 부과됩니다. 자세한 내용은 다음을 참조하십시오. 아마존 종합 요금.

사용 사례 1

이 사용 사례에서는 분당 10개의 메시지/피드를 수신하고 각 메시지는 엔터티를 인식해야 하는 360자로 구성됩니다. 이는 다음과 같습니다.

초당 60자(360자 x 10개 메시지 ÷ 60초)
1 IU가 있는 엔드포인트는 초당 100자의 처리량을 제공합니다.

1 IU로 엔드포인트를 프로비저닝해야 합니다. 인식 모델에는 다음과 같은 가격 책정 세부 정보가 있습니다.

1IU의 가격은 초당 $0.0005입니다.
추론 호출 수에 관계없이 엔드포인트를 프로비저닝한 시점부터 삭제될 때까지 비용이 발생합니다.
하루에 12시간 동안 실시간 엔드포인트를 실행하는 경우 추론을 위한 총 비용은 $21.60($0.0005 x 3,600초 x 12시간)입니다.
모델 교육 및 모델 관리 비용은 각각 $3.00 및 $0.50로 비동기 엔터티 인식과 동일합니다.

하루 12시간 동안 모델 훈련 25.10시간, 모델 관리 XNUMX개월, 실시간 엔터티 인식 엔드포인트를 사용한 추론의 총 비용은 하루 $XNUMX입니다.

사용 사례 2

이 두 번째 사용 사례에서는 분당 50개의 메시지/피드에 대해 추론을 실행하도록 요구 사항이 증가했으며 각 메시지에는 엔터티를 인식해야 하는 600자가 포함됩니다. 이는 다음과 같습니다.

초당 500자(600자 x 50개 메시지 ÷ 60초)
IU가 1인 엔드포인트는 초당 100자의 처리량을 제공합니다.

5 IU로 엔드포인트를 프로비저닝해야 합니다. 귀하의 모델에는 다음과 같은 가격 세부 정보가 있습니다.

1IU의 가격은 초당 $0.0005
추론 호출 수에 관계없이 엔드포인트를 프로비저닝한 시점부터 삭제될 때까지 비용이 발생합니다.
하루에 12시간 동안 실시간 엔드포인트를 실행하는 경우 추론을 위한 총 비용은 $108(5 x $0.0005 x 3,600초 x 12시간)입니다.
모델 교육 및 모델 관리 비용은 각각 $3.00 및 $0.50로 비동기 엔터티 인식과 동일합니다.

하루 5시간 동안 처리량 12IU의 실시간 엔터티 인식 엔드포인트를 사용한 모델 교육 111.50시간, 모델 관리 XNUMX개월, 추론의 총 비용은 $XNUMX입니다.

청소

향후 요금이 발생하지 않도록 하려면 사용하지 않을 때 리소스(엔드포인트, 인식기 및 Amazon S3의 모든 아티팩트)를 중지하거나 삭제하십시오.

엔드포인트를 삭제하려면 Amazon Comprehend 콘솔에서 생성한 엔터티 인식기를 선택합니다. 에서 종점 섹션 선택 ..

인식기를 삭제하려면 인식기 세부정보 섹션 선택 ..

S3 버킷 삭제에 대한 지침은 다음을 참조하십시오. 버킷 삭제 또는 비우기.

결론

이 게시물은 실시간 텍스트 분석을 위한 엔드포인트를 설정하여 Amazon Comprehend 사용자 지정 엔터티 인식기를 교육한 사용자 지정 엔터티를 감지하는 것이 얼마나 쉬운지 보여주었습니다. 사용자 지정 엔터티 인식은 미리 설정된 일반 엔터티 유형 중 하나로 지원되지 않는 새 엔터티 유형을 식별할 수 있도록 하여 Amazon Comprehend의 기능을 확장합니다. Amazon Comprehend 사용자 지정 엔터티 엔드포인트를 사용하면 이제 사용자 지정 엔터티 탐지 모델에 대한 실시간 통찰력을 쉽게 도출하여 애플리케이션에 짧은 지연 시간 경험을 제공할 수 있습니다. 이 새로운 기능을 사용 사례에 어떻게 적용하고 싶은지 듣고 싶습니다. 의견 섹션에서 생각과 질문을 공유하십시오.

저자에 관하여

Mona Mona는 버지니아주 알링턴에 기반을 둔 AI/ML 전문 솔루션 아키텍트입니다. 그녀는 World Wide Public Sector 팀과 협력하여 고객이 기계 학습을 대규모로 채택하도록 돕습니다. 그녀는 AI/ML의 NLP 및 ML 설명 가능성 영역에 대해 열정적입니다.

Prem Ranga는 텍사스 휴스턴에 기반을 둔 엔터프라이즈 솔루션 아키텍트입니다. 그는 Machine Learning Technical Field Community의 일원이며 ML 및 AI 여정에서 고객과 협력하는 것을 좋아합니다. Prem은 로봇 공학에 열정을 가지고 있으며 자율 주행 차량 연구원이며 Alexa가 제어하는 Beer Pours를 휴스턴 및 기타 지역에 구축했습니다.

출처: https://aws.amazon.com/blogs/machine-learning/announcing-the-launch-of-amazon-comprehend-custom-entity-recognition-real-time-endpoints/

생성 데이터 인텔리전스

Amazon Comprehend 맞춤형 엔티티 인식 실시간 엔드 포인트 출시 발표

솔루션 개요

사용자 지정 엔터티 인식기 만들기

사용자 지정 엔터티 끝점 만들기

엔드포인트 구축

실시간 분석 실행

필요한 IU의 수 결정

사용 사례 1

사용 사례 2

청소

결론

저자에 관하여

테러리스트들이 만데라의 엘와크 마을을 폭격했습니다. 사상자 보고 – 의료용 마리화나 프로그램 연결

VC 카페

최신 인텔리전스

VC 카페

이제 Google Play 스토어에서 여러 Android 앱을 동시에 다운로드할 수 있습니다.

🔴이더리움 ETF 지연 | 이번 주 암호화폐 소식 - 11년 2024월 XNUMX일

아플 때와 건강할 때: 힘과 희망을 찾기 위한 간병인 가이드 – 월드 뉴스 보고서 – 의료용 마리화나 프로그램 연결

Clean Group, 시드니 CBD에 새 사무실 위치 발표 및 향상된 상업용 청소 서비스 – 월드 뉴스 보고서 – 의료용 마리화나 프로그램 연결

2024년 수익 극대화: ValueZone.AI 종합 살펴보기