제퍼넷 로고

Amazon QuickSight의 단어 클라우드를 사용하여 Amazon Comprehend 분석 시각화 | 아마존 웹 서비스

시간

자유 형식 텍스트 문서 저장소에서 통찰력을 검색하는 것은 건초 더미에서 바늘을 찾는 것과 같을 수 있습니다. 전통적인 접근 방식은 단어 계산이나 기타 기본 분석을 사용하여 문서를 구문 분석하는 것일 수 있지만 Amazon AI 및 기계 학습(ML) 도구의 강력한 기능을 사용하면 콘텐츠에 대한 더 깊은 이해를 얻을 수 있습니다.

아마존 이해 자연어 처리(NLP)를 사용하여 문서 콘텐츠에 대한 통찰력을 추출하는 완전 관리형 서비스입니다. Amazon Comprehend는 문서의 엔터티, 핵심 문구, 감정, 테마 및 사용자 지정 요소를 인식하여 통찰력을 개발합니다. Amazon Comprehend는 문서 구조와 엔터티 관계에 대한 이해를 바탕으로 새로운 통찰력을 창출할 수 있습니다. 예를 들어 Amazon Comprehend를 사용하면 전체 문서 저장소에서 핵심 문구를 검색할 수 있습니다.

Amazon Comprehend를 사용하면 ML이 아닌 전문가도 일반적으로 몇 시간이 걸리는 작업을 쉽게 수행할 수 있습니다. Amazon Comprehend는 자체 모델을 정리, 구축 및 훈련하는 데 필요한 많은 시간을 절약해 줍니다. NLP 또는 기타 도메인에서 더 심층적인 사용자 정의 모델을 구축하려면 아마존 세이지 메이커 원하는 경우 훨씬 더 일반적인 ML 워크플로에서 모델을 구축, 교육 및 배포할 수 있습니다.

이 게시물에서는 Amazon Comprehend 및 기타 AWS 서비스를 사용하여 문서 저장소에서 새로운 통찰력을 분석하고 추출합니다. 그런 다음 우리는 아마존 퀵 사이트 테마나 추세를 쉽게 파악할 수 있도록 간단하면서도 강력한 단어 클라우드 시각적 개체를 생성합니다.

솔루션 개요

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

먼저 분석할 데이터를 수집하고 이를 아마존 단순 스토리지 서비스 (Amazon S3) AWS 계정의 버킷. 이 예에서는 텍스트 형식의 파일을 사용합니다. 그런 다음 Amazon Comprehend에서 데이터를 분석합니다. Amazon Comprehend는 다음을 사용하여 데이터베이스 형식으로 변환하고 처리해야 하는 JSON 형식의 출력을 생성합니다. AWS 접착제. 우리는 데이터를 검증하고 다음을 사용하여 특정 형식의 데이터 테이블을 추출합니다. 아마존 아테나 단어 구름을 사용하여 QuickSight 분석을 수행합니다. 시각화에 대한 자세한 내용은 다음을 참조하세요. Amazon QuickSight에서 데이터 시각화.

사전 조건

이 연습에서는 다음과 같은 전제 조건이 있어야합니다.

S3 버킷에 데이터 업로드

S3 버킷에 데이터를 업로드합니다. 이 게시물에서는 UTF-8 형식의 미국 헌법 텍스트를 입력 파일로 사용합니다. 그러면 데이터를 분석하고 시각화를 만들 준비가 된 것입니다.

Amazon Comprehend를 사용하여 데이터 분석

Amazon Comprehend를 사용하여 처리할 수 있는 텍스트 기반 및 이미지 정보 유형은 다양합니다. 텍스트 파일 외에도 다음을 사용할 수 있습니다. XNUMX단계 분류 및 개체 인식을 위한 Amazon Comprehend 이 게시물에서는 다루지 않는 이미지 파일, PDF 파일 및 Microsoft Word 파일을 입력으로 허용합니다.

데이터를 분석하려면 다음 단계를 완료하세요.

  1. Amazon Comprehend 콘솔에서 분석 작업 탐색 창에서
  2. 왼쪽 메뉴에서 분석 작업 생성.
  3. 작업 이름을 입력합니다.
  4. 럭셔리 분석 유형선택한다. 핵심 문구.
  5. 럭셔리 지원하는 언어¸ 선택 영어.
  6. 럭셔리 입력 데이터 위치, 필수 구성 요소로 생성한 폴더를 지정합니다.
  7. 럭셔리 출력 데이터 위치, 필수 구성 요소로 생성한 폴더를 지정합니다.
  8. 왼쪽 메뉴에서 IAM 역할 생성.
  9. 역할 이름의 접미사를 입력합니다.
  10. 왼쪽 메뉴에서 직업 만들기.

작업이 실행되고 상태가 분석 작업 페이지.

분석 작업이 완료될 때까지 기다립니다. Amazon Comprehend는 파일을 생성하여 사용자가 제공한 출력 데이터 폴더에 배치합니다. 파일은 .gz 또는 GZIP 형식입니다.

이 파일을 다운로드하여 비압축 형식으로 변환해야 합니다. Amazon S3 콘솔을 사용하여 데이터 폴더 또는 S3 버킷에서 객체를 다운로드할 수 있습니다.

  1. Amazon S3 콘솔에서 객체를 선택하고 다운로드. 개체를 특정 폴더에 다운로드하려면 다운로드 를 시청하여 이에 대해 더 많은 정보를 얻을 수 있습니다. 행위 메뉴를 선택합니다.
  2. 파일을 로컬 컴퓨터에 다운로드한 후 압축된 파일을 열고 압축되지 않은 파일로 저장합니다.

AWS Glue 크롤러가 파일을 처리하려면 먼저 압축되지 않은 파일을 출력 폴더에 업로드해야 합니다. 이 예에서는 압축되지 않은 파일을 이후 단계에서 사용하는 것과 동일한 출력 폴더에 업로드합니다.

  1. Amazon S3 콘솔에서 S3 버킷으로 이동하여 다음을 선택합니다. 가이드라가.
  2. 왼쪽 메뉴에서 파일을 추가합니다.
  3. 로컬 컴퓨터에서 압축되지 않은 파일을 선택하세요.
  4. 왼쪽 메뉴에서 가이드라가.

파일을 업로드한 후 원본 압축 파일을 삭제하세요.

  1. Amazon S3 콘솔에서 버킷을 선택하고 ..
  2. 파일을 영구적으로 삭제하려면 텍스트 상자에 파일 이름을 입력하여 파일 이름을 확인하세요.
  3. 왼쪽 메뉴에서 개체 삭제.

이렇게 하면 출력 폴더에 하나의 파일(압축되지 않은 파일)만 남게 됩니다.

AWS Glue를 사용하여 JSON 데이터를 테이블 형식으로 변환

이 단계에서는 Athena에 대한 입력으로 사용할 Amazon Comprehend 출력을 준비합니다. Amazon Comprehend 출력은 JSON 형식입니다. AWS Glue를 사용하면 JSON을 데이터베이스 구조로 변환하여 궁극적으로 QuickSight에서 읽을 수 있습니다.

  1. AWS Glue 콘솔에서 겉옷 탐색 창에서
  2. 왼쪽 메뉴에서 크롤러 생성.
  3. 크롤러 이름을 입력하세요.
  4. 왼쪽 메뉴에서 다음 보기.
  5. 럭셔리 데이터가 이미 Glue 테이블에 매핑되어 있습니까?, 고르다 아직.
  6. 데이터 소스를 추가합니다.
  7. 럭셔리 S3 경로에서 Amazon Comprehend 출력 데이터 폴더의 위치를 ​​입력합니다.

후행을 반드시 추가하세요. / 경로 이름에. AWS Glue는 모든 파일의 폴더 경로를 검색합니다.

  1. 선택 모든 하위 폴더 크롤링.
  2. 왼쪽 메뉴에서 S3 데이터 소스 추가.

  1. 새 항목 만들기 AWS 자격 증명 및 액세스 관리 (IAM) 크롤러 역할.
  2. IAM 역할의 이름을 입력합니다.
  3. 왼쪽 메뉴에서 선택한 IAM 역할 업데이트 새 역할이 크롤러에 할당되었는지 확인하세요.
  4. 왼쪽 메뉴에서 다음 보기 출력(데이터베이스) 정보를 입력합니다.
  5. 왼쪽 메뉴에서 데이터베이스 추가.
  6. 데이터베이스 이름을 입력하세요.
  7. 왼쪽 메뉴에서 다음 보기.
  8. 왼쪽 메뉴에서 크롤러 생성.
  9. 왼쪽 메뉴에서 크롤러 실행 크롤러를 실행합니다.

AWS Glue 콘솔에서 크롤러 상태를 모니터링할 수 있습니다.

Athena를 사용하여 QuickSight용 테이블 준비

Athena는 QuickSight가 단어 클라우드를 생성하는 데 사용할 형식을 제공하기 위해 AWS Glue 크롤러가 생성한 데이터베이스 테이블에서 데이터를 추출합니다.

  1. Athena 콘솔에서 쿼리 편집기 탐색 창에서
  2. 럭셔리 데이터 소스선택한다. AwsData카탈로그.
  3. 럭셔리 데이터베이스에서 크롤러가 생성한 데이터베이스를 선택합니다.

QuickSight와 호환되는 테이블을 생성하려면 데이터가 배열에서 중첩 해제되어야 합니다.

  1. 첫 번째 단계는 관련 Amazon Comprehend 데이터로 임시 데이터베이스를 생성하는 것입니다.
CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)

  1. 다음 명령문은 구문의 빈도에 따라 최소 XNUMX개 단어로 구성된 구문과 그룹으로 제한됩니다.
CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc

QuickSight를 사용하여 출력 시각화

마지막으로 분석의 시각적 출력을 생성할 수 있습니다.

  1. QuickSight 콘솔에서 새로운 분석.
  2. 왼쪽 메뉴에서 새로운 데이터 세트.
  3. 럭셔리 데이터세트 만들기선택한다. 새로운 데이터 소스에서.
  4. 왼쪽 메뉴에서 아테나 데이터 소스로.
  5. 데이터 소스의 이름을 입력하고 선택합니다. 데이터 소스 생성.

  1. 왼쪽 메뉴에서 눈에 보이게하다.

QuickSight가 Athena 테이블이 저장된 S3 버킷에 액세스할 수 있는지 확인하세요.

  1. QuickSight 콘솔에서 사용자 프로필 아이콘을 선택하고 QuickSight 관리.

  1. 왼쪽 메뉴에서 보안 및 권한.
  1. 섹션을 찾습니다 AWS 서비스에 대한 QuickSight 액세스.

AWS 서비스에 대한 액세스를 구성하면 QuickSight가 해당 서비스의 데이터에 액세스할 수 있습니다. 옵션을 통해 사용자 및 그룹의 접근을 제어할 수 있습니다.

  1. Amazon S3에 액세스 권한이 부여되었는지 확인합니다.

이제 단어 구름을 만들 수 있습니다.

  1. 아래의 단어 구름을 선택하십시오. 비주얼 타입.
  2. 텍스트를 다음으로 드래그하세요. 그룹화 기준 그리고 카운트 크기.


편집 옵션에 액세스하려면 시각화에서 옵션 메뉴(점 XNUMX개)를 선택하세요. 예를 들어 디스플레이에서 "기타"라는 용어를 숨길 수 있습니다. 시각적 개체의 제목 및 부제목과 같은 항목을 편집할 수도 있습니다. 워드 클라우드를 PDF로 다운로드하려면 다음을 선택하세요. 다운로드 QuickSight 도구 모음에 있습니다.

정리

지속적인 요금이 발생하지 않도록 하려면 해당 서비스 콘솔에 프로비저닝된 사용하지 않는 데이터와 프로세스 또는 리소스를 삭제하세요.

결론

Amazon Comprehend는 NLP를 사용하여 문서 내용에 대한 통찰력을 추출합니다. 문서의 엔터티, 핵심 문구, 언어, 감정 및 기타 공통 요소를 인식하여 통찰력을 개발합니다. Amazon Comprehend를 사용하면 문서 구조에 대한 이해를 바탕으로 새로운 제품을 만들 수 있습니다. 예를 들어 Amazon Comprehend를 사용하면 전체 문서 저장소에서 핵심 문구를 검색할 수 있습니다.

이 게시물에서는 AWS 도구와 QuickSight를 사용하여 데이터를 시각화하는 Amazon Comprehend의 텍스트 콘텐츠 분석을 시각화하는 단어 클라우드를 구축하는 단계를 설명했습니다.

댓글 섹션을 통해 계속 연락해 보세요!


저자에 관하여

크리스 게드만 Amazon Web Services의 소매 및 CPG 부문 미국 동부 영업 리더입니다. 일하지 않을 때 그는 친구 및 가족과 함께 시간을 보내는 것을 즐깁니다. 특히 여름에는 Cape Cod에서 시간을 보냅니다. Kris는 일시적으로 은퇴한 Ninja Warrior이지만 지금은 두 아들을 지켜보고 지도하는 것을 좋아합니다.

클라크 르파버 Amazon Web Services의 Solutions Architect 리더로서 동부 지역의 기업 고객을 지원합니다. Clark은 뉴잉글랜드에 거주하며 주방에서 레시피를 만드는 데 시간을 쏟는 것을 즐깁니다.

spot_img

최신 인텔리전스

spot_img