제퍼넷 로고

기본 커넥터를 통해 AWS Glue를 사용하여 Amazon OpenSearch Service에 대한 분석 가속화 | 아마존 웹 서비스

시간

분석 워크로드의 규모와 복잡성이 계속 증가함에 따라 고객은 데이터를 수집하고 분석하는 보다 효율적이고 비용 효과적인 방법을 찾고 있습니다. 데이터는 데이터베이스, CRM, 마케팅 시스템과 같은 온라인 시스템에서 데이터 레이크와 같은 데이터 저장소로 저장됩니다. 아마존 단순 스토리지 서비스 (Amazon S3), 데이터 웨어하우스 아마존 레드 시프트, 그리고 다음과 같은 목적에 맞게 지어진 상점 아마존 오픈서치 서비스, 아마존 해왕성아마존 타임 스트림.

OpenSearch 서비스는 관찰 가능성, 검색 분석, 통합, 비용 절감, 규정 준수 및 통합과 같은 다양한 목적으로 사용됩니다. OpenSearch Service에는 또한 LLM(대형 언어 모델)을 사용하여 의미 체계 검색 및 RAG(검색 증강 생성)를 구현하여 추천 및 미디어 검색 엔진을 구축할 수 있는 벡터 데이터베이스 기능이 있습니다. 이전에는 OpenSearch Service와 통합하기 위해 다음과 같은 특정 프로그래밍 언어에 대한 오픈 소스 클라이언트를 사용할 수 있었습니다. 자바, Python자바 스크립트 또는 사용 REST API OpenSearch 서비스에서 제공합니다.

데이터 레이크, 데이터 웨어하우스 및 특수 목적 저장소 간의 데이터 이동은 다음과 같은 데이터 통합 ​​서비스를 사용하는 추출, 변환 및 로드(ETL) 프로세스를 통해 이루어집니다. AWS 접착제. AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 데이터를 쉽게 검색, 준비 및 결합할 수 있게 해주는 서버리스 데이터 통합 ​​서비스입니다. AWS Glue는 시각적 및 코드 기반 인터페이스를 모두 제공하여 데이터 통합을 쉽게 만듭니다. 기본 AWS Glue 커넥터를 사용하면 민첩성이 향상되고 데이터 이동이 단순화되며 데이터 품질이 향상됩니다.

이 게시물에서는 OpenSearch Service에 대한 AWS Glue 기본 커넥터를 살펴보고 OpenSearch Service와 통합하기 위해 사용자 지정 코드 또는 타사 도구를 구축하고 유지 관리할 필요가 없는 방법을 알아봅니다. 이는 분석 파이프라인과 검색 사용 사례를 가속화하여 OpenSearch Service의 데이터에 대한 즉각적인 액세스를 제공합니다. 이제 OpenSearch Service 인덱스에 저장된 데이터를 AWS Glue Studio 코드 없는 드래그 앤 드롭 시각적 인터페이스 내에서 소스 또는 대상으로 사용하거나 AWS Glue ETL 작업 스크립트에서 직접 사용할 수 있습니다. 이 새로운 커넥터를 AWS Glue ETL 기능과 결합하면 ETL 파이프라인 생성이 단순화되므로 ETL 개발자는 데이터 파이프라인 구축 및 유지 관리 시간을 절약할 수 있습니다.

솔루션 개요

새로운 기본 OpenSearch Service 커넥터는 조직이 데이터의 잠재력을 최대한 활용하는 데 도움이 되는 강력한 도구입니다. OpenSearch Service 커넥터 라이브러리를 설치하거나 관리할 필요 없이 OpenSearch Service에서 데이터를 효율적으로 읽고 쓸 수 있습니다.

이번 포스팅에서는 뉴욕시 택시 및 리무진위원회 (TLC) 여행 기록 데이터 AWS Glue 기본 커넥터를 사용하여 OpenSearch Service에 데이터 세트를 추가합니다. 다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

이 게시물이 끝나면 시각적 ETL 작업은 다음 스크린샷과 유사하게 됩니다.

사전 조건

이 게시물을 진행하려면 실행 중인 OpenSearch 서비스 도메인이 필요합니다. 설정 지침은 다음을 참조하세요. Amazon OpenSearch 서비스 시작하기. 단순화를 위해 공개되도록 하고 나중에 사용할 수 있도록 기본 사용자와 비밀번호를 기록해 두십시오.

이 글을 쓰는 시점에서 AWS Glue OpenSearch 서비스 커넥터는 다음을 지원하지 않습니다. Amazon OpenSearch 서버리스이므로 프로비저닝된 도메인을 설정해야 합니다.

S3 버킷 생성

우리는 AWS 클라우드 포메이션 샘플 데이터를 저장할 S3 버킷을 생성하는 템플릿입니다. 다음 단계를 완료하세요.

  1. 왼쪽 메뉴에서 발사 스택.
  2. 스택 세부 사항 지정 페이지에서 스택의 이름을 입력합니다.
  3. 왼쪽 메뉴에서 다음 보기.
  4. 스택 옵션 구성 페이지에서 선택 다음 보기.
  5. 검토 페이지, 선택 AWS CloudFormation이 IAM 리소스를 생성 할 수 있음을 인정합니다.
  6. 왼쪽 메뉴에서 문의하기.

스택을 배포하는 데 약 2분 정도 걸립니다.

OpenSearch Service 도메인에서 인덱스 생성

OpenSearch 서비스 도메인에서 색인을 생성하려면 다음 단계를 완료하십시오.

  1. OpenSearch Service 콘솔에서 다음을 선택합니다. 도메인 탐색 창에서
  2. 필수 조건으로 생성한 도메인을 엽니다.
  3. 아래 링크 선택 OpenSearch 대시보드 URL.
  4. 탐색 메뉴에서 개발 도구.
  5. 색인을 생성하려면 다음 코드를 입력하세요.
PUT /yellow-taxi-index
{
  "mappings": {
    "properties": {
      "VendorID": {
        "type": "integer"
      },
      "tpep_pickup_datetime": {
        "type": "date",
        "format": "epoch_millis"
      },
      "tpep_dropoff_datetime": {
        "type": "date",
        "format": "epoch_millis"
      },
      "passenger_count": {
        "type": "integer"
      },
      "trip_distance": {
        "type": "float"
      },
      "RatecodeID": {
        "type": "integer"
      },
      "store_and_fwd_flag": {
        "type": "keyword"
      },
      "PULocationID": {
        "type": "integer"
      },
      "DOLocationID": {
        "type": "integer"
      },
      "payment_type": {
        "type": "integer"
      },
      "fare_amount": {
        "type": "float"
      },
      "extra": {
        "type": "float"
      },
      "mta_tax": {
        "type": "float"
      },
      "tip_amount": {
        "type": "float"
      },
      "tolls_amount": {
        "type": "float"
      },
      "improvement_surcharge": {
        "type": "float"
      },
      "total_amount": {
        "type": "float"
      },
      "congestion_surcharge": {
        "type": "float"
      },
      "airport_fee": {
        "type": "integer"
      }
    }
  }
}

OpenSearch 서비스 자격 증명에 대한 비밀 만들기

이 게시물에서는 기본 인증을 사용하고 다음을 사용하여 인증 자격 증명을 안전하게 저장합니다. AWS 비밀 관리자. Secrets Manager 비밀을 생성하려면 다음 단계를 완료하십시오.

  1. Secrets Manager 콘솔에서 기미 탐색 창에서
  2. 왼쪽 메뉴에서 새로운 비밀을 저장.
  3. 럭셔리 비밀 유형, 고르다 다른 유형의 비밀.
  4. 럭셔리 키/값 쌍, 사용자 이름을 입력하세요 opensearch.net.http.auth.user 그리고 비밀번호 opensearch.net.http.auth.pass.
  5. 왼쪽 메뉴에서 다음 보기.
  6. 비밀을 만들려면 나머지 단계를 완료하세요.

AWS Glue 작업을 위한 IAM 역할 생성

다음 단계를 완료하여 구성하세요. AWS 자격 증명 및 액세스 관리 (IAM) AWS Glue 작업 역할:

  1. IAM 콘솔에서 새 역할을 생성합니다.
  2. AWS 관리형 정책 연결 GlueServiceRole.
  3. 다음 정책을 역할에 연결합니다. 각 ARN을 OpenSearch Service 도메인, Secrets Manager 비밀 및 S3 버킷의 해당 ARN으로 바꿉니다.
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "OpenSearchPolicy",
            "Effect": "Allow",
            "Action": [
                "es:ESHttpPost",
                "es:ESHttpPut"
            ],
            "Resource": [
                "arn:aws:es:<region>:<aws-account-id>:domain/<amazon-opensearch-domain-name>"
            ]
        },
        {
            "Sid": "GetDescribeSecret",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetResourcePolicy",
                "secretsmanager:GetSecretValue",
                "secretsmanager:DescribeSecret",
                "secretsmanager:ListSecretVersionIds"
            ],
            "Resource": "arn:aws:secretsmanager:<region>:<aws-account-id>:secret:<secret-name>"
        },
        {
            "Sid": "S3Policy",
            "Effect": "Allow",
            "Action": [
                "s3:GetBucketLocation",
                "s3:ListBucket",
                "s3:GetBucketAcl",
                "s3:GetObject",
                "s3:PutObject",
                "s3:DeleteObject"
            ],
            "Resource": [
                "arn:aws:s3:::<bucket-name>",
                "arn:aws:s3:::<bucket-name>/*"
            ]
        }
    ]
}

AWS Glue 연결 생성

OpenSearch Service 커넥터를 사용하려면 먼저 OpenSearch Service에 연결하기 위한 AWS Glue 연결을 생성해야 합니다. 다음 단계를 완료하세요.

  1. AWS Glue 콘솔에서 연결 탐색 창에서
  2. 왼쪽 메뉴에서 연결 만들기.
  3. 럭셔리 성함, 입력 opensearch-connection.
  4. 럭셔리 연결 유형선택한다. 아마존 오픈서치.
  5. 럭셔리 도메인 엔드포인트, OpenSearch 서비스의 도메인 엔드포인트를 입력하세요.
  6. 럭셔리 포트, HTTPS 포트 443을 입력하세요.
  7. 럭셔리 자원, 입력 yellow-taxi-index.

이러한 맥락에서, 의지 데이터를 읽거나 쓰는 OpenSearch 서비스의 인덱스를 의미합니다.

  1. 선택 Wan만 활성화됨.
  2. 럭셔리 AWS 비밀, 이전에 생성한 비밀을 선택합니다.
  3. 선택적으로 VPC의 OpenSearch Service 도메인에 연결하는 경우 VPC 내부에서 AWS Glue 작업을 실행할 VPC, 서브넷 및 보안 그룹을 지정합니다. 보안 그룹의 경우 자체 참조 인바운드 규칙이 필요합니다. 자세한 내용은 다음을 참조하세요. AWS Glue 개발을 위한 네트워킹 설정.
  4. 왼쪽 메뉴에서 연결 만들기.

AWS Glue Studio를 사용하여 ETL 작업 생성

AWS Glue ETL 작업을 생성하려면 다음 단계를 완료하십시오.

  1. AWS Glue 콘솔에서 비주얼 ETL 탐색 창에서
  2. 왼쪽 메뉴에서 직업 만들기비주얼 ETL.
  3. AWS Glue Studio 콘솔에서 작업 이름을 다음으로 변경합니다. opensearch-etl.
  4. 왼쪽 메뉴에서 아마존 S3 데이터 소스 및 아마존 오픈서치 데이터 타겟의 경우.

소스와 대상 사이에 선택적으로 변환 노드를 삽입할 수 있습니다. 이 솔루션에서는 단순화를 위해 소스 및 대상 노드만 있는 작업을 생성합니다.

  1. . 데이터 소스 속성 섹션에서 샘플 데이터가 있는 S3 버킷을 지정하고 나무 마루로 데이터 형식으로.
  2. . 데이터 싱크 속성 섹션에서 이전 섹션에서 생성한 연결을 지정합니다(opensearch-connection).
  3. 선택 직업 세부 정보 탭 및 기본 속성 섹션에서 이전에 생성한 IAM 역할을 지정합니다.
  4. 왼쪽 메뉴에서 찜하기 작업을 저장하고 선택하세요. 달리기 작업을 실행합니다.
  5. 로 이동 실행 탭을 클릭하여 작업 상태를 확인하세요. 성공하면 실행 상태가 다음과 같아야 합니다. 성공.
  6. 작업이 성공적으로 실행되면 OpenSearch 대시보드로 이동하여 대시보드에 로그인합니다.
  7. 왼쪽 메뉴에서 대시보드 관리 탐색 메뉴에서
  8. 왼쪽 메뉴에서 인덱스 패턴, 선택 인덱스 패턴 생성.
  9. 엔터 버튼 yellow-taxi-index for 인덱스 패턴 이름입니다.
  10. 왼쪽 메뉴에서 tpep_pickup_datetime for Time.
  11. 왼쪽 메뉴에서 인덱스 패턴 생성. 이 인덱스 패턴은 인덱스를 시각화하는 데 사용됩니다.
  12. 왼쪽 메뉴에서 Discover 탐색 메뉴에서 yellow-taxi-index.


이제 AWS Glue OpenSearch Service 기본 커넥터를 사용하여 단 몇 단계만으로 OpenSearch Service에서 인덱스를 생성하고 Amazon S3에서 해당 인덱스에 데이터를 로드했습니다.

정리

요금이 발생하지 않도록 하려면 다음 단계를 완료하여 AWS 계정의 리소스를 정리하십시오.

  1. AWS Glue 콘솔에서 ETL 작업 탐색 창에서
  2. 작업 목록에서 해당 작업을 선택하세요. opensearch-etl, 그리고 행위 메뉴, 선택 ..
  3. AWS Glue 콘솔에서 데이터 연결 탐색 창에서
  4. 선택 opensearch-connection 커넥터 목록 및 행위 메뉴, 선택 ..
  5. IAM 콘솔에서 역할 탐색 페이지에서.
  6. AWS Glue 작업에 대해 생성한 역할을 선택하고 삭제합니다.
  7. CloudFormation 콘솔에서 다음을 선택합니다. 스택 탐색 창에서
  8. S3 버킷 및 샘플 데이터용으로 생성한 스택을 선택하고 삭제합니다.
  9. Secrets Manager 콘솔에서 기미 탐색 창에서
  10. 생성한 비밀을 선택하고 행위 메뉴, 선택 ..
  11. 대기 기간을 7일로 줄이고 삭제 일정을 예약하세요.

결론

AWS Glue와 OpenSearch Service의 통합은 분석 사용 사례를 위해 OpenSearch Service와 통합할 때 데이터 변환을 수행하는 강력한 기능을 추가합니다. 이를 통해 조직은 OpenSearch Service를 통해 데이터 통합 ​​및 분석을 간소화할 수 있습니다. AWS Glue의 서버리스 특성은 인프라 관리가 필요하지 않으며 작업이 실행되는 동안 소비된 리소스에 대해서만 비용을 지불한다는 것을 의미합니다. 조직이 의사 결정을 위해 데이터에 점점 더 의존함에 따라 이 기본 Spark 커넥터는 데이터 분석 요구 사항을 신속하게 충족할 수 있는 효율적이고 비용 효율적이며 민첩한 솔루션을 제공합니다.


저자 소개

바시어 보안관 AWS의 수석 솔루션 아키텍트입니다. 그는 고객이 새로운 기술을 활용하여 흥미로운 문제를 해결하도록 돕는 것을 좋아합니다. 그는 호주 멜버른에 거주하며 축구, 크리켓과 같은 스포츠를 좋아합니다.

고토 슌스케 AWS에서 일하는 프로토타이핑 엔지니어입니다. 그는 고객과 긴밀히 협력하여 프로토타입을 제작하고 고객이 분석 시스템을 구축하도록 돕습니다.

spot_img

VC 카페

VC 카페

최신 인텔리전스

spot_img