제퍼넷 로고

Amazon DataZone, AWS Glue 데이터 카탈로그에 대한 AWS Lake Formation 하이브리드 액세스 모드와의 통합 발표 | 아마존 웹 서비스

시간

지난주에 우리는 정식 출시 사이의 통합의 아마존 데이터존AWS Lake 형성 하이브리드 액세스 모드. 이 게시물에서는 이 새로운 기능이 Amazon DataZone 사용 방식을 단순화하여 데이터를 안전하게 관리되는 방식으로 공유하는 데 어떻게 도움이 되는지 공유합니다. AWS 접착제 데이터 카탈로그. 또한 데이터 생산자가 먼저 Lake Formation에 등록할 필요 없이 Amazon DataZone을 통해 AWS Glue 테이블을 공유할 수 있는 방법도 알아봅니다.

Lake Formation 하이브리드 액세스 모드와 Amazon DataZone 통합 개요

Amazon DataZone은 조직 내 데이터 생산자와 소비자 간의 데이터를 분류, 검색, 분석, 공유 및 관리하는 완전관리형 데이터 관리 서비스입니다. Amazon DataZone을 사용하면 데이터 생산자는 AWS Glue 데이터 카탈로그와 같은 데이터 소스의 데이터 자산으로 비즈니스 데이터 카탈로그를 채울 수 있습니다. 아마존 레드 시프트. 또한 데이터 소비자가 쉽게 이해할 수 있도록 비즈니스 컨텍스트로 자산을 강화합니다. 카탈로그에서 데이터를 사용할 수 있게 되면 분석가 및 데이터 과학자와 같은 데이터 소비자는 구독을 요청하여 이 데이터를 검색하고 액세스할 수 있습니다. 요청이 승인되면 Amazon DataZone은 Lake Formation 또는 Amazon Redshift에서 권한을 관리하여 데이터에 대한 액세스를 자동으로 프로비저닝할 수 있으므로 데이터 소비자는 다음과 같은 도구를 사용하여 데이터 쿼리를 시작할 수 있습니다. 아마존 아테나 또는 아마존 레드시프트.

AWS Glue 데이터 카탈로그의 데이터에 대한 액세스를 관리하기 위해 Amazon DataZone은 Lake Formation을 사용합니다. 이전에는 Amazon DataZone을 사용하여 AWS Glue 데이터 카탈로그의 데이터에 대한 액세스를 관리하려면 먼저 데이터를 Lake Formation에 온보딩해야 했습니다. 이제 Amazon DataZone과 Lake Formation 하이브리드 액세스 모드가 통합되어 데이터를 Lake Formation에 먼저 온보딩할 필요가 없으므로 Amazon DataZone 여정을 시작하는 방법이 단순화됩니다.

호수 형성 하이브리드 액세스 모드 기존 권한을 계속 유지하면서 Lake Formation을 통해 AWS Glue 데이터베이스 및 테이블에 대한 권한 관리를 시작할 수 있습니다. AWS 자격 증명 및 액세스 관리 (IAM) 이러한 테이블 및 데이터베이스에 대한 권한. Lake Formation 하이브리드 액세스 모드는 동일한 Data Catalog 데이터베이스 및 테이블에 대한 두 가지 권한 경로를 지원합니다.

  • 첫 번째 경로에서 Lake Formation을 사용하면 특정 주체(옵트인 주체)를 선택하고 해당 주체에게 옵트인을 통해 데이터베이스 및 테이블에 액세스할 수 있는 Lake Formation 권한을 부여할 수 있습니다.
  • 두 번째 경로에서는 다른 모든 주체(옵트인 주체로 추가되지 않음)가 IAM 주체 정책을 통해 이러한 리소스에 액세스할 수 있도록 허용합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 및 AWS Glue 작업

Amazon DataZone과 Lake Formation 하이브리드 액세스 모드가 통합되어 IAM 기반 정책을 통해 관리되는 AWS Glue 데이터 카탈로그에 테이블이 있는 경우 이러한 테이블을 Lake Formation에 등록하지 않고도 Amazon DataZone에 직접 게시할 수 있습니다. Amazon DataZone은 기존 IAM 권한을 계속 유지하면서 Lake Formation을 통해 AWS Glue 테이블에 대한 권한을 관리할 수 있는 하이브리드 액세스 모드를 사용하여 Lake Formation에 이러한 테이블의 위치를 ​​등록합니다.

Amazon DataZone을 사용하면 비즈니스 데이터 카탈로그에 모든 유형의 자산을 게시할 수 있습니다. 이러한 자산 중 일부의 경우 Amazon DataZone은 액세스 권한 부여를 자동으로 관리할 수 있습니다. 이러한 자산을 관리 자산, Lake Formation 관리형 Data Catalog 테이블과 Amazon Redshift 테이블 및 보기를 포함합니다. 이 통합 이전에는 Amazon DataZone이 게시된 데이터 카탈로그 테이블을 관리형 자산으로 처리하려면 먼저 다음 단계를 완료해야 했습니다.

  1. Data Catalog 테이블과 연결된 Amazon S3 위치를 식별합니다.
  2. 다음을 사용하여 하이브리드 액세스 모드에서 Lake Formation에 Amazon S3 위치를 등록합니다. 역할 적절한 권한이 있는 경우.
  3. Amazon DataZone 비즈니스 데이터 카탈로그에 테이블 메타데이터를 게시합니다.

다음 다이어그램은이 워크 플로우를 보여줍니다.

Amazon DataZone과 Lake Formation 하이브리드 액세스 모드의 통합을 사용하면 이러한 단계를 Amazon DataZone에 위임하여 Amazon S3 위치 등록이나 Lake Formation에 옵트인 보안 주체 추가에 대해 걱정할 필요 없이 AWS Glue 테이블을 Amazon DataZone에 간단히 게시할 수 있습니다. . AWS 계정 관리자는 다음에서 데이터 위치 등록 설정을 활성화할 수 있습니다. DefaultDataLake Amazon DataZone 콘솔의 청사진. 이제 데이터 소유자 또는 게시자는 추가 설정 단계 없이 AWS Glue 테이블(IAM 권한을 통해 관리됨)을 Amazon DataZone에 게시할 수 있습니다. 데이터 소비자가 이 테이블을 구독하면 Amazon DataZone은 하이브리드 액세스 모드에서 테이블의 Amazon S3 위치를 등록하고, 데이터 소비자의 IAM 역할을 옵트인 보안 주체로 추가하고, 해당 테이블에 대한 권한을 관리하여 동일한 IAM 역할에 대한 액세스 권한을 부여합니다. Lake Formation을 통한 테이블. 이렇게 하면 기존 워크플로를 방해하지 않고 테이블에 대한 IAM 권한이 새로 부여된 Lake Formation 권한과 공존할 수 있습니다. 다음 다이어그램은 이 워크플로를 보여줍니다.

솔루션 개요

이 새로운 기능을 시연하기 위해 재무 팀이 재무 분석 및 보고를 위해 영업 팀이 소유한 데이터에 액세스하려는 샘플 고객 시나리오를 사용합니다. 영업팀에는 티켓 판매, 인기 이벤트, 장소 및 시즌에 대한 귀중한 정보가 포함된 데이터 세트를 생성하는 파이프라인이 있습니다. 우리는 이를 틱킷 데이터세트라고 부릅니다. 영업팀은 이 데이터 세트를 Amazon S3에 저장하고 데이터 카탈로그의 데이터베이스에 등록합니다. 이 테이블에 대한 액세스는 현재 IAM 기반 권한을 통해 관리됩니다. 그러나 영업팀은 재무팀과 안전하고 관리되는 데이터 공유를 촉진하기 위해 이 테이블을 Amazon DataZone에 게시하려고 합니다.

이 솔루션을 구성하는 단계는 다음과 같습니다.

  1. Amazon DataZone 관리자는 Amazon DataZone의 데이터 레이크 위치 등록 설정을 활성화하여 Lake Formation 하이브리드 액세스 모드에서 AWS Glue 테이블의 Amazon S3 위치를 자동으로 등록합니다.
  2. Amazon DataZone에서 하이브리드 액세스 모드 통합이 활성화된 후 재무팀은 판매 데이터 자산에 대한 구독을 요청합니다. 자산은 관리형 자산으로 표시됩니다. 즉, 이 자산의 Amazon S3 위치가 Lake Formation에 등록되지 않은 경우에도 Amazon DataZone이 이 자산에 대한 액세스를 관리할 수 있음을 의미합니다.
  3. 재무팀에서 제기한 구독 요청이 영업팀에 통보됩니다. 액세스 요청을 검토하고 승인합니다. 요청이 승인되면 Amazon DataZone은 Lake Formation에서 권한을 관리하여 구독 요청을 이행합니다. Lake Formation 하이브리드 모드에서 구독 테이블의 Amazon S3 위치를 등록합니다.
  4. 재무팀은 재무 보고서에 필요한 판매 데이터 세트에 액세스할 수 있습니다. DataZone 환경으로 이동하여 구독한 데이터 세트에 대해 Athena를 사용하여 쿼리 실행을 시작할 수 있습니다.

사전 조건

이 게시물의 단계를 수행하려면 AWS 계정이 필요합니다. 계정이 없으면 다음을 수행할 수 있습니다. 하나 만들어라.. 또한 계정에 다음 리소스가 구성되어 있어야 합니다.

  • S3 버킷
  • AWS Glue 데이터베이스 및 크롤러
  • 다양한 페르소나 및 서비스에 대한 IAM 역할
  • Amazon DataZone 도메인 및 프로젝트
  • Amazon DataZone 환경 프로필 및 환경
  • Amazon DataZone 데이터 소스

이러한 리소스가 아직 구성되어 있지 않은 경우 다음을 배포하여 생성할 수 있습니다. AWS 클라우드 포메이션 스택:

  1. 왼쪽 메뉴에서 발사 스택 CloudFormation 템플릿을 배포합니다.
  2. 템플릿을 배포하는 단계를 완료하고 모든 설정을 기본값으로 둡니다.
  3. 선택 AWS CloudFormation이 IAM 리소스를 생성 할 수 있음을 인정합니다다음을 선택 문의하기.

CloudFormation 배포가 완료된 후 Amazon DataZone 포털에 로그인하여 데이터 원본 실행을 수동으로 트리거할 수 있습니다. 이렇게 하면 소스에서 새 메타데이터나 수정된 ​​메타데이터를 가져와 인벤토리의 관련 자산을 업데이트합니다. 이 데이터 원본은 데이터 자산을 카탈로그에 자동으로 게시하도록 구성되었습니다.

  1. Amazon DataZone 콘솔에서 다음을 선택합니다. 도메인 보기.

CloudFormation을 배포하는 데 사용된 것과 동일한 역할을 사용하여 로그인하고 동일한 AWS 리전에 있는지 확인해야 합니다.

  1. 도메인 찾기 blog_dz_domain다음을 선택 오픈데이터 포털.
  2. 왼쪽 메뉴에서 모든 프로젝트 찾아보기 선택하고 판매 생산자 프로젝트.
  3. Data 탭에서 데이터 소스 탐색 창에서
  4. 실행하려는 데이터 원본을 찾아 선택합니다.

그러면 데이터 소스 세부정보 페이지가 열립니다.

  1. 옆에 있는 옵션 메뉴(세로 점 3개)를 선택합니다. tickit_datasource 선택하고 달리기.

데이터 원본 상태가 Amazon DataZone이 자산 메타데이터를 업데이트하는 동안 실행으로 변경됩니다.

Amazon DataZone에서 하이브리드 모드 통합 활성화

이 단계에서 Amazon DataZone 관리자는 Lake Formation 하이브리드 액세스 모드와 Amazon DataZone 통합을 활성화하는 프로세스를 진행합니다. 다음 단계를 완료하세요.

  1. 별도의 브라우저 탭에서 Amazon DataZone 콘솔을 엽니다.

CloudFormation 템플릿을 배포한 동일한 리전에 있는지 확인하세요.

  1. 왼쪽 메뉴에서 도메인 보기.
  2. AWS CloudFormation에서 생성한 도메인을 선택하고, blog_dz_domain.
  3. 도메인 세부정보 페이지에서 아래로 스크롤하여 다음을 선택합니다. 청사진 탭.

A 청사진 Amazon DataZone에 게시된 데이터 자산과 함께 사용할 수 있는 AWS 도구 및 서비스를 정의합니다. 그만큼 DefaultDataLake Blueprint는 CloudFormation 스택 배포의 일부로 활성화됩니다. 이 블루프린트를 사용하면 Athena를 사용하여 AWS Glue 테이블을 생성하고 쿼리할 수 있습니다. 자체 배포에서 이를 활성화하는 단계는 다음을 참조하세요. Amazon DataZone 도메인을 소유한 AWS 계정에서 내장 블루프린트를 활성화합니다..

  1. 선택 DefaultDataLake 청사진.
  2. 프로 비저닝 탭에서 편집.
  3. 선택 Amazon DataZone을 활성화하여 AWS Lake Formation 하이브리드 액세스 모드를 사용하여 S3 위치를 등록하세요..

Amazon DataZone이 해당 위치를 Lake Formation 하이브리드 액세스 모드에 자동으로 등록하지 않도록 하려면 특정 Amazon S3 위치를 제외할 수 있는 옵션이 있습니다.

  1. 왼쪽 메뉴에서 변경 사항을 저장.

액세스 요청

이 단계에서는 재무 팀으로 Amazon DataZone에 로그인하여 판매 데이터 자산을 검색하고 구독합니다. 다음 단계를 완료하세요.

  1. Amazon DataZone 데이터 포털 브라우저 탭으로 돌아갑니다.
  2. 프로젝트 이름 옆에 있는 드롭다운 메뉴를 선택하고 다음을 선택하여 금융 소비자 프로젝트로 전환합니다. 금융 소비자 프로젝트.

이 단계부터는 이전 단계에서 게시된 데이터 자산을 구독하려는 금융 사용자의 페르소나를 맡게 됩니다.

  1. 검색창에서 다음을 검색하여 선택하세요. sales 데이터 자산.
  2. 왼쪽 메뉴에서 확인.

자산이 관리 자산으로 표시됩니다. 이는 Amazon DataZone이 Lake Formation에서 권한을 관리하여 재무 팀의 프로젝트에 이 데이터 자산에 대한 액세스 권한을 부여할 수 있음을 의미합니다.

  1. 액세스 요청 이유를 입력하고 선택하세요. 확인.

액세스 요청 승인

영업팀은 재무팀의 액세스 요청이 제출되었다는 알림을 받습니다. 요청을 승인하려면 다음 단계를 완료하세요.

  1. 프로젝트 이름 옆에 있는 드롭다운 메뉴를 선택하고 판매 생산자 프로젝트.

이제 귀하는 영업 데이터 자산의 소유자이자 관리자인 영업팀의 페르소나를 가정합니다.

  1. DataZone 포털의 오른쪽 상단에 있는 알림 아이콘을 선택합니다.
  2. 선택 구독 요청이 생성되었습니다. 작업.
  3. 재무팀에 판매 데이터 자산에 대한 액세스 권한을 부여하고 다음을 선택하세요. 승인.

데이터 분석

이제 재무팀에는 판매 데이터에 대한 액세스 권한이 부여되었으며 이 데이터 세트는 Amazon DataZone 환경에 있었습니다. 환경에 액세스하고 현재 소유하고 있는 다른 데이터 세트와 함께 Athena를 사용하여 판매 데이터 세트를 쿼리할 수 있습니다. 다음 단계를 완료하세요.

  1. 드롭다운 메뉴에서 다음을 선택하세요. 금융 소비자 프로젝트.

프로젝트 개요 화면의 오른쪽 창에서 사용 가능한 활성 환경 목록을 찾을 수 있습니다.

  1. Amazon DataZone 환경 선택 finance_dz_environment.
  2. 탐색 창의 데이터 자산선택한다. 가입.
  3. 이제 귀하의 환경에서 판매 데이터에 액세스할 수 있는지 확인하십시오.

데이터 자산이 환경에 자동으로 추가되는 데 몇 분 정도 걸릴 수 있습니다.

  1. 새 탭 아이콘을 선택하세요. 쿼리 데이터.

Athena 쿼리 편집기가 포함된 새 탭이 열립니다.

  1. 럭셔리 데이터베이스선택한다. finance_consumer_db_tickitdb-<suffix>.

이 데이터베이스에는 귀하가 구독한 데이터 자산이 포함됩니다.

  1. 옵션 메뉴(세로 점 3개)를 선택하고 다음을 선택하여 판매 테이블 미리보기를 생성합니다. 테이블 미리보기.

정리

자원을 정리하려면 다음 단계를 완료하십시오.

  1. CloudFormation 스택을 배포하는 데 사용한 관리자 역할로 다시 전환합니다.
  2. Amazon DataZone 콘솔에서, 프로젝트 삭제 이번 포스팅에 사용되었습니다. 이렇게 하면 데이터 자산 및 환경과 같은 대부분의 프로젝트 관련 개체가 삭제됩니다.
  3. AWS CloudFormation 콘솔에서 이 게시물의 시작 부분에서 배포한 스택을 삭제하세요.
  4. Amazon S3 콘솔에서 Tickit 데이터 세트가 포함된 S3 버킷을 삭제합니다.
  5. Lake Formation 콘솔에서 Amazon DataZone에 등록된 Lake Formation 관리자를 삭제합니다.
  6. Lake Formation 콘솔에서 Amazon DataZone에서 생성된 테이블과 데이터베이스를 삭제합니다.

결론

이 게시물에서는 Amazon DataZone과 Lake Formation 하이브리드 액세스 모드 간의 통합이 어떻게 AWS Glue 데이터 카탈로그에서 데이터의 엔드투엔드 거버넌스를 위해 Amazon DataZone 사용을 시작하는 프로세스를 단순화하는지 논의했습니다. 이 통합은 Amazon DataZone 사용을 시작하기 전에 Lake Formation에 온보딩하는 수동 단계를 우회하는 데 도움이 됩니다.

Amazon DataZone을 시작하는 방법에 대한 자세한 내용은 다음을 참조하십시오. 시작하기 가이드. 체크 아웃 YouTube 재생 목록 Amazon DataZone의 최신 데모와 사용 가능한 기능에 대한 간단한 설명을 확인하세요. Amazon DataZone에 대한 자세한 내용은 다음을 참조하세요. Amazon DataZone이 고객이 데이터의 바다에서 가치를 찾도록 돕는 방법.


저자에 관하여

우트카르시 미탈 AWS의 Amazon DataZone 수석 기술 제품 관리자입니다. 그는 고객의 엔드투엔드 분석 여정을 단순화하는 혁신적인 제품을 구축하는 데 열정을 쏟고 있습니다. 기술 세계 밖에서 Utkarsh는 음악 연주를 좋아하며 드럼이 그의 최근 노력입니다.

프라 빈 쿠마르 클라우드 중심 서비스를 사용하여 최신 데이터 및 분석 플랫폼을 설계, 구축 및 구현하는 데 대한 전문 지식을 갖춘 AWS의 수석 분석 솔루션 설계자입니다. 그의 관심 분야는 서버리스 기술, 최신 클라우드 데이터 웨어하우스, 스트리밍 및 생성 AI 애플리케이션입니다.

폴 빌레나 비즈니스 가치를 창출하기 위한 최신 데이터 및 분석 솔루션 구축에 대한 전문 지식을 갖춘 AWS의 수석 분석 솔루션 아키텍트입니다. 그는 고객과 협력하여 고객이 클라우드의 강력한 기능을 활용할 수 있도록 돕습니다. 관심 분야는 코드형 인프라, 서버리스 기술, Python 코딩입니다.

spot_img

최신 인텔리전스

spot_img