제퍼넷 로고

Amazon Redshift와 Amazon Aurora MySQL Zero-ETL 통합을 위한 데이터 필터링 발표 | 아마존 웹 서비스

시간

조직이 점점 더 데이터 중심으로 변하고 데이터를 경쟁 우위의 소스로 사용함에 따라 데이터에 대한 분석을 실행하여 매출 증대, 비용 절감 및 비즈니스 최적화를 위한 핵심 비즈니스 동인을 더 잘 이해하고 싶을 것입니다. 운영 데이터에 대한 분석을 실행하려면 데이터베이스, 데이터 웨어하우스, ETL(추출, 변환 및 로드) 파이프라인이 결합된 솔루션을 구축할 수 있습니다. ETL은 데이터 엔지니어가 다양한 소스의 데이터를 결합하는 데 사용하는 프로세스입니다.

트랜잭션 데이터베이스와 데이터 웨어하우스 간의 ETL 파이프라인을 구축하고 유지 관리하는 데 드는 노력을 줄이기 위해 AWS는 발표했습니다. Amazon Redshift와 Amazon Aurora 제로 ETL 통합 at AWS re : Invent 2022 이제 일반 공급(GA)이 가능합니다. Amazon Aurora MySQL 호환 에디션 3.05.0.

AWS는 이제 제로 ETL 통합에 대한 데이터 필터링을 발표합니다. 이를 통해 Amazon Aurora MySQL과 Amazon Aurora MySQL 간의 제로 ETL 통합 시 데이터베이스 인스턴스에서 선택적인 데이터를 가져올 수 있습니다. 아마존 레드 시프트. 이 기능을 사용하면 분석 사용 사례를 위해 Redshift 데이터 웨어하우스에 복제할 개별 데이터베이스와 테이블을 선택할 수 있습니다.

이 게시물에서는 이 기능을 사용할 수 있는 사용 사례에 대한 개요를 제공하고 이 기능을 사용하여 거의 실시간 운영 분석을 시작하는 방법에 대한 단계별 지침을 제공합니다.

데이터 필터링 사용 사례

데이터 필터링을 사용하면 Amazon Aurora MySQL에서 Amazon Redshift로 복제할 데이터베이스와 테이블을 선택할 수 있습니다. 제로 ETL 통합에 여러 필터를 적용하여 특정 요구 사항에 맞게 복제를 조정할 수 있습니다. 데이터 필터링은 다음 중 하나를 적용합니다. exclude or include 필터 규칙을 적용하고 정규식을 사용하여 여러 데이터베이스 및 테이블을 일치시킬 수 있습니다.

이 섹션에서는 데이터 필터링의 몇 가지 일반적인 사용 사례에 대해 설명합니다.

PII 데이터가 포함된 테이블을 복제에서 제외하여 데이터 보안 향상

운영 데이터베이스에는 개인 식별 정보(PII)가 포함되는 경우가 많습니다. 이는 본질적으로 민감한 정보이며 우편 주소, 고객 확인 문서 또는 신용 카드 정보와 같은 정보가 포함될 수 있습니다.

엄격한 보안 준수 규정으로 인해 분석 사용 사례에 PII를 사용하지 않을 수도 있습니다. 데이터 필터링을 사용하면 PII 데이터가 포함된 데이터베이스나 테이블을 필터링하여 Amazon Redshift로의 복제에서 제외할 수 있습니다. 이를 통해 데이터 보안과 분석 워크로드 규정 준수가 향상됩니다.

특정 사용 사례에 필요한 테이블을 복제하여 스토리지 비용을 절감하고 분석 워크로드를 관리하세요.

운영 데이터베이스에는 분석에 유용하지 않은 다양한 데이터 세트가 포함되어 있는 경우가 많습니다. 여기에는 보충 데이터, 특정 애플리케이션 데이터, 다양한 애플리케이션에 대한 동일한 데이터 세트의 여러 복사본이 포함됩니다.

또한 다양한 Redshift 웨어하우스에서 다양한 사용 사례를 구축하는 것이 일반적입니다. 이 아키텍처에서는 개별 엔드포인트에서 다양한 데이터 세트를 사용할 수 있어야 합니다.

데이터 필터링을 사용하면 사용 사례에 필요한 데이터 세트만 복제할 수 있습니다. 이를 통해 사용되지 않는 데이터를 저장할 필요가 없어 비용을 절감할 수 있습니다.

기존의 제로 ETL 통합을 수정하여 원하는 경우 더 제한적인 데이터 복제를 적용할 수도 있습니다. 기존 통합에 데이터 필터를 추가하면 Aurora는 새 필터로 복제되는 데이터를 완전히 재평가합니다. 그러면 대상 Redshift 엔드포인트에서 새로 필터링된 데이터가 제거됩니다.

Amazon Redshift와의 Aurora zero-ETL 통합 할당량에 대한 자세한 내용은 다음을 참조하십시오. 할당량.

소규모 데이터 복제로 시작하고 필요에 따라 점진적으로 테이블을 추가합니다.

Amazon Redshift에서 더 많은 분석 사용 사례가 개발됨에 따라 개별 제로 ETL 복제에 더 많은 테이블을 추가할 수 있습니다. 향후 사용 가능성을 충족하기 위해 모든 테이블을 Amazon Redshift에 복제하는 대신, 데이터 필터링을 사용하면 Aurora 데이터베이스의 테이블 하위 집합으로 소규모로 시작하고 필요에 따라 필터에 더 많은 테이블을 점진적으로 추가할 수 있습니다. .

제로 ETL 통합의 데이터 필터가 업데이트되면 Aurora는 이전 필터가 존재하지 않는 것처럼 전체 필터를 완전히 재평가하므로 이전에 복제된 테이블을 사용하는 워크로드는 새 테이블 추가 시 영향을 받지 않습니다.

복제 프로세스의 로드 밸런싱을 통해 개별 워크로드 성능 향상

대규모 트랜잭션 데이터베이스의 경우 복제 및 다운스트림 처리를 여러 Redshift 클러스터에 로드 밸런싱하여 개별 Redshift 엔드포인트에 대한 컴퓨팅 요구 사항을 줄이고 워크로드를 여러 엔드포인트로 분할하는 기능을 허용해야 할 수 있습니다. 여러 Redshift 엔드포인트에 걸쳐 워크로드를 로드 밸런싱함으로써 엔드포인트의 크기가 개별 워크로드에 맞게 적절하게 조정되는 데이터 메시 아키텍처를 효과적으로 생성할 수 있습니다. 이렇게 하면 성능이 향상되고 전체 비용이 낮아질 수 있습니다.

데이터 필터링을 사용하면 서로 다른 데이터베이스와 테이블을 복제하여 Redshift 엔드포인트를 분리할 수 있습니다.

다음 그림은 제로 ETL 통합에서 데이터 필터를 사용하여 Aurora의 여러 데이터베이스를 분할하여 Redshift 엔드포인트를 분리하는 방법을 보여줍니다.

사용 사례 예시

고려하다 티켓 데이터 베이스. TICKIT 샘플 데이터베이스에는 사용자가 다양한 이벤트 티켓을 구매하고 판매할 수 있는 가상 회사의 데이터가 포함되어 있습니다. 회사의 비즈니스 분석가는 Aurora MySQL 데이터베이스에 저장된 데이터를 사용하여 다양한 지표를 생성하고 이 분석을 거의 실시간으로 수행하려고 합니다. 이러한 이유로 회사는 제로 ETL을 잠재적인 솔루션으로 식별했습니다.

필요한 데이터 세트를 조사하는 동안 회사의 분석가는 사용자 테이블에 분석 요구 사항에 유용하지 않은 고객 사용자 정보에 대한 개인 정보가 포함되어 있다는 점에 주목했습니다. 따라서 그들은 사용자 테이블을 제외한 모든 데이터를 복제하기를 원하며 이를 위해 zero-ETL의 데이터 필터링을 사용할 것입니다.

설정

다음 단계에 따라 시작하세요. Amazon Redshift와 Amazon Aurora zero-ETL 통합을 사용하여 거의 실시간 운영 분석을 위한 시작 안내서 새로운 Aurora MySQL 데이터베이스를 생성하려면, Amazon Redshift 서버리스 엔드포인트 및 제로 ETL 통합. 그런 다음 Redshift 쿼리 편집기 v2를 열고 다음 쿼리를 실행하여 사용자 테이블의 데이터가 성공적으로 복제되었음을 표시합니다.

select * from aurora_zeroetl.demodb.users;

데이터 필터

데이터 필터는 제로 ETL 통합에 직접 적용됩니다. Amazon 관계형 데이터베이스 서비스 (아마존 RDS). 단일 통합에 대해 여러 필터를 정의할 수 있으며, 각 필터는 다음 중 하나로 정의됩니다. Include or Exclude 필터 유형. 데이터 필터는 기존 및 향후 데이터베이스 테이블에 패턴을 적용하여 적용해야 할 필터를 결정합니다.

데이터 필터 적용

필터를 적용하여 제거하려면 users Zero-ETL 통합의 테이블에서 다음 단계를 완료하세요.

  1. Amazon RDS 콘솔에서 다음을 선택합니다. 제로 ETL 통합 탐색 창에서
  2. 필터를 추가할 제로 ETL 통합을 선택합니다.

기본 필터는 다음으로 표시되는 모든 데이터베이스와 테이블을 포함하는 것입니다. include:*.* 필터.

  1. 왼쪽 메뉴에서 수정.
  2. 왼쪽 메뉴에서 필터 추가 FBI 증오 범죄 보고서 출처 안내
  3. 럭셔리 필터 유형 선택선택한다. 제외.
  4. 럭셔리 필터 표현식, 표현식을 입력하세요 demodb.users.

필터 표현식 순서가 중요합니다. 필터는 왼쪽에서 오른쪽, 위에서 아래로 평가되며 후속 필터는 이전 필터를 재정의합니다. 이 예에서 Aurora는 모든 테이블이 포함되어야 하는지(필터 1) 평가한 다음 demodb.users 테이블은 제외되어야 합니다(필터 2). 따라서 제외 필터는 포함 필터 뒤에 있으므로 포함을 재정의합니다.

  1. 왼쪽 메뉴에서 계속.
  2. 변경 사항을 검토하고 필터 순서가 올바른지 확인한 후 다음을 선택하세요. 변경 사항을 저장.

통합이 추가되고 수정 변경 사항이 적용될 때까지 상태를 유지합니다. 이 작업에는 최대 30분이 소요될 수 있습니다. 변경 사항 적용이 완료되었는지 확인하려면 zero-ETL 통합을 선택하고 상태를 확인하세요. 다음과 같이 표시되면 최근활동, 변경사항이 적용되었습니다.

변경 사항 확인

제로 ETL 통합이 업데이트되었는지 확인하려면 다음 단계를 완료하세요.

  1. Redshift 쿼리 편집기 v2에서 Redshift 클러스터에 연결합니다.
  2. 선택(마우스 오른쪽 버튼 클릭) aurora-zeroetl 귀하가 생성한 데이터베이스를 선택하고 새로 고침.
  3. 펼치기 demodbTables.

XNUMXD덴탈의 users 테이블이 복제에서 제거되었기 때문에 더 이상 사용할 수 없습니다. 다른 테이블은 모두 아직 이용 가능합니다.

  1. 이전과 동일한 SELECT 문을 실행하면 개체가 데이터베이스에 존재하지 않는다는 오류가 표시됩니다.
    select * from aurora_zeroetl.demodb.users;

AWS CLI를 사용하여 데이터 필터 적용

이제 회사의 비즈니스 분석가는 Aurora MySQL 데이터베이스에 더 많은 데이터베이스가 추가되고 있다는 사실을 이해하고 있으며, demodb 데이터베이스는 Redshift 클러스터에 복제됩니다. 이를 위해 제로 ETL 통합에 대한 필터를 다음과 같이 업데이트하려고 합니다. AWS 명령 줄 인터페이스 (AWS CLI).

AWS CLI를 사용하여 제로 ETL 통합에 데이터 필터를 추가하려면 다음을 호출하면 됩니다. 수정-통합 명령. 통합 식별자 외에도 --data-filter 쉼표로 구분된 목록이 있는 매개변수 includeexclude 필터.

제로 ETL 통합에서 필터를 변경하려면 다음 단계를 완료하십시오.

  1. AWS CLI가 설치된 터미널을 엽니다.
  2. 사용 가능한 모든 통합을 나열하려면 다음 명령을 입력하십시오.
    aws rds describe-integrations

  3. 업데이트하려는 통합을 찾아 통합 식별자를 복사하세요.

통합 식별자는 통합 ARN 끝에 있는 영숫자 문자열입니다.

  1. 다음 명령을 실행하여 업데이트합니다. 이전 단계에서 복사한 식별자를 사용합니다.
    aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude: demodb.users'

Aurora가 이 필터를 평가할 때 기본적으로 모든 항목을 제외하고 다음 항목만 포함합니다. demodb 데이터베이스이지만 제외 demodb.users 테이블.

데이터 필터는 데이터베이스와 테이블에 대한 정규식을 구현할 수 있습니다. 예를 들어 다음으로 시작하는 테이블을 필터링하려는 경우 user, 다음을 실행할 수 있습니다.

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude *./^user/'

이전 필터 변경과 마찬가지로 통합이 추가되고 수정 변경 사항이 적용될 때까지 상태를 유지합니다. 이 작업에는 최대 30분이 소요될 수 있습니다. 다음과 같이 표시되면 최근활동, 변경사항이 적용되었습니다.

정리

제로 ETL 통합에 추가된 필터를 제거하려면 다음 단계를 완료하십시오.

  1. Amazon RDS 콘솔에서 다음을 선택합니다. 제로 ETL 통합 탐색 창에서
  2. 제로 ETL 통합을 선택하세요.
  3. 왼쪽 메뉴에서 수정.
  4. 왼쪽 메뉴에서 제거 제거하려는 필터 옆에 있습니다.
  5. 또한 변경할 수 있습니다 제외 필터 유형 포함.

또는 AWS CLI를 사용하여 다음을 실행할 수 있습니다.

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'include: *.*'

  1. 왼쪽 메뉴에서 계속.
  2. 왼쪽 메뉴에서 변경 사항을 저장.

데이터 필터가 변경 사항을 적용하는 데 최대 30분이 소요됩니다. 데이터 필터를 제거한 후 Aurora는 제거된 필터가 존재하지 않았던 것처럼 나머지 필터를 재평가합니다. 이전에는 필터링 기준과 일치하지 않았지만 지금은 일치하는 모든 데이터가 대상 Redshift 데이터 웨어하우스에 복제됩니다.

결론

이 게시물에서는 Amazon Aurora MySQL에서 Amazon Redshift로의 Aurora zero-ETL 통합에서 데이터 필터링을 설정하는 방법을 보여 드렸습니다. 이를 통해 필요한 데이터만 복제하면서 트랜잭션 및 운영 데이터에 대해 거의 실시간 분석을 수행할 수 있습니다.

데이터 필터링을 사용하면 워크로드를 별도의 Redshift 엔드포인트로 분할하고, 프라이빗 또는 기밀 데이터 세트의 복제를 제한하고, 필요한 데이터 세트만 복제하여 워크로드 성능을 높일 수 있습니다.

Amazon Redshift와 Aurora zero-ETL 통합에 대해 자세히 알아보려면 다음을 참조하십시오. Amazon Redshift와 Aurora zero-ETL 통합 작업제로 ETL 통합 작업.


저자 소개

죠티 아가르왈 AWS zero-ETL의 제품 관리 책임자입니다. 그녀는 성능, 고객 경험 및 보안에 관한 이니셔티브 추진을 포함하여 제품 및 비즈니스 전략을 이끌고 있습니다. 그녀는 클라우드 컴퓨팅, 데이터 파이프라인, 분석, 인공 지능(AI) 및 데이터베이스, 데이터 웨어하우스, 데이터 레이크를 포함한 데이터 서비스 분야의 전문 지식을 활용합니다.


숀 베스
Amazon Web Services의 분석 솔루션 설계자입니다. 그는 AWS 서비스를 사용한 데이터 플랫폼 현대화의 전체 제공 수명 주기에 대한 경험이 있으며 고객과 협력하여 AWS에서 분석 가치를 창출하도록 돕습니다.

고쿨 사운드 다 라라 잔 AWS의 수석 엔지니어이며 토론토 대학교에서 박사 학위를 받았으며 스토리지, 데이터베이스 및 분석 분야에서 일하고 있습니다.

spot_img

최신 인텔리전스

spot_img