Amazon DataZone, 이제 AWS Glue 데이터 품질 및 외부 데이터 품질 솔루션과 통합

오늘 우리는 다음과 같은 사실을 발표하게 되어 기쁘게 생각합니다. 아마존 데이터존 이제 데이터 자산에 대한 데이터 품질 정보를 제공할 수 있습니다. 이 정보를 통해 최종 사용자는 특정 자산을 사용할지 여부에 대해 정보에 입각한 결정을 내릴 수 있습니다.

이미 많은 조직에서 사용하고 있는 AWS Glue 데이터 품질 데이터에 대한 데이터 품질 규칙을 정의하고 시행합니다. 사전 정의된 규칙에 따라 데이터 유효성을 검사합니다., 데이터 품질 측정항목 추적 인공 지능(AI)을 사용하여 시간 경과에 따른 데이터 품질 모니터링. 다른 조직에서는 타사 솔루션을 통해 데이터 품질을 모니터링합니다.

Amazon DataZone은 이제 AWS Glue와 직접 통합되어 AWS Glue 데이터 카탈로그 자산에 대한 데이터 품질 점수를 표시합니다. 또한 Amazon DataZone은 이제 외부 시스템에서 데이터 품질 점수를 가져오기 위한 API를 제공합니다.

이 게시물에서는 데이터 품질을 위한 Amazon DataZone의 최신 기능, Amazon DataZone과 AWS Glue 데이터 품질 간의 통합, 외부 시스템에서 생성된 데이터 품질 점수를 API를 통해 Amazon DataZone으로 가져오는 방법에 대해 설명합니다.

도전

고객으로부터 받는 가장 일반적인 질문 중 하나는 Amazon DataZone 비즈니스 데이터 카탈로그 비즈니스 사용자가 데이터 세트의 상태와 안정성을 확인할 수 있도록 합니다.

비즈니스 결정을 내리는 데 데이터가 점점 더 중요해짐에 따라 Amazon DataZone 사용자는 최고 수준의 데이터 품질을 제공하는 데 큰 관심을 갖고 있습니다. 이들은 정보에 입각한 의사결정을 지원하고 분석 및 보고 프로세스에 대한 신뢰를 조성하는 데 있어 정확하고 완전하며 시의적절한 데이터의 중요성을 인식하고 있습니다.

Amazon DataZone 데이터 자산은 다양한 빈도로 업데이트될 수 있습니다. 데이터가 새로 고쳐지고 업데이트되면 의도한 품질을 유지하지 못할 위험에 처하게 하는 업스트림 프로세스를 통해 변경이 발생할 수 있습니다. 데이터 품질 점수는 데이터가 (분석 또는 다운스트림 프로세스를 통해) 데이터 소비자가 사용할 것으로 예상되는 품질 수준을 유지했는지 이해하는 데 도움이 됩니다.

생산자의 관점에서 데이터 관리자는 이제 AWS Glue 데이터 품질(예약 또는 요청 시)에서 데이터 품질 점수를 자동으로 가져오고 이 정보를 Amazon DataZone 카탈로그에 포함하여 비즈니스 사용자와 공유하도록 Amazon DataZone을 설정할 수 있습니다. 또한 이제 새로운 Amazon DataZone API를 사용하여 외부 시스템에서 생성된 데이터 품질 점수를 데이터 자산으로 가져올 수 있습니다.

최신 개선 사항을 통해 Amazon DataZone 사용자는 이제 다음을 수행할 수 있습니다.

Amazon DataZone 웹 포털에서 직접 데이터 품질 표준에 대한 통찰력에 액세스
데이터 완전성, 고유성, 정확성 등 다양한 KPI에 대한 데이터 품질 점수를 확인하세요.
사용자가 데이터의 품질과 신뢰성에 대해 전체적인 시각을 가질 수 있도록 하세요.

이 게시물의 첫 번째 부분에서는 AWS Glue 데이터 품질과 Amazon DataZone 간의 통합을 안내합니다. Amazon DataZone에서 데이터 품질 점수를 시각화하고, 새로운 Amazon DataZone 데이터 소스를 생성할 때 AWS Glue 데이터 품질을 활성화하고, 기존 데이터 자산에 대한 데이터 품질을 활성화하는 방법을 논의합니다.

이 게시물의 두 번째 부분에서는 API를 통해 외부 시스템에서 생성된 데이터 품질 점수를 Amazon DataZone으로 가져오는 방법에 대해 설명합니다. 이 예에서는 Amazon EMR 서버리스 오픈소스 라이브러리와 결합 피데쿠 데이터 품질을 위한 외부 시스템 역할을 합니다.

Amazon DataZone에서 AWS Glue 데이터 품질 점수 시각화

이제 Amazon DataZone 비즈니스 카탈로그에 게시되고 Amazon DataZone 웹 포털을 통해 검색할 수 있는 데이터 자산의 AWS Glue 데이터 품질 점수를 시각화할 수 있습니다.

자산에 AWS Glue 데이터 품질이 활성화된 경우 이제 카탈로그 검색 창에서 직접 데이터 품질 점수를 빠르게 시각화할 수 있습니다.

해당 자산을 선택하면 Readme를 통해 해당 자산의 내용을 이해할 수 있으며, 용어집및 기술 및 비즈니스 메타데이터. 또한 전반적인 품질평가점수 표시기가 자산 세부 정보 안내

데이터 품질 점수는 정의한 규칙을 기반으로 계산되어 데이터 세트 품질의 전반적인 지표 역할을 합니다.

에 데이터 품질 탭에서는 데이터 품질 개요 지표의 세부정보와 데이터 품질 실행 결과에 액세스할 수 있습니다.

에 표시된 표시기는 살펴보기 탭은 데이터 품질 실행의 규칙 세트 결과를 기반으로 계산됩니다.

각 규칙에는 지표 계산에 기여하는 속성이 할당됩니다. 예를 들어 다음과 같은 규칙이 있습니다. Completeness 속성은 해당 지표의 계산에 기여합니다. 살펴보기 탭.

데이터 품질 결과를 필터링하려면 해당란 드롭다운 메뉴를 클릭하고 원하는 필터 매개변수를 선택하세요.

또한 개요 탭.

자산에 대해 데이터 품질이 활성화되면 데이터 품질 결과를 사용할 수 있게 되어 데이터세트 내 각 열의 무결성과 신뢰성을 반영하는 통찰력 있는 품질 점수를 제공합니다.

데이터 품질 결과 링크 중 하나를 선택하면 선택한 열을 기준으로 필터링된 데이터 품질 세부정보 페이지로 리디렉션됩니다.

Amazon DataZone의 데이터 품질 기록 결과

데이터 품질은 다음과 같은 여러 가지 이유로 시간이 지남에 따라 변할 수 있습니다.

소스 시스템의 변경으로 인해 데이터 형식이 변경될 수 있습니다.
시간이 지남에 따라 데이터가 누적되면 오래되거나 일관성이 없게 될 수 있습니다.
데이터 품질은 데이터 입력, 데이터 처리 또는 데이터 조작 시 사람의 실수로 인해 영향을 받을 수 있습니다.

Amazon DataZone에서는 이제 시간 경과에 따른 데이터 품질을 추적하여 안정성과 정확성을 확인할 수 있습니다. 기록 보고서 스냅샷을 분석하여 개선이 필요한 영역을 식별하고, 변경 사항을 구현하고, 해당 변경 사항의 효율성을 측정할 수 있습니다.

새로운 Amazon DataZone 데이터 소스 생성 시 AWS Glue 데이터 품질 활성화

이 섹션에서는 새로운 Amazon DataZone 데이터 소스를 생성할 때 AWS Glue 데이터 품질을 활성화하는 단계를 안내합니다.

사전 조건

계속하려면 Amazon DataZone용 도메인, Amazon DataZone 프로젝트 및 새 도메인이 있어야 합니다. Amazon DataZone 환경 (와 DataLakeProfile). 지침은 다음을 참조하세요. AWS Glue 데이터를 사용한 Amazon DataZone 빠른 시작.

또한 데이터에 대해 AWS Glue 데이터 품질의 데이터 품질 규칙 세트인 규칙 세트를 정의하고 실행해야 합니다. 데이터 품질 규칙을 설정하고 주제에 대한 자세한 내용을 보려면 다음 게시물을 참조하세요.

데이터 품질 규칙을 생성한 후 Amazon DataZone에 다음을 통해 관리되는 AWS Glue 데이터베이스에 액세스할 수 있는 권한이 있는지 확인하십시오. AWS Lake 형성. 지침은 Amazon DataZone에 대한 Lake Formation 권한 구성.

이 예에서는 환자 데이터가 포함된 테이블에 대해 규칙 세트를 구성했습니다. 의료 합성 데이터세트 사용하여 생성 신시아. Synthea는 의료 소프트웨어 애플리케이션 테스트에 사용할 수 있는 현실적인 환자 데이터 및 관련 의료 기록을 생성하는 합성 환자 생성기입니다.

규칙 세트에는 27개의 개별 규칙(그 중 하나는 실패)이 포함되어 있으므로 전체 데이터 품질 점수는 96%입니다.

Amazon DataZone 관리형 정책을 사용하는 경우 필요한 작업으로 자동 업데이트되므로 별도의 조치가 필요하지 않습니다. 그렇지 않으면 다음과 같이 Amazon DataZone이 AWS Glue 데이터 품질 결과를 나열하고 가져오는 데 필요한 권한을 갖도록 허용해야 합니다. Amazon DataZone 사용 설명서.

데이터 품질이 활성화된 데이터 원본 만들기

이 섹션에서는 데이터 소스를 생성하고 데이터 품질을 활성화합니다. 기존 데이터 원본을 업데이트하여 데이터 품질을 활성화할 수도 있습니다. 우리는 이 데이터 소스를 사용하여 데이터 세트와 관련된 메타데이터 정보를 가져옵니다. Amazon DataZone은 데이터 소스에 포함된 (하나 이상의) 자산과 관련된 데이터 품질 정보도 가져옵니다.

Amazon DataZone 콘솔에서 다음을 선택합니다. 데이터 소스 탐색 창에서
왼쪽 메뉴에서 데이터 소스 생성.
럭셔리 성함, 데이터 소스의 이름을 입력합니다.
럭셔리 데이터 소스 유형, 고르다 AWS 접착제.
럭셔리 환경, 환경을 선택하세요.
럭셔리 데이터베이스 이름에서 데이터베이스 이름을 입력합니다.
럭셔리 테이블 선택 기준, 기준을 선택하세요.
왼쪽 메뉴에서 다음 보기.
럭셔리 데이터 품질, 고르다 이 데이터 소스에 대한 데이터 품질을 활성화합니다..

데이터 품질이 활성화되면 Amazon DataZone은 각 데이터 소스 실행 시 AWS Glue에서 자동으로 데이터 품질 점수를 가져옵니다.

왼쪽 메뉴에서 다음 보기.

이제 데이터 소스를 실행할 수 있습니다.

데이터 소스를 실행하는 동안 Amazon DataZone은 최근 100개의 AWS Glue 데이터 품질 실행 결과를 가져옵니다. 이 정보는 이제 자산 페이지에 표시되며 자산을 게시한 후 모든 Amazon DataZone 사용자에게 표시됩니다.

기존 데이터 자산에 대한 데이터 품질 활성화

이 섹션에서는 기존 자산에 대한 데이터 품질을 활성화합니다. 이는 이미 데이터 소스가 있고 나중에 이 기능을 활성화하려는 사용자에게 유용할 수 있습니다.

사전 조건

계속하려면 이미 데이터 소스를 실행하고 AWS Glue 테이블 데이터 자산을 생성했어야 합니다. 또한 데이터 카탈로그의 대상 테이블에 대해 AWS Glue 데이터 품질의 규칙 세트를 정의했어야 합니다.

이 예에서는 다음 스크린샷과 같이 테이블에 대해 데이터 품질 작업을 여러 번 실행하여 관련 AWS Glue 데이터 품질 점수를 생성했습니다.

데이터 품질 점수를 데이터 자산으로 가져오기

기존 AWS Glue 데이터 품질 점수를 Amazon DataZone의 데이터 자산으로 가져오려면 다음 단계를 완료하십시오.

Amazon DataZone 프로젝트 내에서 재고 데이터 창을 클릭하고 데이터 소스를 선택합니다.

당신이 데이터 품질 탭을 보면 이 데이터 자산에 대해 AWS Glue 데이터 품질 통합이 아직 활성화되지 않았기 때문에 데이터 품질에 대한 정보가 아직 없다는 것을 알 수 있습니다.

에 데이터 품질 탭에서 데이터 품질 활성화.
. 데이터 품질 섹션에서 선택 이 데이터 소스에 대한 데이터 품질을 활성화합니다..
왼쪽 메뉴에서 찜하기.

이제 인벤토리 데이터 창으로 돌아가서 새 탭을 볼 수 있습니다. 데이터 품질.

에 데이터 품질 탭에서는 AWS Glue 데이터 품질에서 가져온 데이터 품질 점수를 볼 수 있습니다.

Amazon DataZone API를 사용하여 외부 소스에서 데이터 품질 점수 수집

많은 조직에서는 이미 데이터 세트에 대한 테스트와 주장을 수행하여 데이터 품질을 계산하는 시스템을 사용하고 있습니다. Amazon DataZone은 이제 타사에서 생성된 데이터 품질 점수 가져오기를 지원합니다. API, 웹 포털을 탐색하는 사용자가 이 정보를 볼 수 있도록 허용합니다.

이 섹션에서는 API를 통해 Amazon DataZone에 데이터 품질 점수를 푸시하는 타사 시스템을 시뮬레이션합니다. 보토3 (AWS용 Python SDK).

이 예에서는 동일한 것을 사용합니다. 합성 데이터 세트 이전과 같이 생성됨 신시아.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

워크플로는 다음 단계로 구성됩니다.

다음 환자의 데이터세트를 읽어보세요. 아마존 단순 스토리지 서비스 (Amazon S3) Spark를 사용하여 Amazon EMR에서 직접.

데이터 세트는 Amazon DataZone에서 일반 S3 자산 컬렉션으로 생성됩니다.

Amazon EMR에서 데이터 세트에 대해 데이터 검증 규칙을 수행합니다.
지표는 Amazon S3에 저장되어 지속적인 출력을 제공합니다.
Boto3를 통해 Amazon DataZone API를 사용하여 사용자 지정 데이터 품질 메타데이터를 푸시합니다.
최종 사용자는 데이터 포털로 이동하여 데이터 품질 점수를 확인할 수 있습니다.

사전 조건

우리는 사용 Amazon EMR 서버리스 그리고 Pydeequ은 완전관리형을 실행하기 위해 불꽃 환경. 데이터 테스트 프레임워크인 Pydeequ에 대해 자세히 알아보려면 다음을 참조하세요. Pydeequ를 사용하여 대규모로 데이터 품질 테스트.

Amazon EMR이 Amazon DataZone 도메인으로 데이터를 보내도록 허용하려면 Amazon EMR에서 사용하는 IAM 역할에 다음을 수행할 수 있는 권한이 있는지 확인하십시오.

S3 버킷에서 읽고 쓰기

전화 post_time_series_data_points Amazon DataZone에 대한 작업:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "Statement1",
            "Effect": "Allow",
            "Action": [
                "datazone:PostTimeSeriesDataPoints"
            ],
            "Resource": [
                "<datazone_domain_arn>"
            ]
        }
    ]
}

EMR 역할을 다음과 같이 추가했는지 확인하십시오. 프로젝트 멤버 Amazon DataZone 프로젝트에서. Amazon DataZone 콘솔에서 프로젝트 구성원 페이지를 선택하고 구성원 추가.

EMR 역할을 기여자로 추가합니다.

PySpark 코드 수집 및 분석

이 섹션에서는 데이터 품질 검사를 수행하고 결과를 Amazon DataZone으로 보내는 데 사용하는 PySpark 코드를 분석합니다. 전체를 다운로드할 수 있습니다. 파이스파크 스크립트.

스크립트를 완전히 실행하려면 EMR Serverless에 작업을 제출하면 됩니다. 이 서비스는 작업 일정을 관리하고 필요한 리소스를 자동으로 할당하여 사용자가 작업을 추적할 수 있도록 해줍니다. 작업 실행 상태 과정 전반에 걸쳐.

여러분의 시간과 재능으로 EMR Studio를 사용하여 Amazon EMR 콘솔 내에서 EMR에 작업 제출 또는 프로그래밍 방식으로 AWS CLI 또는 다음 중 하나를 사용하여 AWS SDK.

아파치 스파크에서는 SparkSession DataFrames 및 Spark의 내장 함수와 상호 작용하기 위한 진입점입니다. 스크립트가 초기화를 시작합니다. SparkSession:

with SparkSession.builder.appName("PatientsDataValidation") 
        .config("spark.jars.packages", pydeequ.deequ_maven_coord) 
        .config("spark.jars.excludes", pydeequ.f2j_maven_coord) 
        .getOrCreate() as spark:

Amazon S3에서 데이터 세트를 읽습니다. 모듈성을 높이기 위해 스크립트 입력을 사용하여 S3 경로를 참조할 수 있습니다.

s3inputFilepath = sys.argv[1]
s3outputLocation = sys.argv[2]

df = spark.read.format("csv") 
            .option("header", "true") 
            .option("inferSchema", "true") 
            .load(s3inputFilepath) #s3://<bucket_name>/patients/patients.csv

다음으로 측정항목 저장소를 설정합니다. 이는 Amazon S3에서 실행 결과를 유지하는 데 도움이 될 수 있습니다.

metricsRepository = FileSystemMetricsRepository(spark, s3_write_path)

Pydeequ을 사용하면 잘 알려진 소프트웨어 엔지니어링 설계 패턴인 빌더 패턴을 사용하여 데이터 품질 규칙을 생성하고 명령을 연결하여 인스턴스화할 수 있습니다. VerificationSuite 목적:

key_tags = {'tag': 'patient_df'}
resultKey = ResultKey(spark, ResultKey.current_milli_time(), key_tags)

check = Check(spark, CheckLevel.Error, "Integrity checks")

checkResult = VerificationSuite(spark) 
    .onData(df) 
    .useRepository(metricsRepository) 
    .addCheck(
        check.hasSize(lambda x: x >= 1000) 
        .isComplete("birthdate")  
        .isUnique("id")  
        .isComplete("ssn") 
        .isComplete("first") 
        .isComplete("last") 
        .hasMin("healthcare_coverage", lambda x: x == 1000.0)) 
    .saveOrAppendResult(resultKey) 
    .run()

checkResult_df = VerificationResult.checkResultsAsDataFrame(spark, checkResult)
checkResult_df.show()

다음은 데이터 유효성 검사 규칙에 대한 출력입니다.

+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+
|check           |check_level|check_status|constraint                                          |constraint_status|constraint_message                                  |
+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+
|Integrity checks|Error      |Error       |SizeConstraint(Size(None))                          |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(birthdate,None))|Success          |                                                    |
|Integrity checks|Error      |Error       |UniquenessConstraint(Uniqueness(List(id),None))     |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(ssn,None))      |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(first,None))    |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(last,None))     |Success          |                                                    |
|Integrity checks|Error      |Error       |MinimumConstraint(Minimum(healthcare_coverage,None))|Failure          |Value: 0.0 does not meet the constraint requirement!|
+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+

이제 Amazon DataZone에 이러한 데이터 품질 값을 삽입하려고 합니다. 그렇게 하기 위해 우리는 post_time_series_data_points Boto3 Amazon DataZone 클라이언트의 기능입니다.

XNUMXD덴탈의 PostTimeSeriesDataPoints DataZone API 새 개정을 만들지 않고도 특정 자산이나 목록에 대한 새 시계열 데이터 포인트를 삽입할 수 있습니다.

이 시점에서 API에 대한 입력으로 전송되는 필드에 대한 추가 정보가 필요할 수도 있습니다. 당신은 사용할 수 있습니다 API Amazon DataZone 양식 유형에 대한 사양을 얻으려면 우리의 경우에는 amazon.datazone.DataQualityResultFormType.

AWS CLI를 사용하여 API를 호출하고 양식 구조를 표시할 수도 있습니다.

aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'

이 출력은 필드 및 값 제한을 포함하여 필수 API 매개변수를 식별하는 데 도움이 됩니다.

$version: "2.0"
namespace amazon.datazone
structure DataQualityResultFormType {
    @amazon.datazone#timeSeriesSummary
    @range(min: 0, max: 100)
    passingPercentage: Double
    @amazon.datazone#timeSeriesSummary
    evaluationsCount: Integer
    evaluations: EvaluationResults
}
@length(min: 0, max: 2000)
list EvaluationResults {
    member: EvaluationResult
}

@length(min: 0, max: 20)
list ApplicableFields {
    member: String
}

@length(min: 0, max: 20)
list EvaluationTypes {
    member: String
}

enum EvaluationStatus {
    PASS,
    FAIL
}

string EvaluationDetailType

map EvaluationDetails {
    key: EvaluationDetailType
    value: String
}

structure EvaluationResult {
    description: String
    types: EvaluationTypes
    applicableFields: ApplicableFields
    status: EvaluationStatus
    details: EvaluationDetails
}

적절한 양식 데이터를 보내려면 Pydeequ 출력을 다음과 일치하도록 변환해야 합니다. DataQualityResultsFormType 계약. 이는 결과를 처리하는 Python 함수를 사용하여 달성할 수 있습니다.

각 DataFrame 행에 대해 제약 조건 열에서 정보를 추출합니다. 예를 들어 다음 코드를 사용하세요.

CompletenessConstraint(Completeness(birthdate,None))

우리는 이를 다음과 같이 변환합니다:

{
  "constraint": "CompletenessConstraint",
  "statisticName": "Completeness_custom",
  "column": "birthdate"
}

추적하려는 KPI와 일치하는 출력을 보내십시오. 우리의 경우에는 다음을 추가합니다. _custom KPI 형식은 다음과 같습니다.

Completeness_custom
Uniqueness_custom

실제 시나리오에서는 Amazon DataZone에서 추적하려는 KPI와 관련하여 데이터 품질 프레임워크와 일치하는 값을 설정하려고 할 수 있습니다.

변환 함수를 적용한 후 각 규칙 평가를 위한 Python 객체가 생성됩니다.

..., {
   'applicableFields': ["healthcare_coverage"],
   'types': ["Minimum_custom"],
   'status': 'FAIL',
   'description': 'MinimumConstraint - Minimum - Value: 0.0 does not meet the constraint requirement!'
 },...

우리는 또한 사용 constraint_status 전체 점수를 계산하는 열:

(number of success / total number of evaluation) * 100

이 예에서는 합격률이 85.71%입니다.

우리는 이 값을 passingPercentage Boto3 메서드 입력의 평가와 관련된 기타 정보와 함께 입력 필드 post_time_series_data_points:

import boto3

# Instantiate the client library to communicate with Amazon DataZone Service
#
datazone = boto3.client(
    service_name='datazone', 
    region_name=<Region(String) example: us-east-1>
)

# Perform the API operation to push the Data Quality information to Amazon DataZone
#
datazone.post_time_series_data_points(
    domainIdentifier=<DataZone domain ID>,
    entityIdentifier=<DataZone asset ID>,
    entityType='ASSET',
    forms=[
        {
            "content": json.dumps({
                    "evaluationsCount":<Number of evaluations (number)>,
                    "evaluations": [<List of objects {
                        'description': <Description (String)>,
                        'applicableFields': [<List of columns involved (String)>],
                        'types': [<List of KPIs (String)>],
                        'status': <FAIL/PASS (string)>
                        }>
                     ],
                    "passingPercentage":<Score (number)>
                }),
            "formName": <Form name(String) example: PydeequRuleSet1>,
            "typeIdentifier": "amazon.datazone.DataQualityResultFormType",
            "timestamp": <Date (timestamp)>
        }
    ]
)

Boto3는 Amazon DataZone API. 이 예에서는 Boto3와 Python을 사용했지만 다음 중 하나를 선택할 수 있습니다. AWS SDK 당신이 선호하는 언어로 개발되었습니다.

적절한 도메인과 자산 ID를 설정하고 메서드를 실행한 후 Amazon DataZone 콘솔에서 이제 자산 페이지에 자산 데이터 품질이 표시되는지 확인할 수 있습니다.

전체 점수가 API 입력 값과 일치하는 것을 확인할 수 있습니다. 또한 사용자 정의 유형 매개변수 값을 통해 개요 탭에서 사용자 정의 KPI를 추가할 수 있었던 것을 확인할 수 있습니다.

새로운 Amazon DataZone API를 사용하면 타사 시스템의 데이터 품질 규칙을 특정 데이터 자산에 로드할 수 있습니다. 이 기능을 사용하면 Amazon DataZone을 사용하면 사용자 지정 표시기를 사용하여 AWS Glue 데이터 품질에 있는 표시기 유형(예: 완전성, 최소값, 고유성)을 확장할 수 있습니다.

정리

예상치 못한 비용이 발생하지 않도록 잠재적으로 사용되지 않는 리소스를 삭제하는 것이 좋습니다. 예를 들어 다음을 수행할 수 있습니다. Amazon DataZone 도메인 삭제 그리고 EMR 응용 이 과정에서 생성되었습니다.

결론

이 게시물에서는 데이터 품질을 위한 Amazon DataZone의 최신 기능을 강조하여 최종 사용자에게 데이터 자산에 대한 향상된 컨텍스트와 가시성을 제공합니다. 또한 Amazon DataZone과 AWS Glue 데이터 품질 간의 원활한 통합에 대해서도 조사했습니다. 또한 Amazon DataZone API를 사용하여 외부 데이터 품질 공급자와 통합하면 AWS 환경 내에서 포괄적이고 강력한 데이터 전략을 유지할 수 있습니다.

Amazon DataZone에 대해 자세히 알아보려면 다음을 참조하세요. Amazon DataZone 사용 설명서.

저자에 관하여

안드레아 필리포 이탈리아의 공공 부문 파트너와 고객을 지원하는 AWS의 파트너 솔루션 아키텍트입니다. 그는 최신 데이터 아키텍처에 중점을 두고 고객이 서버리스 기술을 통해 클라우드 여정을 가속화할 수 있도록 지원합니다.

에마누엘레 스페인에서 5년 이상 거주하고 근무한 후 이탈리아에 본사를 둔 AWS의 솔루션스 아키텍트입니다. 그는 대기업의 클라우드 기술 도입을 돕는 것을 좋아하며, 그의 전문 분야는 주로 데이터 분석 및 데이터 관리에 중점을 두고 있습니다. 업무 외에는 여행과 액션 피규어 수집을 즐깁니다.

바르샤 벨라가푸디 AWS에서 Amazon DataZone의 수석 기술 제품 관리자입니다. 그녀는 데이터 분석에 필요한 데이터 검색 및 큐레이션 개선에 중점을 두고 있습니다. 그녀는 고객의 AI/ML 및 분석 여정을 단순화하여 고객이 일상적인 작업에서 성공할 수 있도록 돕는 데 열정을 쏟고 있습니다. 업무 외에는 자연과 야외 활동, 독서, 여행을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/big-data/amazon-datazone-now-integrates-with-aws-glue-data-quality-and-external-data-quality-solutions/

생성 데이터 인텔리전스

Amazon DataZone, 이제 AWS Glue 데이터 품질 및 외부 데이터 품질 솔루션과 통합 | 아마존 웹 서비스

도전

Amazon DataZone에서 AWS Glue 데이터 품질 점수 시각화

Amazon DataZone의 데이터 품질 기록 결과

새로운 Amazon DataZone 데이터 소스 생성 시 AWS Glue 데이터 품질 활성화

사전 조건

데이터 품질이 활성화된 데이터 원본 만들기

기존 데이터 자산에 대한 데이터 품질 활성화

사전 조건

데이터 품질 점수를 데이터 자산으로 가져오기

Amazon DataZone API를 사용하여 외부 소스에서 데이터 품질 점수 수집

사전 조건

PySpark 코드 수집 및 분석

정리

결론

저자에 관하여

컴퓨팅의 큰 추세가 과학을 어떻게 형성하고 있는지 – 2부 » CCC 블로그

역사: DEA는 마리화나를 Schedule III으로 옮기는 데 동의했습니다.

최신 인텔리전스

일요일 밤 마리화나 체포로 과속 종료를 위한 Berwick 교통 정지 – 의료용 마리화나 프로그램 연결

신흥 시장에서 실시간 결제의 성장

누락된 감마선은 우주선의 기원에 의문을 제기합니다 – 물리학 세계

RIV Capital, 회계 분기 및 9개월 재무 결과 보고

성장한 불량배(Grown Rogue), 감사 재무 결과 보고

자동화된 데이터 캡처 방법 개요