Zephyrnet Logosu

Amazon DataZone artık AWS Glue Veri Kalitesi ve harici veri kalitesi çözümleriyle entegre oluyor | Amazon Web Hizmetleri

Tarih:

Bugün bunu duyurmaktan mutluluk duyuyoruz Amazon Veri Bölgesi artık veri varlıkları için veri kalitesi bilgilerini sunabiliyor. Bu bilgi, son kullanıcılara belirli varlıkları kullanıp kullanmama konusunda bilinçli kararlar verme yetkisi verir.

Birçok kuruluş halihazırda kullanıyor AWS Glue Veri Kalitesi Verileri üzerinde veri kalitesi kurallarını tanımlamak ve uygulamak, verileri önceden tanımlanmış kurallara göre doğrulamak, veri kalitesi ölçümlerini izleyin ve yapay zekayı (AI) kullanarak zaman içindeki veri kalitesini izleyin. Diğer kuruluşlar, verilerinin kalitesini üçüncü taraf çözümler aracılığıyla izliyor.

Amazon DataZone artık AWS Glue Data Catalog varlıklarına ilişkin veri kalitesi puanlarını görüntülemek için doğrudan AWS Glue ile entegre oluyor. Ayrıca Amazon DataZone artık harici sistemlerden veri kalitesi puanlarının içe aktarılmasına yönelik API'ler sunuyor.

Bu yazıda Amazon DataZone'un veri kalitesine yönelik en son özelliklerini, Amazon DataZone ile AWS Glue Veri Kalitesi arasındaki entegrasyonu ve harici sistemler tarafından üretilen veri kalitesi puanlarını API aracılığıyla Amazon DataZone'a nasıl aktarabileceğinizi tartışıyoruz.

Zorluklar

Müşterilerden aldığımız en yaygın sorulardan biri, veri kalitesi puanlarının Amazon DataZone iş verileri kataloğu iş kullanıcılarının veri kümelerinin sağlığı ve güvenilirliği hakkında görünürlüğe sahip olmasını sağlamak.

Veriler iş kararlarını yönlendirmede giderek daha önemli hale geldikçe, Amazon DataZone kullanıcıları en yüksek veri kalitesi standartlarını sağlamaya büyük ilgi gösteriyor. Bilgili karar almanın sağlanmasında ve analitik ve raporlama süreçlerine güvenin artırılmasında doğru, eksiksiz ve zamanlı verilerin öneminin farkındalar.

Amazon DataZone veri varlıkları değişen sıklıklarda güncellenebilir. Veriler yenilendiğinde ve güncellendiğinde, yukarı yöndeki süreçler aracılığıyla, amaçlanan kaliteyi korumama riskiyle karşı karşıya kalabilecek değişiklikler meydana gelebilir. Veri kalitesi puanları, verilerin, veri tüketicilerinin (analiz veya alt süreçler aracılığıyla) kullanması için beklenen kalite düzeyini koruyup korumadığını anlamanıza yardımcı olur.

Üretici açısından bakıldığında, veri yöneticileri artık Amazon DataZone'u, veri kalitesi puanlarını AWS Glue Data Quality'den (planlanmış veya isteğe bağlı) otomatik olarak içe aktaracak şekilde ayarlayabilir ve bu bilgileri iş kullanıcılarıyla paylaşmak üzere Amazon DataZone kataloğuna ekleyebilir. Ayrıca artık harici sistemler tarafından üretilen veri kalitesi puanlarını veri varlıklarına aktarmak için yeni Amazon DataZone API'lerini kullanabilirsiniz.

En son geliştirmeyle Amazon DataZone kullanıcıları artık aşağıdakileri gerçekleştirebilir:

  • Veri kalitesi standartlarına ilişkin içgörülere doğrudan Amazon DataZone web portalından erişin
  • Veri bütünlüğü, benzersizlik ve doğruluk da dahil olmak üzere çeşitli KPI'lardaki veri kalitesi puanlarını görüntüleyin
  • Kullanıcıların, verilerinin kalitesi ve güvenilirliği konusunda bütünsel bir görüşe sahip olduklarından emin olun.

Bu yazının ilk bölümünde AWS Glue Data Quality ile Amazon DataZone arasındaki entegrasyona değineceğiz. Amazon DataZone'da veri kalitesi puanlarının nasıl görselleştirileceğini, yeni bir Amazon DataZone veri kaynağı oluştururken AWS Glue Veri Kalitesinin nasıl etkinleştirileceğini ve mevcut bir veri varlığı için veri kalitesinin nasıl etkinleştirileceğini tartışıyoruz.

Bu yazının ikinci bölümünde, harici sistemler tarafından üretilen veri kalitesi puanlarını API aracılığıyla Amazon DataZone'a nasıl aktarabileceğinizi tartışıyoruz. Bu örnekte şunu kullanıyoruz: Amazon EMR Sunucusuz açık kaynak kitaplığıyla birlikte Pydeequ Veri kalitesi için harici bir sistem görevi görmek.

AWS Glue Veri Kalitesi puanlarını Amazon DataZone'da görselleştirin

Artık Amazon DataZone iş kataloğunda yayınlanan ve Amazon DataZone web portalı aracılığıyla aranabilen veri varlıklarındaki AWS Glue Veri Kalitesi puanlarını görselleştirebilirsiniz.

Varlıkta AWS Glue Veri Kalitesi etkinse artık veri kalitesi puanını doğrudan katalog arama bölmesinde hızlı bir şekilde görselleştirebilirsiniz.

İlgili varlığı seçerek içeriğini benioku aracılığıyla anlayabilirsiniz, sözlük terimleri, ve teknik ve ticari meta veriler. Ek olarak genel kalite puanı göstergesi de görüntülenir. Varlık Ayrıntıları Bölüm.

Veri kalitesi puanı, tanımladığınız kurallara göre hesaplanan veri kümesinin kalitesine ilişkin genel bir gösterge görevi görür.

Üzerinde Veri kalitesi sekmesinde, veri kalitesine genel bakış göstergelerinin ayrıntılarına ve veri kalitesi çalışmalarının sonuçlarına erişebilirsiniz.

Üzerinde gösterilen göstergeler Genel Bakış sekmesi, veri kalitesi çalıştırmalarından elde edilen kural kümelerinin sonuçlarına göre hesaplanır.

Her kurala, göstergenin hesaplanmasına katkıda bulunan bir nitelik atanır. Örneğin, aşağıdaki kurallara sahip olan kurallar Completeness nitelik, ilgili göstergenin hesaplanmasına katkıda bulunacaktır. Genel Bakış sekmesi.

Veri kalitesi sonuçlarını filtrelemek için Uygulanabilir sütun açılır menüyü açın ve istediğiniz filtre parametresini seçin.

Ayrıca sütun düzeyindeki veri kalitesini şu andan itibaren görselleştirebilirsiniz: Şema sekmesi.

Varlık için veri kalitesi etkinleştirildiğinde, veri kümesi içindeki her sütunun bütünlüğünü ve güvenilirliğini yansıtan anlaşılır kalite puanları sağlayan veri kalitesi sonuçları kullanılabilir hale gelir.

Veri kalitesi sonuç bağlantılarından birini seçtiğinizde, seçilen sütuna göre filtrelenen veri kalitesi ayrıntı sayfasına yönlendirilirsiniz.

Amazon DataZone'daki veri kalitesi geçmiş sonuçları

Veri kalitesi birçok nedenden dolayı zaman içinde değişebilir:

  • Kaynak sistemlerdeki değişiklikler nedeniyle veri formatları değişebilir
  • Veriler zamanla biriktikçe güncelliğini yitirebilir veya tutarsız hale gelebilir
  • Veri kalitesi, veri girişi, veri işleme veya veri manipülasyonu sırasındaki insan hatalarından etkilenebilir

Amazon DataZone'da artık güvenilirliği ve doğruluğu onaylamak için zaman içindeki veri kalitesini takip edebilirsiniz. Geçmiş raporun anlık görüntüsünü analiz ederek iyileştirilecek alanları belirleyebilir, değişiklikleri uygulayabilir ve bu değişikliklerin etkinliğini ölçebilirsiniz.

Yeni bir Amazon DataZone veri kaynağı oluştururken AWS Glue Veri Kalitesini etkinleştirin

Bu bölümde, yeni bir Amazon DataZone veri kaynağı oluştururken AWS Glue Veri Kalitesini etkinleştirme adımlarını açıklıyoruz.

Önkoşullar

Bunu takip etmek için Amazon DataZone için bir alan adınızın, bir Amazon DataZone projenizin ve yeni bir projenizin olması gerekir. Amazon DataZone ortamı (Birlikte DataLakeProfile). Talimatlar için bkz. AWS Glue verileriyle Amazon DataZone hızlı başlangıcı.

Ayrıca, AWS Glue Veri Kalitesi'ndeki veri kalitesi kuralları kümesi olan bir kural kümesini verilerinize karşı tanımlamanız ve çalıştırmanız gerekir. Veri kalitesi kurallarını ayarlamak ve konuyla ilgili daha fazla bilgi edinmek için aşağıdaki gönderilere bakın:

Veri kalitesi kurallarını oluşturduktan sonra Amazon DataZone'un, aracılığıyla yönetilen AWS Glue veritabanına erişim izinlerine sahip olduğundan emin olun. AWS Göl Oluşumu. Talimatlar için bkz. Amazon DataZone için Lake Formation izinlerini yapılandırma.

Örneğimizde, hasta verilerini içeren bir tabloya karşı bir kural kümesi yapılandırdık. sağlık hizmetleri sentetik veri kümesi kullanılarak oluşturulan sentez. Synthea, sağlık hizmetleri yazılımı uygulamalarını test etmek için kullanılabilecek gerçekçi hasta verileri ve ilgili tıbbi kayıtları oluşturan sentetik bir hasta oluşturucudur.

Kural kümesi 27 ayrı kural içerir (bunlardan biri başarısızdır), dolayısıyla genel veri kalitesi puanı %96'dır.

Amazon DataZone tarafından yönetilen politikaları kullanıyorsanız herhangi bir eyleme gerek yoktur çünkü bunlar gerekli eylemlerle otomatik olarak güncellenecektir. Aksi takdirde, Amazon DataZone'un AWS Glue Veri Kalitesi sonuçlarını listelemek ve almak için aşağıdaki şekilde gösterildiği gibi gerekli izinlere sahip olmasına izin vermeniz gerekir: Amazon DataZone kullanım kılavuzu.

Veri kalitesi etkinleştirilmiş bir veri kaynağı oluşturun

Bu bölümde veri kaynağı oluşturup veri kalitesini etkinleştiriyoruz. Veri kalitesini etkinleştirmek için mevcut bir veri kaynağını da güncelleyebilirsiniz. Bu veri kaynağını veri kümelerimizle ilgili meta veri bilgilerini içe aktarmak için kullanırız. Amazon DataZone ayrıca veri kaynağında yer alan (bir veya daha fazla) varlığa ilişkin veri kalitesi bilgilerini de içe aktaracaktır.

  1. Amazon DataZone konsolunda şunu seçin: Veri kaynakları Gezinti bölmesinde.
  2. Klinik Veri kaynağı oluştur.
  3. İçin Name, veri kaynağınız için bir ad girin.
  4. İçin Veri kaynağı türüseçin AWS Tutkal.
  5. İçin çevre, ortamınızı seçin.
  6. İçin Veri tabanı ismi, veritabanı için bir ad girin.
  7. İçin Tablo seçim kriterleri, kriterlerinizi seçin.
  8. Klinik Sonraki.
  9. İçin Veri kalitesiseçin Bu veri kaynağı için veri kalitesini etkinleştirin.

Veri kalitesi etkinleştirilirse Amazon DataZone, her veri kaynağı çalıştırmasında AWS Glue'dan veri kalitesi puanlarını otomatik olarak alır.

  1. Klinik Sonraki.

Artık veri kaynağını çalıştırabilirsiniz.

Amazon DataZone, veri kaynağını çalıştırırken son 100 AWS Glue Veri Kalitesi çalıştırma sonucunu içe aktarır. Bu bilgiler artık varlık sayfasında görülebilir ve varlık yayınlandıktan sonra tüm Amazon DataZone kullanıcıları tarafından görülebilecektir.

Mevcut bir veri varlığı için veri kalitesini etkinleştirin

Bu bölümde mevcut bir varlık için veri kalitesini etkinleştiriyoruz. Bu, halihazırda veri kaynaklarına sahip olan ve özelliği daha sonra etkinleştirmek isteyen kullanıcılar için yararlı olabilir.

Önkoşullar

Devam etmek için veri kaynağını zaten çalıştırmış ve bir AWS Glue tablosu veri varlığı oluşturmuş olmanız gerekir. Ek olarak, Veri Kataloğu'ndaki hedef tablo üzerinden AWS Glue Veri Kalitesi'nde bir kural kümesi tanımlamış olmanız gerekir.

Bu örnekte, aşağıdaki ekran görüntüsünde gösterildiği gibi ilgili AWS Glue Veri Kalitesi puanlarını üreterek veri kalitesi işini tablo üzerinde birden çok kez çalıştırdık.

Veri kalitesi puanlarını veri varlığına aktarın

Mevcut AWS Glue Veri Kalitesi puanlarını Amazon DataZone'daki veri varlığına aktarmak için aşağıdaki adımları tamamlayın:

  1. Amazon DataZone projesinde şuraya gidin: Envanter verileri bölmesine gidin ve veri kaynağını seçin.

Seçerseniz Veri kalitesi sekmesinde, AWS Glue Veri Kalitesi entegrasyonu bu veri varlığı için henüz etkinleştirilmediğinden veri kalitesiyle ilgili hâlâ bilgi olmadığını görebilirsiniz.

  1. Üzerinde Veri kalitesi sekmesini seçin Veri kalitesini etkinleştir.
  2. içinde Veri kalitesi bölümünde, seçin Bu veri kaynağı için veri kalitesini etkinleştirin.
  3. Klinik İndirim.

Artık Envanter veri bölmesine döndüğünüzde yeni bir sekme görebilirsiniz: Veri kalitesi.

Üzerinde Veri kalitesi sekmesinde, AWS Glue Veri Kalitesinden içe aktarılan veri kalitesi puanlarını görebilirsiniz.

Amazon DataZone API'lerini kullanarak harici bir kaynaktan veri kalitesi puanları alın

Birçok kuruluş halihazırda veri kümeleri üzerinde testler ve iddialar gerçekleştirerek veri kalitesini hesaplayan sistemleri kullanıyor. Amazon DataZone artık üçüncü taraf kaynaklı veri kalitesi puanlarının içe aktarılmasını destekliyor API, web portalında gezinen kullanıcıların bu bilgileri görüntülemesine olanak tanır.

Bu bölümde, veri kalitesi puanlarını API'ler aracılığıyla Amazon DataZone'a aktaran üçüncü taraf bir sistemi simüle ediyoruz. Boto3 (AWS için Python SDK'sı).

Bu örnek için aynısını kullanıyoruz sentetik veri seti daha önce olduğu gibi, ile oluşturuldu sentez.

Aşağıdaki şemada çözüm mimarisi gösterilmektedir.

İş akışı aşağıdaki adımlardan oluşur:

  1. Hastaların veri kümesini okuyun Amazon Basit Depolama Hizmeti (Amazon S3) Spark kullanarak doğrudan Amazon EMR'den.

Veri kümesi, Amazon DataZone'da genel bir S3 varlık koleksiyonu olarak oluşturulur.

  1. Amazon EMR'de veri kümesine göre veri doğrulama kuralları uygulayın.
  2. Kalıcı bir çıktı elde etmek için ölçümler Amazon S3'e kaydedilir.
  3. Özel veri kalitesi meta verilerini iletmek için Boto3 aracılığıyla Amazon DataZone API'lerini kullanın.
  4. Son kullanıcılar veri portalına giderek veri kalitesi puanlarını görebilirler.

Önkoşullar

Biz kullanmak Amazon EMR Sunucusuz ve Pydeequ tam olarak yönetilen bir sistemi çalıştıracak Kıvılcım çevre. Bir veri test çerçevesi olarak Pydeequ hakkında daha fazla bilgi edinmek için bkz. Pydeequ ile Veri kalitesini geniş ölçekte test etme.

Amazon EMR'nin Amazon DataZone etki alanına veri göndermesine izin vermek için Amazon EMR tarafından kullanılan IAM rolünün aşağıdakileri yapma izinlerine sahip olduğundan emin olun:

  • S3 paketlerinden okuma ve yazma
  • Ara post_time_series_data_points Amazon DataZone için eylem:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "Statement1",
                "Effect": "Allow",
                "Action": [
                    "datazone:PostTimeSeriesDataPoints"
                ],
                "Resource": [
                    "<datazone_domain_arn>"
                ]
            }
        ]
    }

EMR rolünü eklediğinizden emin olun. proje üyesi Amazon DataZone projesinde. Amazon DataZone konsolunda şuraya gidin: Proje üyeleri sayfa ve seç üye ekle.

EMR rolünü katkıda bulunan kişi olarak ekleyin.

PySpark kodunu alın ve analiz edin

Bu bölümde veri kalitesi kontrollerini gerçekleştirmek için kullandığımız PySpark kodunu analiz edip sonuçları Amazon DataZone'a gönderiyoruz. Tamamını indirebilirsiniz PySpark betiği.

Komut dosyasının tamamını çalıştırmak için EMR Serverless'a bir iş gönderebilirsiniz. Hizmet, işin planlanmasıyla ve gerekli kaynakların otomatik olarak tahsis edilmesiyle ilgilenecek ve böylece işleri takip etmenize olanak tanıyacaktır. iş çalıştırma durumları süreç boyunca.

Yapabilirsin EMR Studio'yu kullanarak Amazon EMR konsolunda EMR'ye bir iş gönderin veya programlı olarak, kullanarak AWS CLI'si veya aşağıdakilerden birini kullanarak AWS SDK'ları.

Apache Spark'ta bir SparkSession DataFrames ve Spark'ın yerleşik işlevleriyle etkileşim kurmak için giriş noktasıdır. Komut dosyası bir başlatma işlemine başlayacak SparkSession:

with SparkSession.builder.appName("PatientsDataValidation") 
        .config("spark.jars.packages", pydeequ.deequ_maven_coord) 
        .config("spark.jars.excludes", pydeequ.f2j_maven_coord) 
        .getOrCreate() as spark:

Amazon S3'ten bir veri kümesi okuduk. Daha fazla modülerlik sağlamak için, S3 yoluna başvurmak üzere komut dosyası girişini kullanabilirsiniz:

s3inputFilepath = sys.argv[1]
s3outputLocation = sys.argv[2]

df = spark.read.format("csv") 
            .option("header", "true") 
            .option("inferSchema", "true") 
            .load(s3inputFilepath) #s3://<bucket_name>/patients/patients.csv

Daha sonra bir metrik deposu oluşturuyoruz. Bu, çalıştırma sonuçlarının Amazon S3'te kalıcı hale getirilmesine yardımcı olabilir.

metricsRepository = FileSystemMetricsRepository(spark, s3_write_path)

Pydeequ, iyi bilinen bir yazılım mühendisliği tasarım modeli olan oluşturucu modelini kullanarak veri kalitesi kuralları oluşturmanıza olanak tanır ve talimatları bir örnek oluşturmak için birleştirir. VerificationSuite nesne:

key_tags = {'tag': 'patient_df'}
resultKey = ResultKey(spark, ResultKey.current_milli_time(), key_tags)

check = Check(spark, CheckLevel.Error, "Integrity checks")

checkResult = VerificationSuite(spark) 
    .onData(df) 
    .useRepository(metricsRepository) 
    .addCheck(
        check.hasSize(lambda x: x >= 1000) 
        .isComplete("birthdate")  
        .isUnique("id")  
        .isComplete("ssn") 
        .isComplete("first") 
        .isComplete("last") 
        .hasMin("healthcare_coverage", lambda x: x == 1000.0)) 
    .saveOrAppendResult(resultKey) 
    .run()

checkResult_df = VerificationResult.checkResultsAsDataFrame(spark, checkResult)
checkResult_df.show()

Veri doğrulama kurallarının çıktısı aşağıdadır:

+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+
|check           |check_level|check_status|constraint                                          |constraint_status|constraint_message                                  |
+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+
|Integrity checks|Error      |Error       |SizeConstraint(Size(None))                          |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(birthdate,None))|Success          |                                                    |
|Integrity checks|Error      |Error       |UniquenessConstraint(Uniqueness(List(id),None))     |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(ssn,None))      |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(first,None))    |Success          |                                                    |
|Integrity checks|Error      |Error       |CompletenessConstraint(Completeness(last,None))     |Success          |                                                    |
|Integrity checks|Error      |Error       |MinimumConstraint(Minimum(healthcare_coverage,None))|Failure          |Value: 0.0 does not meet the constraint requirement!|
+----------------+-----------+------------+----------------------------------------------------+-----------------+----------------------------------------------------+

Bu noktada bu veri kalitesi değerlerini Amazon DataZone’a eklemek istiyoruz. Bunu yapmak için şunu kullanırız: post_time_series_data_points Boto3 Amazon DataZone istemcisindeki işlev.

The PostTimeSeriesDataPoints DataZone API'si belirli bir varlık veya listeleme için yeni bir revizyon oluşturmadan yeni zaman serisi veri noktaları eklemenize olanak tanır.

Bu noktada API'ye girdi olarak hangi alanların gönderildiği hakkında da daha fazla bilgi sahibi olmak isteyebilirsiniz. Şunu kullanabilirsiniz: API'ler Amazon DataZone form türlerine ilişkin spesifikasyonu edinmek için; bizim durumumuzda, bu amazon.datazone.DataQualityResultFormType.

API'yi çağırmak ve form yapısını görüntülemek için AWS CLI'yi de kullanabilirsiniz:

aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'

Bu çıktı, alanlar ve değer sınırları da dahil olmak üzere gerekli API parametrelerinin tanımlanmasına yardımcı olur:

$version: "2.0"
namespace amazon.datazone
structure DataQualityResultFormType {
    @amazon.datazone#timeSeriesSummary
    @range(min: 0, max: 100)
    passingPercentage: Double
    @amazon.datazone#timeSeriesSummary
    evaluationsCount: Integer
    evaluations: EvaluationResults
}
@length(min: 0, max: 2000)
list EvaluationResults {
    member: EvaluationResult
}

@length(min: 0, max: 20)
list ApplicableFields {
    member: String
}

@length(min: 0, max: 20)
list EvaluationTypes {
    member: String
}

enum EvaluationStatus {
    PASS,
    FAIL
}

string EvaluationDetailType

map EvaluationDetails {
    key: EvaluationDetailType
    value: String
}

structure EvaluationResult {
    description: String
    types: EvaluationTypes
    applicableFields: ApplicableFields
    status: EvaluationStatus
    details: EvaluationDetails
}

Uygun form verilerini göndermek için Pydeequ çıktısını aşağıdakilerle eşleşecek şekilde dönüştürmemiz gerekir: DataQualityResultsFormType sözleşme. Bu, sonuçları işleyen bir Python işleviyle başarılabilir.

Her DataFrame satırı için kısıtlama sütunundan bilgi çıkarırız. Örneğin aşağıdaki kodu alın:

CompletenessConstraint(Completeness(birthdate,None))

Bunu aşağıdakine dönüştürüyoruz:

{
  "constraint": "CompletenessConstraint",
  "statisticName": "Completeness_custom",
  "column": "birthdate"
}

İzlemek istediğiniz KPI'larla eşleşen bir çıktı gönderdiğinizden emin olun. Bizim durumumuzda, şunu ekliyoruz _custom istatistik adına değiştirilerek KPI'lar için aşağıdaki format elde edilir:

  • Completeness_custom
  • Uniqueness_custom

Gerçek hayattaki bir senaryoda, Amazon DataZone'da izlemek istediğiniz KPI'larla ilgili olarak veri kalitesi çerçevenizle eşleşen bir değer ayarlamak isteyebilirsiniz.

Bir dönüşüm fonksiyonu uyguladıktan sonra, her kural değerlendirmesi için bir Python nesnesine sahibiz:

..., {
   'applicableFields': ["healthcare_coverage"],
   'types': ["Minimum_custom"],
   'status': 'FAIL',
   'description': 'MinimumConstraint - Minimum - Value: 0.0 does not meet the constraint requirement!'
 },...

Biz de kullanıyoruz constraint_status Genel puanı hesaplamak için sütun:

(number of success / total number of evaluation) * 100

Örneğimizde bu, %85.71'lik bir geçme yüzdesiyle sonuçlanır.

Bu değeri şu şekilde ayarladık: passingPercentage Boto3 yönteminin girişindeki değerlendirmelerle ilgili diğer bilgilerle birlikte giriş alanı post_time_series_data_points:

import boto3

# Instantiate the client library to communicate with Amazon DataZone Service
#
datazone = boto3.client(
    service_name='datazone', 
    region_name=<Region(String) example: us-east-1>
)

# Perform the API operation to push the Data Quality information to Amazon DataZone
#
datazone.post_time_series_data_points(
    domainIdentifier=<DataZone domain ID>,
    entityIdentifier=<DataZone asset ID>,
    entityType='ASSET',
    forms=[
        {
            "content": json.dumps({
                    "evaluationsCount":<Number of evaluations (number)>,
                    "evaluations": [<List of objects {
                        'description': <Description (String)>,
                        'applicableFields': [<List of columns involved (String)>],
                        'types': [<List of KPIs (String)>],
                        'status': <FAIL/PASS (string)>
                        }>
                     ],
                    "passingPercentage":<Score (number)>
                }),
            "formName": <Form name(String) example: PydeequRuleSet1>,
            "typeIdentifier": "amazon.datazone.DataQualityResultFormType",
            "timestamp": <Date (timestamp)>
        }
    ]
)

Boto3 şunu çağırır: Amazon DataZone API'leri. Bu örneklerde Boto3 ve Python'u kullandık ancak siz bunlardan birini seçebilirsiniz. AWS SDK'ları Tercih ettiğiniz dilde geliştirildi.

Uygun etki alanı ve varlık kimliğini ayarlayıp yöntemi çalıştırdıktan sonra Amazon DataZone konsolunda varlık veri kalitesinin artık varlık sayfasında görünür olup olmadığını kontrol edebiliriz.

Genel puanın API giriş değeriyle eşleştiğini gözlemleyebiliyoruz. Ayrıca genel bakış sekmesinde özel tür parametre değerleri aracılığıyla özelleştirilmiş KPI'lar ekleyebildiğimizi de görebiliriz.

Yeni Amazon DataZone API'leri ile üçüncü taraf sistemlerden veri kalitesi kurallarını belirli bir veri varlığına yükleyebilirsiniz. Bu özellik sayesinde Amazon DataZone, AWS Glue Veri Kalitesinde mevcut gösterge türlerini (tamlık, minimum ve benzersizlik gibi) özel göstergelerle genişletmenize olanak tanır.

Temizlemek

Beklenmeyen maliyetlerin ortaya çıkmasını önlemek için, potansiyel olarak kullanılmamış kaynakları silmenizi öneririz. Örneğin şunları yapabilirsiniz: Amazon DataZone etki alanını silin ve EMR uygulaması Bu işlem sırasında oluşturduğunuz

Sonuç

Bu yazıda, Amazon DataZone'un veri kalitesine yönelik en yeni özelliklerini vurguladık ve son kullanıcılara gelişmiş bağlam ve veri varlıklarına ilişkin görünürlük olanağı sağladık. Ayrıca Amazon DataZone ile AWS Glue Data Quality arasındaki kusursuz entegrasyonu da inceledik. Ayrıca Amazon DataZone API'lerini harici veri kalitesi sağlayıcılarıyla entegre etmek için de kullanabilirsiniz; böylece AWS ortamınızda kapsamlı ve sağlam bir veri stratejisi sürdürmenize olanak sağlanır.

Amazon DataZone hakkında daha fazla bilgi edinmek için bkz. Amazon DataZone Kullanıcı Kılavuzu.


Yazarlar Hakkında


Andrea Filippo
AWS'de İtalya'daki Kamu Sektörü iş ortaklarını ve müşterilerini destekleyen İş Ortağı Çözüm Mimarıdır. Modern veri mimarilerine odaklanıyor ve müşterilerin bulut yolculuklarını sunucusuz teknolojilerle hızlandırmalarına yardımcı oluyor.

Emanuele İspanya'da 5 yıldan fazla yaşayıp çalıştıktan sonra İtalya merkezli AWS'de Çözüm Mimarıdır. Büyük şirketlerin bulut teknolojilerini benimsemelerine yardımcı olmaktan keyif alıyor ve uzmanlık alanı esas olarak Veri Analitiği ve Veri Yönetimi üzerine odaklanıyor. İş dışında seyahat etmekten ve aksiyon figürleri toplamaktan hoşlanıyor.

Varsha Velagapudi AWS'de Amazon DataZone'da Kıdemli Teknik Ürün Yöneticisidir. Veri analitiği için gereken veri keşfini ve iyileştirmeyi geliştirmeye odaklanıyor. Günlük görevlerinde başarılı olmalarına yardımcı olmak için müşterilerin AI/ML ve analiz yolculuğunu basitleştirme konusunda tutkulu. İş dışında doğayı ve açık hava etkinliklerini, kitap okumayı ve seyahat etmeyi seviyor.

spot_img

En Son İstihbarat

spot_img