Zephyrnet Logosu

Amazon DataZone, AWS Glue Veri Kataloğu için AWS Lake Formation hibrit erişim moduyla entegrasyonu duyurdu | Amazon Web Hizmetleri

Tarih:

Geçen hafta duyurmuştuk genel uygunluk arasındaki entegrasyonun Amazon Veri Bölgesi ve AWS Göl Oluşumu hibrit erişim modu. Bu gönderide, verilerinizin güvenli ve yönetimli bir şekilde paylaşılmasını sağlamak için bu yeni özelliğin Amazon DataZone'u kullanma şeklinizi basitleştirmenize nasıl yardımcı olduğunu paylaşıyoruz. AWS Tutkal Veri Kataloğu. Ayrıca veri üreticilerinin AWS Glue tablolarını önce Lake Formation'a kaydetmelerine gerek kalmadan Amazon DataZone aracılığıyla nasıl paylaşabileceklerini de araştırıyoruz.

Lake Formation hibrit erişim moduyla Amazon DataZone entegrasyonuna genel bakış

Amazon DataZone, kuruluşunuzdaki veri üreticileri ve tüketicileri arasında verileri kataloglamaya, keşfetmeye, analiz etmeye, paylaşmaya ve yönetmeye yönelik tam olarak yönetilen bir veri yönetimi hizmetidir. Veri üreticileri, Amazon DataZone ile iş verileri kataloğunu AWS Glue Data Catalog gibi veri kaynaklarından gelen veri varlıklarıyla doldurur ve Amazon Kırmızıya Kaydırma. Ayrıca veri tüketicilerinin anlamasını kolaylaştırmak için varlıklarını iş bağlamıyla zenginleştiriyorlar. Veriler katalogda mevcut olduktan sonra analistler ve veri bilimcileri gibi veri tüketicileri abonelik talebinde bulunarak bu verileri arayabilir ve erişebilirler. İstek onaylandığında Amazon DataZone, Lake Formation veya Amazon Redshift'teki izinleri yöneterek verilere otomatik olarak erişim sağlayabilir, böylece veri tüketicisi aşağıdaki gibi araçları kullanarak verileri sorgulamaya başlayabilir. Amazon Atina veya Amazon Redshift.

Amazon DataZone, AWS Glue Data Catalog'daki verilere erişimi yönetmek için Lake Formation'ı kullanır. Daha önce, AWS Glue Data Catalog'daki verilerinize erişimi yönetmek için Amazon DataZone'u kullanmak istiyorsanız öncelikle verilerinizi Lake Formation'a eklemeniz gerekiyordu. Artık Amazon DataZone ve Lake Formation hibrit erişim modunun entegrasyonu, verilerinizi önce Lake Formation'a ekleme ihtiyacını ortadan kaldırarak Amazon DataZone yolculuğunuza nasıl başlayabileceğinizi basitleştiriyor.

Göl Oluşumu hibrit erişim modu Lake Formation aracılığıyla AWS Glue veritabanlarınız ve tablolarınızdaki izinleri yönetmeye başlamanıza ve aynı zamanda mevcut izinleri korumanıza olanak tanır AWS Kimlik ve Erişim Yönetimi Bu tablolar ve veritabanları üzerindeki (IAM) izinleri. Lake Formation karma erişim modu, aynı Data Catalog veritabanlarına ve tablolarına giden iki izin yolunu destekler:

  • İlk yolda, Lake Formation belirli sorumluları (katılım sorumluları) seçmenize ve onlara veritabanlarına ve tablolara erişmeleri için Lake Formation izinleri vermenize olanak tanır.
  • İkinci yol, diğer tüm sorumluların (katılım sorumluları olarak eklenmeyenler), aşağıdakiler için IAM ana politikaları aracılığıyla bu kaynaklara erişmesine olanak tanır: Amazon Basit Depolama Hizmeti (Amazon S3) ve AWS Glue eylemleri

Amazon DataZone ve Lake Formation hibrit erişim modu arasındaki entegrasyon sayesinde, AWS Glue Data Catalog'da IAM tabanlı politikalar aracılığıyla yönetilen tablolarınız varsa bu tabloları Lake Formation'a kaydetmeden doğrudan Amazon DataZone'da yayınlayabilirsiniz. Amazon DataZone, mevcut IAM izinlerini korumaya devam ederken Lake Formation aracılığıyla AWS Glue tablolarındaki izinlerin yönetilmesine olanak tanıyan hibrit erişim modunu kullanarak Lake Formation'daki bu tabloların konumunu kaydeder.

Amazon DataZone, iş verileri kataloğunda her türlü varlığı yayınlamanıza olanak tanır. Amazon DataZone, bu varlıkların bazıları için erişim izinlerini otomatik olarak yönetebilir. Bu varlıklar denir yönetilen varlıklarLake Formation tarafından yönetilen Veri Kataloğu tablolarını ve Amazon Redshift tablolarını ve görünümlerini içerir. Bu entegrasyondan önce Amazon DataZone'un yayınlanan Veri Kataloğu tablosunu yönetilen varlık olarak ele alabilmesi için aşağıdaki adımları tamamlamanız gerekiyordu:

  1. Data Catalog tablosuyla ilişkili Amazon S3 konumunu tanımlayın.
  2. Amazon S3 konumunu Lake Formation'a hibrit erişim modunda kaydedin. rol uygun izinlerle.
  3. Tablo meta verilerini Amazon DataZone iş verileri kataloğunda yayınlayın.

Aşağıdaki şemada bu iş akışı gösterilmektedir.

Amazon DataZone'un Lake Formation hibrit erişim moduyla entegrasyonu sayesinde, bu adımları Amazon DataZone'a devrederek Amazon S3 konumunu kaydetme veya Lake Formation'a katılım ilkesi ekleme konusunda endişelenmenize gerek kalmadan AWS Glue tablolarınızı Amazon DataZone'da yayınlayabilirsiniz. . Bir AWS hesabının yöneticisi, veri konumu kayıt ayarını şu adresten etkinleştirebilir: DefaultDataLake Amazon DataZone konsolundaki plan. Artık bir veri sahibi veya yayıncı, AWS Glue tablosunu (IAM izinleri aracılığıyla yönetilen) ekstra kurulum adımlarına gerek kalmadan Amazon DataZone'da yayınlayabilir. Bir veri tüketicisi bu tabloya abone olduğunda Amazon DataZone, tablonun Amazon S3 konumlarını hibrit erişim modunda kaydeder, veri tüketicisinin IAM rolünü katılım ilkesi olarak ekler ve izinleri yöneterek aynı IAM rolüne erişim izni verir. Göl Oluşumu boyunca tablo. Bu, tablodaki IAM izinlerinin, mevcut iş akışlarını kesintiye uğratmadan yeni verilen Lake Formation izinleriyle bir arada bulunabilmesini sağlar. Aşağıdaki şemada bu iş akışı gösterilmektedir.

Çözüme genel bakış

Bu yeni yeteneği göstermek için, finans ekibinin, satış ekibinin sahip olduğu verilere finansal analiz ve raporlama amacıyla erişmek istediği örnek bir müşteri senaryosu kullanıyoruz. Satış ekibinin bilet satışları, popüler etkinlikler, mekanlar ve sezonlar hakkında değerli bilgiler içeren bir veri kümesi oluşturan bir hattı vardır. Biz buna Tickit veri kümesi diyoruz. Satış ekibi bu veri kümesini Amazon S3'te saklar ve Veri Kataloğu'ndaki bir veritabanına kaydeder. Bu tabloya erişim şu anda IAM tabanlı izinler aracılığıyla yönetilmektedir. Ancak satış ekibi, finans ekibiyle güvenli ve yönetilen veri paylaşımını kolaylaştırmak için bu tabloyu Amazon DataZone'da yayınlamak istiyor.

Bu çözümü yapılandırma adımları aşağıdaki gibidir:

  1. Amazon DataZone yöneticisi, Amazon DataZone'daki data lake konum kaydı ayarının, Lake Formation hibrit erişim modunda AWS Glue tablolarının Amazon S3 konumunu otomatik olarak kaydetmesini sağlar.
  2. Amazon DataZone'da hibrit erişim modu entegrasyonu etkinleştirildikten sonra finans ekibi, satış veri varlığına abonelik talep eder. Varlık, yönetilen bir varlık olarak görünür; bu, bu varlığın Amazon S3 konumu Lake Formation'da kayıtlı olmasa bile Amazon DataZone'un bu varlığa erişimi yönetebileceği anlamına gelir.
  3. Finans ekibi tarafından iletilen bir abonelik talebi satış ekibine bildirilir. Erişim talebini inceleyip onaylarlar. İstek onaylandıktan sonra Amazon DataZone, Lake Formation'daki izinleri yöneterek abonelik isteğini yerine getirir. Abone olunan tablonun Amazon S3 konumunu Lake Formation hibrit modunda kaydeder.
  4. Finans ekibi, mali raporları için gereken satış veri setine erişim kazanır. DataZone ortamlarına gidebilirler ve abone oldukları veri kümelerinde Athena'yı kullanarak sorgu çalıştırmaya başlayabilirler.

Önkoşullar

Bu gönderideki adımları takip etmek için bir AWS hesabınızın olması gerekir. Hesabınız yoksa yapabilirsiniz bir tane yarat. Ayrıca hesabınızda aşağıdaki kaynakların yapılandırılmış olması gerekir:

  • Bir S3 kovası
  • Bir AWS Glue veritabanı ve tarayıcısı
  • Farklı kişiler ve hizmetler için IAM rolleri
  • Bir Amazon DataZone alanı ve projesi
  • Amazon DataZone ortam profili ve ortamı
  • Bir Amazon DataZone veri kaynağı

Bu kaynakları önceden yapılandırmadıysanız aşağıdakileri dağıtarak bunları oluşturabilirsiniz: AWS CloudFormation yığın:

  1. Klinik Yığını Başlat bir CloudFormation şablonu dağıtmak için.
  2. Şablonu dağıtmak için adımları tamamlayın ve tüm ayarları varsayılan olarak bırakın.
  3. seç AWS CloudFormation'ın IAM kaynakları oluşturabileceğini kabul ediyorum, Daha sonra seçmek Gönder.

CloudFormation dağıtımı tamamlandıktan sonra Amazon DataZone portalında oturum açabilir ve bir veri kaynağı çalıştırmasını manuel olarak tetikleyebilirsiniz. Bu, kaynaktan tüm yeni veya değiştirilmiş meta verileri çeker ve envanterdeki ilgili varlıkları günceller. Bu veri kaynağı, veri varlıklarını otomatik olarak kataloğa yayınlayacak şekilde yapılandırıldı.

  1. Amazon DataZone konsolunda şunu seçin: Alan adlarını görüntüle.

CloudFormation'u dağıtmak için kullanılan rolün aynısını kullanarak oturum açmanız ve aynı AWS Bölgesinde olduğunuzu doğrulamanız gerekir.

  1. Alanı bulun blog_dz_domain, Daha sonra seçmek Veri portalını aç.
  2. Klinik Tüm projelere göz atın Ve seç Satış üretici projesi.
  3. Üzerinde Veri sekmesini seçin Veri kaynakları Gezinti bölmesinde.
  4. Çalıştırmak istediğiniz veri kaynağını bulun ve seçin.

Bu, veri kaynağı ayrıntıları sayfasını açar.

  1. yanındaki seçenekler menüsünü (üç dikey nokta) seçin. tickit_datasource Ve seç koşmak.

Amazon DataZone varlık meta verilerini güncelledikçe veri kaynağı durumu Çalışıyor olarak değişir.

Amazon DataZone'da hibrit mod entegrasyonunu etkinleştirin

Bu adımda Amazon DataZone yöneticisi, Amazon DataZone entegrasyonunu Lake Formation hibrit erişim moduyla etkinleştirme sürecinden geçer. Aşağıdaki adımları tamamlayın:

  1. Ayrı bir tarayıcı sekmesinde Amazon DataZone konsolunu açın.

CloudFormation şablonunu dağıttığınız Bölgede olduğunuzu doğrulayın.

  1. Klinik Alan adlarını görüntüle.
  2. AWS CloudFormation tarafından oluşturulan etki alanını seçin, blog_dz_domain.
  3. Alan adı ayrıntıları sayfasını aşağı kaydırın ve blueprints sekmesi.

A planı Amazon DataZone'da yayınlanan veri varlıklarıyla hangi AWS araçlarının ve hizmetlerinin kullanılabileceğini tanımlar. DefaultDataLake blueprint, CloudFormation yığın dağıtımının bir parçası olarak etkinleştirilir. Bu plan, Athena'yı kullanarak AWS Glue tabloları oluşturmanıza ve sorgulamanıza olanak tanır. Bunu kendi dağıtımlarınızda etkinleştirme adımları için bkz. Amazon DataZone etki alanının sahibi olan AWS hesabında yerleşik planları etkinleştirin.

  1. Seçin DefaultDataLake taslak.
  2. Üzerinde Sağlama sekmesini seçin Düzenle.
  3. seç AWS Lake Formation hibrit erişim modunu kullanarak Amazon DataZone'un S3 konumlarını kaydetmesini sağlayın.

Amazon DataZone'un bunları otomatik olarak Lake Formation hibrit erişim moduna kaydetmesini istemiyorsanız belirli Amazon S3 konumlarını hariç tutma seçeneğiniz vardır.

  1. Klinik Değişiklikleri Kaydet.

Erişim talep etmek

Bu adımda finans ekibi olarak Amazon DataZone'da oturum açar, satış veri varlığını arar ve ona abone olursunuz. Aşağıdaki adımları tamamlayın:

  1. Amazon DataZone veri portalı tarayıcı sekmenize dönün.
  2. Proje adının yanındaki açılır menüyü seçip Finans tüketicisi projesine geçin. Finans tüketici projesi.

Bu adımdan itibaren, önceki adımda yayınlanan bir veri varlığına abone olmak isteyen bir finans kullanıcısının kişiliğini üstlenirsiniz.

  1. Arama çubuğunda şunu arayın ve seçin: sales veri varlığı.
  2. Klinik Üye olun.

Varlık, yönetilen varlık olarak görünür. Bu, Amazon DataZone'un Lake Formation'daki izinleri yöneterek finans ekibinin projesine bu veri varlığına erişim izni verebileceği anlamına gelir.

  1. Erişim talebinin nedenini girin ve Üye olun.

Erişim isteğini onayla

Satış ekibi, finans ekibinden erişim talebinin gönderildiğine dair bir bildirim alır. İsteği onaylamak için aşağıdaki adımları tamamlayın:

  1. Proje adının yanındaki açılır menüyü seçin ve Satış üretici projesi.

Artık satış verileri varlıklarının sahipleri ve yöneticileri olan satış ekibinin kişiliğini üstleniyorsunuz.

  1. DataZone portalının sağ üst köşesindeki bildirim simgesini seçin.
  2. Seçin Abonelik İsteği Oluşturuldu görev.
  3. Finans ekibine satış verileri varlığına erişim izni verin ve Onaylamak.

Verileri analiz edin

Artık finans ekibine satış verilerine erişim izni verildi ve bu veri kümesi, Amazon DataZone ortamına eklendi. Ortama erişebilir ve halihazırda sahip oldukları diğer veri kümeleriyle birlikte Athena ile satış veri kümesini sorgulayabilirler. Aşağıdaki adımları tamamlayın:

  1. Açılır menüden şunu seçin: Finans tüketici projesi.

Projeye genel bakış ekranının sağ bölmesinde, kullanıma hazır aktif ortamların bir listesini bulabilirsiniz.

  1. Amazon DataZone ortamını seçin finance_dz_environment.
  2. Gezinti bölmesinde, altında Veri varlıkları, seçmek Abone.
  3. Ortamınızın artık satış verilerine erişimi olduğunu doğrulayın.

Veri varlığının ortamınıza otomatik olarak eklenmesi birkaç dakika sürebilir.

  1. için yeni sekme simgesini seçin Verileri sorgula.

Athena sorgu düzenleyicisiyle yeni bir sekme açılır.

  1. İçin veritabanı, seçmek finance_consumer_db_tickitdb-<suffix>.

Bu veritabanı abone olduğunuz veri varlıklarını içerecektir.

  1. Seçenekler menüsünü (üç dikey nokta) seçip satış tablosunun bir önizlemesini oluşturun. Önizleme tablosu.

Temizlemek

Kaynaklarınızı temizlemek için aşağıdaki adımları tamamlayın:

  1. CloudFormation yığınını dağıtmak için kullandığınız yönetici rolüne geri dönün.
  2. Amazon DataZone konsolunda, projeleri sil bu yazıda kullanıldı. Bu, veri varlıkları ve ortamları gibi projeyle ilgili nesnelerin çoğunu siler.
  3. AWS CloudFormation konsolunda bu yazının başında dağıttığınız yığını silin.
  4. Amazon S3 konsolunda, Tickit veri kümesini içeren S3 klasörlerini silin.
  5. Lake Formation konsolunda Amazon DataZone tarafından kaydedilen Lake Formation yöneticilerini silin.
  6. Lake Formation konsolunda Amazon DataZone tarafından oluşturulan tabloları ve veritabanlarını silin.

Sonuç

Bu gönderide, Amazon DataZone ile Lake Formation hibrit erişim modu arasındaki entegrasyonun, AWS Glue Veri Kataloğu'ndaki verilerinizin uçtan uca yönetimi için Amazon DataZone'u kullanmaya başlama sürecini nasıl basitleştirdiğini tartıştık. Bu entegrasyon, Amazon DataZone'u kullanmaya başlamadan önce Lake Formation'a manuel olarak katılma adımlarını atlamanıza yardımcı olur.

Amazon DataZone'u kullanmaya nasıl başlayacağınıza ilişkin daha fazla bilgi için bkz. Başlangıç ​​kılavuzu. Check out YouTube playlist Amazon DataZone'un en yeni demolarından bazıları ve mevcut yeteneklerin kısa açıklamaları için. Amazon DataZone hakkında daha fazla bilgi için bkz. Amazon DataZone, müşterilerin veri okyanuslarında değer bulmasına nasıl yardımcı olur?.


Yazarlar Hakkında

Utkarsh Mittal AWS'de Amazon DataZone Kıdemli Teknik Ürün Yöneticisidir. Müşterilerin uçtan uca analitik yolculuklarını kolaylaştıracak yenilikçi ürünler oluşturma konusunda tutkulu. Utkarsh, teknoloji dünyasının dışında müzik çalmayı çok seviyor ve en son uğraşı davul.

Praveen Kumar AWS'de bulut merkezli hizmetleri kullanan modern veri ve analiz platformlarını tasarlama, oluşturma ve uygulama konusunda uzmanlığa sahip Baş Analitik Çözüm Mimarıdır. İlgi alanları sunucusuz teknoloji, modern bulut veri ambarları, akış ve üretken yapay zeka uygulamalarıdır.

Paul Villena AWS'de iş değerini artırmak için modern veri ve analiz çözümleri oluşturma konusunda uzmanlığa sahip Kıdemli Analitik Çözümleri Mimarıdır. Bulutun gücünden yararlanmalarına yardımcı olmak için müşterilerle birlikte çalışıyor. İlgi alanları kod olarak altyapı, sunucusuz teknolojiler ve Python'da kodlamadır.

spot_img

En Son İstihbarat

spot_img