Zephyrnet Logosu

AWS Lake Formasyonu 2023 yılı incelemesi | Amazon Web Hizmetleri

Tarih:

AWS Göl Oluşumu ve AWS Tutkal Veri Kataloğu, üzerine kurulu veri gölleri için veri yönetişimi çözümünün ayrılmaz bir parçasını oluşturur Amazon Basit Depolama Hizmeti (Amazon S3) bunlarla entegre olan birden fazla AWS analiz hizmetiyle. İçinde 2022Bu hizmetlerde yaptığımız geliştirmelerden bahsettik. Müşterilerimizin hikayelerini dinlemeye ve onların düşüncelerini ürünlerimize dahil etmek için geriye doğru çalışmaya devam ediyoruz. Bu yazıda, müşterilerimiz için veri yönetimini iyileştirmek ve basitleştirmek amacıyla 2023'teki yoğun çalışmalarımızın sonuçlarını özetlemekten mutluluk duyuyoruz.

Her yıl olduğu gibi AWS re:Invent 2023'te yeni özelliklerimizi ve yeteneklerimizi duyurduk. Aşağıdakiler re:Invent 2023'te Lake Formation ve Data Catalog yeteneklerini gösteren konuşmalardır:

Yeni yetenekleri dört kategoriye ayırıyoruz:

  • Keşfedin ve güvence altına alın
  • Veri paylaşımıyla bağlantı kurun
  • Ölçeklendirin ve optimize edin
  • Denetim ve izleme

Daha derine inelim ve 2023'te tanıtılan yeni yetenekleri tartışalım.

Keşfedin ve güvence altına alın

Göl Oluşumu ve Veri Kataloğunu temel yapı taşları olarak kullanarak, başlattı Amazon Veri Bölgesi Ekim 2023'te. DataZone, AWS'de, şirket içinde ve üçüncü taraf kaynaklarda depolanan verileri kataloglamanızı, keşfetmenizi, paylaşmanızı ve yönetmenizi daha hızlı ve daha kolay hale getiren bir veri yönetimi hizmetidir. DataZone'un yayınlama ve abonelik iş akışları, kuruluşunuzdaki çeşitli roller arasındaki işbirliğini geliştirir ve verilerinizden iş öngörüleri elde etme süresini hızlandırır. Veri Kataloğunun teknik meta verilerini, yapay zeka destekli yardımcıları kullanarak DataZone'un iş meta verilerine dönüştürerek daha kolay keşfedilebilir hale getirebilirsiniz. DataZone, DataZone projelerinde paylaşılan verilerinizin izinlerini otomatik olarak yönetir. DataZone hakkında daha fazla bilgi edinmek için bkz. Kullanıcı Rehberi. DataZone'da Bienvenue!

AWS Glue tarayıcıları ham verilerin formatını, şemasını ve ilişkili özelliklerini belirlemek için verileri sınıflandırın, verileri tablolar veya bölümler halinde gruplayın ve meta verileri Veri Kataloğu'na yazın. 2023'te AWS Glue tarayıcılarına yönelik çeşitli güncellemeler yayınladık. Eşyalarınızı getirme olanağını ekledik tarayıcılardaki JDBC sürücülerinin özel sürümleri veri kaynaklarınızdan veri şemaları çıkarmak ve Veri Kataloğu'nu doldurmak için. Bölüm alımını optimize etmek ve sorgu performansını iyileştirmek için tarayıcılara yönelik özelliği ekledik. bölüm dizinlerini otomatik olarak ekle yeni keşfedilen tablolar için. Ayrıca biz Lake Formasyonuna sahip entegre tarayıcılar, S3 veri göllerinin hesap içi ve hesaplar arası taranmasına yönelik merkezi izinleri destekler. Bunlar, tarayıcıları kullanarak meta veri keşfinizi basitleştiren, çok aranan iyileştirmelerden bazılarıdır. Tarayıcılar, selam!

Ayrıca Linux Foundation Delta Lake gibi açık tablo formatlarının (OTF'ler) kullanımında da muazzam bir artış gördük. Apaçi Buzdağı, ve Apaçi Hudi. Bu popüler OTF'leri desteklemek için bu üç tablo biçimini Veri Kataloğu'na yerel olarak tarama desteği ekledik. Ayrıca aşağıdakiler gibi diğer AWS analiz hizmetleriyle de çalıştık: Amazon EMR'siLake Formation'ın ayrıntılı izinlerini etkinleştirmek için üç açık tablo formatının tümü. Keşfetmenizi öneririz OTF tabloları için Lake Formation'ın hangi özellikleri desteklenmektedir?. Bien integral!

Veri kaynakları ve türleri zamanla arttıkça, er ya da geç veri gölünüzde iç içe geçmiş veri türlerine sahip olmanız kaçınılmazdır. Bu veri kümelerini düzleştirmeden veri yönetimini sağlamak için Lake Formation, ayrıntılı erişim kontrolleri için destek ekledi. iç içe geçmiş veri türleri ve sütunları. Ayrıca Lake Formation'ın çalıştırılması sırasında ayrıntılı erişim kontrolleri için destek ekledik. EC2'de Amazon EMR'de Apache Hive işleri ve üzerinde Amazon EMR Stüdyosu. Ile Amazon EMR Sunucusuz, Lake Formation ile ayrıntılı erişim kontrolü artık önizlemede mevcut. Bağlantı noktaları!

AWS'de müşterilerimizle deneyimlerini anlamak için çok yakın çalışıyoruz. Lake Formation'a binmenin şu andan itibaren olduğunu anlamaya başladık: AWS Kimlik ve Erişim Yönetimi Amazon S3 ve AWS Glue Data Catalog için (IAM) tabanlı izinler kolaylaştırılabilir. Kullanım durumlarınızın veri yönetiminde daha fazla esnekliğe ihtiyaç duyduğunu fark ettik. İle hibrit erişim modu Lake Formation'da, diğer kullanıcıları ve iş yüklerini kesintiye uğratmadan, bazı kullanıcılar ve veritabanları için Lake Formation izinlerinin seçici olarak eklenmesini sağladık. Üretim ayıklama, dönüştürme ve yükleme (ETL) işlem hatlarınız mevcut IAM tabanlı izinlerini kullanmaya devam ederken, karma modda bir katalog tablosu tanımlayabilir ve Lake Formation'ı kullanarak veri analistleri ve veri bilimcileri gibi yeni kullanıcılara erişim verebilirsiniz. Çifte zafer!

Kimlik yönetimi hakkında konuşalım. IAM ilkelerini kullanabilirsiniz, Amazon Hızlı Görüş Lake Formation'daki Data Catalog kaynaklarına erişim izni vermek için kullanıcılar ve gruplar ile harici hesaplardaki harici hesaplar ve IAM sorumluları. Peki ya kurumsal kimlikleriniz? Birden fazla IAM rolü oluşturup sürdürmeniz ve bunları çeşitli kurumsal kimliklerle eşleştirmeniz mi gerekiyor? Tabloya erişen IAM rolünü görebiliyorsunuz, ancak hangi kullanıcının ona eriştiğini nasıl öğrenebilirsiniz? Bu soruları cevaplamak için, Lake Formation, AWS IAM Identity Center ile entegre edildi ve güvenilir kimlik yayılımı özelliğini ekledi. Bununla kuruluşunuzun mevcut kimlik sağlayıcısının kimliklerine ayrıntılı erişim izinleri verebilirsiniz. Diğer AWS analitik hizmetleri ayrıca yayılacak kullanıcı kimliğini de destekler. Denetleyicileriniz artık kullanıcının john@anycompany.comörneğin, Lake Formation izinleri tarafından yönetilen tabloya şunu kullanarak erişmişti: Amazon Atina, Amazon EMR ve Amazon Kırmızıya Kaydırma Spektrumu. Entegrasyon kolay!

Artık veri yönetimi için AWS hizmetlerini kullanmak üzere verileri taşıma veya Veri Kataloğu'nu başka bir AWS Bölgesine kopyalama konusunda endişelenmenize gerek yok. Genişlettik ve yaptık Göl Oluşumu tüm Bölgelerde mevcuttur 2023 içinde. Ve işte!

Veri paylaşımıyla bağlantı kurun

Lake Formation, veritabanları ve tablolar gibi Data Catalog nesnelerini iç ve dış kullanıcılarla paylaşmanın basit bir yolunu sağlar. Bu mekanizma, kuruluşlara verilere hızlı ve güvenli erişim olanağı tanır ve iş karar alma süreçlerini hızlandırır. 2023 yılında yapılan yeni özellikleri ve geliştirmeleri bu tema altında inceleyelim.

AWS Glue Data Catalog, hem Lake Formation hem de DataZone için veri yönetiminin merkezi ve temel bileşenidir. 2023'te Veri Kataloğu'nu federasyon aracılığıyla genişlettik harici Apache Hive meta depolarıyla entegrasyon ve Redshift veri paylaşımları. Biz de kullanıma sunduk bağlayıcı koduVeri Kataloğu'nu ek Apache Hive uyumlu meta depolara bağlamak için özelleştirebileceğiniz . Bu entegrasyonlar, Veri Kataloğuna daha fazla meta veri almanın yolunu açıyor ve ayrıntılı erişim denetimlerine ve bu kaynakların Lake Formation izinleriyle zahmetsizce AWS hesapları arasında paylaşılmasına olanak tanıyor. Ayrıca, bir Bölgenin Veri Kataloğu tablosuna diğer Bölgelerden erişme desteğini de ekledik. Bölgeler arası kaynak bağlantıları. Bu geliştirme, meta verilerin çoğaltılmasını önlemek için birçok kullanım durumunu basitleştirir.

İle AWS CloudTrail Lake federasyonu özelliği sayesinde CloudTrail Lake verilerini Data Catalog'da keşfedebilir, analiz edebilir, birleştirebilir ve diğer veri kaynaklarıyla paylaşabilirsiniz. CloudTrail Lake için ayrıntılı erişim kontrolleri ile sorgulama ve görselleştirme yetenekleri Athena aracılığıyla mevcuttur.

Tek tip desteği desteklemek için Veri Kataloğu yeteneklerini daha da genişlettik Gösterim veri gölünüzün genelinde. Farklı SQL diyalektlerini kullanarak görünümler oluşturabilir ve Athena, Redshift Spectrum ve Amazon EMR'den sorgulama yapabilirsiniz. Bu, izinleri görünüm düzeyinde korumanıza ve tek tek tabloları paylaşmamanıza olanak tanır. Veri Kataloğu görünümleri özelliği önizlemede mevcutre:Invent 2023'te duyuruldu.

Ölçeklendirin ve optimize edin

SQL sorguları, zaman içinde veri değişiklikleri nedeniyle daha karmaşık hale geldikçe veya birden fazla birleştirmeye sahip olduğundan, maliyet tabanlı bir optimize edici (CBO), tablolardaki verilerin istatistiklerine dayalı olarak sorgu planındaki optimizasyonları destekleyebilir ve daha hızlı performansa yol açabilir. 2023'te aşağıdakilere destek ekledik: Veri Kataloğu'ndaki tablolar için sütun düzeyinde istatistikler. Müşteriler, tablo sütunu istatistikleri açıkken Athena ve Redshift Spectrum'da sorgu performansında iyileşmeler görmeye başladı. Chiffres'ı suivez!

Etiket tabanlı erişim kontrolü, veri gölüne her yeni kaynak eklendiğinde politikalarınızı güncelleme ihtiyacını ortadan kaldırır. Bunun yerine, veri gölü yöneticileri Veri Kataloğu nesnelerini etiketlemek ve kullanıcılara ve gruplara bu LF Etiketlerini temel alarak erişim izni vermek için Göl Oluşumu Etiketleri (LF Etiketleri) oluşturur. 2023'te aşağıdakilere destek ekledik: LF-Tag delegasyonuVeri gölü yöneticilerinin, veri yöneticilerine ve diğer kullanıcılara, yönetici ayrıcalıklarına ihtiyaç duymadan LF Etiketlerini yönetme izinleri verebildiği yer. LF-Tag'in demokratikleşmesi!

Apache Iceberg formatı, tabloyu oluşturan veri dosyalarını takip etmek için meta verileri kullanır. Eklemeler veya güncellemeler gibi tablolarda yapılan değişiklikler, yeni veri dosyalarının oluşturulmasına neden olur. Bir tablonun veri dosyalarının sayısı arttıkça o tabloyu kullanan sorguların verimliliği azalabilir. Iceberg tablosundaki sorgu performansını iyileştirmek için, daha küçük değişiklik yakalama dosyalarını daha büyük dosyalara sıkıştırarak veri dosyalarının sayısını azaltmanız gerekir. Kullanıcılar genellikle bu Iceberg tablo dosyalarının optimizasyonunu kendi sunucularında veya AWS Glue ETL aracılığıyla gerçekleştirmek için komut dosyaları oluşturur ve çalıştırır. Iceberg masalarının bu karmaşık bakımını hafifletmek amacıyla müşterilerimiz daha iyi bir çözüm için bize başvurdu. Bu özelliği şunun için tanıttık: Apache Iceberg tablolarının otomatik olarak sıkıştırılması Veri Kataloğunda. Otomatik sıkıştırmayı açtıktan sonra Veri Kataloğu, tablonun meta verilerini otomatik olarak yönetir ve Iceberg tablolarınız için size her zaman optimize edilmiş bir Amazon S3 düzeni sunar. Daha fazla bilgi edinmek için şuraya göz atın Buzdağı tablolarını optimize etme. Otomatik!

Denetim ve izleme

Kimin hangi verilere erişebileceğini bilmek, veri yönetiminin kritik bir bileşenidir. Denetçilerin Lake Formation ve Veri Kataloğu'nda doğru meta veriler ve veri izinlerinin ayarlandığını doğrulaması gerekir. Veri gölü yöneticileri, izinlere ve meta verilere tam erişime sahiptir ve verilerin kendisine erişim izni verebilir. Denetleyicilere, izinlerde değişiklik yapmalarına izin vermeden meta veri izinlerini arama ve inceleme seçeneği sunmak için, salt okunur yönetici rolü Göl Oluşumunda. Bu rol, katalog meta verilerini, Göl Oluşumu izinlerini ve LF Etiketlerini denetlemenize olanak tanırken bunların üzerinde herhangi bir değişiklik yapmasını kısıtlar.

Sonuç

Lake Formation ve Data Catalog'u kullanarak veri yönetiminizi basitleştirmenize ve geliştirmenize yardımcı olacak ürün geliştirmeleri geliştirerek muhteşem bir 2023 geçirdik. Sizi bu yeni özellikleri denemeye davet ediyoruz. Referans olması açısından lansman gönderilerimizin listesi aşağıdadır:

  • Veri Kataloğu ve tarayıcı özellikleri:
  • Göl Oluşumu özellikleri:

2024 yılında müşterilerimiz adına yenilikler yapmaya devam edeceğiz. Lütfen ürün iyileştirmelerimize ilişkin düşüncelerinizi, kullanım örneklerinizi ve geri bildirimlerinizi yorumlar bölümünde veya AWS hesap ekipleriniz aracılığıyla paylaşın. Mutlu ve refah dolu bir 2024 dileriz. Mutlu Yıllar!


yazarlar hakkında

Aarthi Srinivasan AWS Lake Formasyonu ile Kıdemli Büyük Veri Mimarıdır. AWS müşterileri ve iş ortakları için veri gölü çözümleri oluşturmayı seviyor. Klavye başında olmadığı zamanlarda en son bilim ve teknoloji trendlerini keşfediyor ve ailesiyle vakit geçiriyor.

Leon Stigter AWS Lake Formation'da Kıdemli Teknik Ürün Yöneticisidir. Leon'un odak noktası, verileri oyunun kurallarını değiştiren içgörülere dönüştürmek için analitik araçlara kusursuz bağlantıyla geliştiricilerin veri göllerini daha hızlı oluşturmasına yardımcı olmaktır. Leon, verilere ve sunucusuz teknolojilere ilgi duyuyor ve gittiği her yerde cheesecake tatma misyonuyla farklı şehirleri keşfetmekten hoşlanıyor.

spot_img

En Son İstihbarat

spot_img