Zephyrnet Logosu

Amazon Redshift ile Amazon Aurora MySQL sıfır ETL entegrasyonu için veri filtreleme özelliği duyurusu | Amazon Web Hizmetleri

Tarih:

Kuruluşunuz daha fazla veri odaklı hale geldikçe ve verileri bir rekabet avantajı kaynağı olarak kullandıkça, satışları artırmak, maliyetleri azaltmak ve işinizi optimize etmek için temel iş etkenlerinizi daha iyi anlamak amacıyla verileriniz üzerinde analitik çalıştırmak isteyeceksiniz. Operasyonel verileriniz üzerinde analitiği çalıştırmak için veritabanı, veri ambarı ve çıkarma, dönüştürme ve yükleme (ETL) hattının birleşiminden oluşan bir çözüm oluşturabilirsiniz. ETL, veri mühendislerinin farklı kaynaklardan gelen verileri birleştirmek için kullandığı süreç verisidir.

AWS, işlemsel veritabanları ile veri ambarları arasında ETL işlem hatlarının oluşturulması ve sürdürülmesiyle ilgili çabayı azaltmak için şunları duyurdu: Amazon Redshift ile Amazon Aurora sıfır ETL entegrasyonu at AWS re: 2022'u Keşfet ve artık genel olarak kullanılabilir (GA) Amazon Aurora MySQL Uyumlu Sürüm 3.05.0.

AWS artık sıfır ETL entegrasyonlarında veri filtreleme özelliğinin duyurusunu yapıyor; bu özellik, Amazon Aurora MySQL ve Amazon Aurora MySQL arasındaki sıfır ETL entegrasyonlarında veritabanı bulut sunucusundan seçici veriler getirmenize olanak tanıyor. Amazon Kırmızıya Kaydırma. Bu özellik, analitik kullanım durumları için Redshift veri ambarınıza kopyalanacak ayrı ayrı veritabanlarını ve tabloları seçmenize olanak tanır.

Bu yazıda, bu özelliği kullanabileceğiniz kullanım örneklerine genel bir bakış sunuyoruz ve bu özelliği kullanarak neredeyse gerçek zamanlı operasyonel analitiği kullanmaya nasıl başlayacağınız konusunda adım adım rehberlik sağlıyoruz.

Veri filtreleme kullanım örnekleri

Veri filtreleme, Amazon Aurora MySQL'den Amazon Redshift'e kopyalanacak veritabanlarını ve tabloları seçmenize olanak tanır. Sıfır ETL entegrasyonuna birden fazla filtre uygulayarak çoğaltmayı özel ihtiyaçlarınıza göre uyarlamanıza olanak tanıyabilirsiniz. Veri filtreleme şu şekilde uygulanır: exclude or include filtre kuralı ve birden fazla veritabanını ve tabloyu eşleştirmek için normal ifadeleri kullanabilir.

Bu bölümde veri filtrelemeye yönelik bazı yaygın kullanım örneklerini tartışıyoruz.

PII verilerini içeren tabloları çoğaltma dışında bırakarak veri güvenliğini artırın

Operasyonel veritabanları genellikle kişisel olarak tanımlanabilir bilgiler (PII) içerir. Bu, doğası gereği hassas olan bir bilgidir ve posta adresleri, müşteri doğrulama belgeleri veya kredi kartı bilgileri gibi bilgileri içerebilir.

Sıkı güvenlik uyumluluğu düzenlemeleri nedeniyle, analiz kullanım senaryolarınız için PII'yi kullanmak istemeyebilirsiniz. Veri filtreleme, PII verilerini içeren veritabanlarını veya tabloları Amazon Redshift'e çoğaltma dışında filtrelemenize olanak tanır. Bu, veri güvenliğini ve analitik iş yükleriyle uyumluluğu artırır.

Belirli kullanım durumları için gereken tabloları çoğaltarak depolama maliyetlerinden tasarruf edin ve analitik iş yüklerini yönetin

Operasyonel veritabanları genellikle analitik için yararlı olmayan birçok farklı veri kümesi içerir. Buna ek veriler, spesifik uygulama verileri ve farklı uygulamalar için aynı veri kümesinin birden fazla kopyası dahildir.

Üstelik farklı Redshift depolarında farklı kullanım senaryoları oluşturmak yaygın bir durumdur. Bu mimari, ayrı uç noktalarda farklı veri kümelerinin bulunmasını gerektirir.

Veri filtreleme, yalnızca kullanım senaryolarınız için gerekli olan veri kümelerini çoğaltmanıza olanak tanır. Bu, kullanılmayan verilerin saklanması ihtiyacını ortadan kaldırarak maliyetten tasarruf sağlayabilir.

Ayrıca, istediğiniz yerde daha kısıtlayıcı veri çoğaltma uygulamak için mevcut sıfır ETL entegrasyonlarını da değiştirebilirsiniz. Mevcut bir entegrasyona veri filtresi eklerseniz Aurora, yeni filtreyle çoğaltılan verileri tamamen yeniden değerlendirecektir. Bu, yeni filtrelenen verileri hedef Redshift uç noktasından kaldıracaktır.

Amazon Redshift ile Aurora sıfır ETL entegrasyonlarına yönelik kotalar hakkında daha fazla bilgi için bkz. Kontenjanlar.

Küçük veri çoğaltmayla başlayın ve gerektiği şekilde tabloları aşamalı olarak ekleyin

Amazon Redshift'te daha fazla analitik kullanım örneği geliştirildikçe, bireysel bir sıfır ETL çoğaltmasına daha fazla tablo eklemek isteyebilirsiniz. Veri filtreleme, gelecekte kullanılma olasılığını karşılamak için tüm tabloları Amazon Redshift'e kopyalamak yerine, Aurora veritabanınızdaki tabloların bir alt kümesiyle küçükten başlamanıza ve filtreye gerektikçe artımlı olarak daha fazla tablo eklemenize olanak tanır .

Sıfır ETL entegrasyonundaki veri filtresi güncellendikten sonra Aurora, sanki önceki filtre yokmuş gibi filtrenin tamamını tamamen yeniden değerlendirecek, böylece daha önce çoğaltılmış tabloları kullanan iş yükleri yeni tabloların eklenmesinden etkilenmeyecek.

Çoğaltma işlemlerinin yükünü dengeleyerek bireysel iş yükü performansını artırın

Büyük işlemsel veritabanları için, tek bir Redshift uç noktasına yönelik işlem gereksinimlerinin azaltılmasına ve iş yüklerinin birden çok uç noktaya bölünebilmesine olanak sağlamak amacıyla çoğaltma ve herhangi bir aşağı akış işleminin birden çok Redshift kümesinde yük dengelemesi gerekebilir. Birden fazla Redshift uç noktasında iş yüklerinin yükünü dengeleyerek, uç noktaların bireysel iş yükleri için uygun şekilde boyutlandırıldığı bir veri ağı mimarisini etkili bir şekilde oluşturabilirsiniz. Bu, performansı artırabilir ve genel maliyeti düşürebilir.

Veri filtreleme, Redshift uç noktalarını ayırmak için farklı veritabanlarını ve tabloları çoğaltmanıza olanak tanır.

Aşağıdaki şekil, Redshift uç noktalarını ayırmak amacıyla Aurora'daki farklı veritabanlarını bölmek için sıfır ETL entegrasyonlarındaki veri filtrelerini nasıl kullanabileceğinizi gösterir.

Örnek kullanım durumu

Yi hesaba kat BİLET veri tabanı. TICKIT örnek veritabanı, kullanıcıların çeşitli etkinlikler için bilet alıp satabileceği kurgusal bir şirkete ait verileri içerir. Şirketin iş analistleri, çeşitli ölçümler oluşturmak için Aurora MySQL veritabanında depolanan verileri kullanmak istiyor ve bu analizi neredeyse gerçek zamanlı olarak gerçekleştirmek istiyor. Bu nedenle şirket sıfır ETL'yi potansiyel bir çözüm olarak belirledi.

Şirketin analistleri, gerekli veri kümelerini araştırırken, kullanıcılar tablosunun müşteri kullanıcı bilgileri hakkında analitik gereksinimleri için yararlı olmayan kişisel bilgiler içerdiğini kaydetti. Bu nedenle, kullanıcılar tablosu dışındaki tüm verileri kopyalamak istiyorlar ve bunu yapmak için sıfır ETL'nin veri filtrelemesini kullanacaklar.

Kurmak

bölümündeki adımları takip ederek başlayın Amazon Redshift ile Amazon Aurora sıfır ETL entegrasyonunu kullanarak neredeyse gerçek zamanlı operasyonel analizler için başlangıç ​​kılavuzu yeni bir Aurora MySQL veritabanı oluşturmak için, Amazon Redshift Sunucusuz uç nokta ve sıfır ETL entegrasyonu. Ardından Redshift sorgu düzenleyicisi v2'yi açın ve kullanıcılar tablosundaki verilerin başarıyla çoğaltıldığını göstermek için aşağıdaki sorguyu çalıştırın:

select * from aurora_zeroetl.demodb.users;

Veri filtreleri

Veri filtreleri doğrudan sıfır ETL entegrasyonuna uygulanır. Amazon İlişkisel Veritabanı Hizmeti (Amazon RDS'dir). Tek bir entegrasyon için birden fazla filtre tanımlayabilirsiniz ve her filtre, bir Include or Exclude Filtre tipi. Veri filtreleri, hangi filtrenin uygulanması gerektiğini belirlemek için mevcut ve gelecekteki veritabanı tablolarına bir model uygular.

Veri filtresi uygulama

Kaldırmak amacıyla bir filtre uygulamak için users Sıfır ETL entegrasyonundan tabloya geçmek için aşağıdaki adımları tamamlayın:

  1. Amazon RDS konsolunda, Sıfır ETL entegrasyonları Gezinti bölmesinde.
  2. Filtre eklenecek sıfır ETL entegrasyonunu seçin.

Varsayılan filtre, bir tarafından temsil edilen tüm veritabanlarını ve tabloları içerecektir. include:*.* Filtre.

  1. Klinik değiştirmek.
  2. Klinik filtre ekle içinde Kaynak Bölüm.
  3. İçin Filtre türünü seçin, seçmek Dışlamak.
  4. İçin İfadeyi filtrele, ifadeyi girin demodb.users.

Filtre ifade sırası önemlidir. Filtreler soldan sağa, yukarıdan aşağıya değerlendirilir ve sonraki filtreler önceki filtreleri geçersiz kılar. Bu örnekte Aurora, her tablonun dahil edilmesi gerektiğini (filtre 1) değerlendirecek ve ardından demodb.users tablo hariç tutulmalıdır (filtre 2). Bu nedenle hariç tutma filtresi, dahil etme filtresinden sonra olduğundan dahil etmeyi geçersiz kılar.

  1. Klinik Devam et.
  2. Filtrelerin sırasının doğru olduğundan emin olarak değişiklikleri gözden geçirin ve Değişiklikleri Kaydet.

Entegrasyon eklenecek ve Değiştirme Değişiklikler uygulanana kadar durum. Bu 30 dakika kadar sürebilir. Değişikliklerin uygulanmasının tamamlanıp tamamlanmadığını kontrol etmek için sıfır ETL entegrasyonunu seçin ve durumunu kontrol edin. Olarak gösterildiğinde Aktif, değişiklikler uygulandı.

Değişikliği doğrula

Sıfır ETL entegrasyonunun güncellendiğini doğrulamak için aşağıdaki adımları tamamlayın:

  1. Redshift sorgu düzenleyicisi v2'de Redshift kümenize bağlanın.
  2. öğesini seçin (sağ tıklayın) aurora-zeroetl oluşturduğunuz ve seçtiğiniz veritabanı Yenile.
  3. Genişletmek demodb ve Tables.

The users tablo çoğaltmadan kaldırıldığı için artık kullanılamıyor. Diğer tüm masalar hala mevcuttur.

  1. Daha önce aynı SELECT ifadesini çalıştırırsanız, nesnenin veritabanında mevcut olmadığını belirten bir hata alırsınız:
    select * from aurora_zeroetl.demodb.users;

AWS CLI'yi kullanarak veri filtresi uygulama

Şirketin iş analistleri artık Aurora MySQL veritabanına daha fazla veritabanının eklendiğini anlıyor ve yalnızca demodb veritabanı Redshift kümesine kopyalanır. Bu amaçla sıfır ETL entegrasyonundaki filtreleri güncellemek istiyorlar. AWS Komut Satırı Arayüzü (AWS CLI'si).

AWS CLI'yi kullanarak sıfır ETL entegrasyonuna veri filtreleri eklemek için entegrasyon değişikliği emretmek. Entegrasyon tanımlayıcısına ek olarak şunu belirtin: --data-filter virgülle ayrılmış liste içeren parametre include ve exclude filtreler.

Sıfır ETL entegrasyonundaki filtreyi değiştirmek için aşağıdaki adımları tamamlayın:

  1. AWS CLI'nin kurulu olduğu bir terminal açın.
  2. Mevcut tüm entegrasyonları listelemek için aşağıdaki komutu girin:
    aws rds describe-integrations

  3. Güncellemek istediğiniz entegrasyonu bulun ve entegrasyon tanımlayıcısını kopyalayın.

Entegrasyon tanımlayıcısı, entegrasyon ARN'sinin sonundaki alfasayısal bir dizedir.

  1. Aşağıdaki komutu çalıştırın, güncelleyin önceki adımdan kopyalanan tanımlayıcıyla:
    aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude: demodb.users'

Aurora bu filtreyi değerlendirirken varsayılan olarak her şeyi hariç tutacak, ardından yalnızca demodb veritabanı, ancak hariç tutun demodb.users tablo.

Veri filtreleri, veritabanları ve tablolar için normal ifadeler uygulayabilir. Örneğin, ile başlayan tabloları filtrelemek istiyorsanız useraşağıdakileri çalıştırabilirsiniz:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude *./^user/'

Önceki filtre değişikliğinde olduğu gibi entegrasyon eklenecek ve Değiştirme Değişiklikler uygulanana kadar durum. Bu 30 dakika kadar sürebilir. Olarak gösterildiğinde Aktif, değişiklikler uygulandı.

Temizlemek

Sıfır ETL entegrasyonuna eklenen filtreyi kaldırmak için aşağıdaki adımları tamamlayın:

  1. Amazon RDS konsolunda, Sıfır ETL entegrasyonları Gezinti bölmesinde.
  2. Sıfır ETL entegrasyonunuzu seçin.
  3. Klinik değiştirmek.
  4. Klinik Kaldır Kaldırmak istediğiniz filtrelerin yanındaki
  5. Ayrıca değiştirebilirsiniz. Dışlamak filtre türü Dahil.

Alternatif olarak aşağıdakileri çalıştırmak için AWS CLI'yi kullanabilirsiniz:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'include: *.*'

  1. Klinik Devam et.
  2. Klinik Değişiklikleri Kaydet.

Veri filtresinin değişikliklerin uygulanması 30 dakika kadar sürecektir. Veri filtrelerini kaldırdıktan sonra Aurora, sanki kaldırılan filtre hiç var olmamış gibi kalan filtreleri yeniden değerlendirir. Daha önce filtreleme kriterleriyle eşleşmeyen ancak şimdi eşleşen tüm veriler, hedef Redshift veri ambarına kopyalanır.

Sonuç

Bu yazıda size Amazon Aurora MySQL'den Amazon Redshift'e Aurora sıfır ETL entegrasyonunuzda veri filtrelemeyi nasıl ayarlayacağınızı gösterdik. Bu, yalnızca gerekli verileri kopyalarken işlemsel ve operasyonel veriler üzerinde gerçek zamanlıya yakın analitiği etkinleştirmenize olanak tanır.

Veri filtrelemeyle iş yüklerini ayrı Redshift uç noktalarına bölebilir, özel veya gizli veri kümelerinin çoğaltılmasını sınırlandırabilir ve yalnızca gerekli veri kümelerini kopyalayarak iş yüklerinin performansını artırabilirsiniz.

Amazon Redshift ile Aurora sıfır ETL entegrasyonu hakkında daha fazla bilgi edinmek için bkz. Amazon Redshift ile Aurora sıfır ETL entegrasyonlarıyla çalışma ve Sıfır ETL entegrasyonlarıyla çalışma.


yazarlar hakkında

Jyoti Aggarwal AWS Zero-ETL'nin Ürün Yönetimi Lideridir. Performans, müşteri deneyimi ve güvenlikle ilgili girişimlerin desteklenmesi de dahil olmak üzere ürün ve iş stratejisine liderlik ediyor. Bulut bilişim, veri işlem hatları, analitik, yapay zeka (AI) ve veritabanları, veri ambarları ve veri gölleri dahil veri hizmetleri konularında uzmanlığını beraberinde getiriyor.


Sean Bey
Amazon Web Services'te Analitik Çözümler Mimarıdır. AWS hizmetlerini kullanarak veri platformu modernizasyonunun tüm teslimat yaşam döngüsünde deneyime sahiptir ve AWS'de analitik değerini artırmaya yardımcı olmak için müşterilerle birlikte çalışır.

Gökul Soundararajan AWS'de baş mühendistir ve Toronto Üniversitesi'nden doktora derecesi almıştır ve depolama, veritabanları ve analitik alanlarında çalışmaktadır.

spot_img

En Son İstihbarat

spot_img