Bu yazıda, nasıl kullanılacağını araştırıyoruz. AWS Tutkal Veri entegrasyonlarını kolaylaştırmak ve verilerinizin tüm potansiyelini ortaya çıkarmak için Teradata Vantage için yerel bağlayıcı.
İşletmeler sıklıkla güveniyor Amazon Basit Depolama Hizmeti (Amazon S3) çeşitli veri kaynaklarından büyük miktarlarda veriyi uygun maliyetli ve güvenli bir şekilde depolamak için. Veri analizi için Teradata'yı kullananlar için, Teradata Vantage için AWS Glue yerel bağlayıcısı aracılığıyla yapılan entegrasyonlar yeni olanakların kapısını aralıyor. AWS Glue, veri yönetiminin esnekliğini ve verimliliğini artırarak şirketlerin, konumundan bağımsız olarak verilerini Teradata'nın analitik yetenekleriyle sorunsuz bir şekilde entegre etmelerine olanak tanır. Bu yeni bağlayıcı, yapılandırma, güvenlik ve yönetimle ilgili teknik engelleri ortadan kaldırarak şirketlerin veri kümelerini Teradata Vantage'a zahmetsizce dışa veya içe aktarmasına olanak tanır. Sonuç olarak işletmeler, veri entegrasyonunun karmaşıklığıyla uğraşmak yerine, verilerinden anlamlı bilgiler elde etmeye daha fazla odaklanabilirler.
AWS Glue, analiz kullanıcılarının analiz, makine öğrenimi (ML) ve uygulama geliştirme için birden fazla kaynaktan verileri keşfetmesini, hazırlamasını, taşımasını ve entegre etmesini kolaylaştıran sunucusuz bir veri entegrasyon hizmetidir. AWS Glue ile 100'den fazla farklı veri kaynağını keşfedip bunlara bağlanabilir ve verilerinizi merkezi bir veri kataloğunda yönetebilirsiniz. Veri göllerinize veri yüklemek için ayıklama, dönüştürme ve yükleme (ETL) işlem hatlarını görsel olarak oluşturabilir, çalıştırabilir ve izleyebilirsiniz.
Teradata Şirketi şirketlerin tüm verilerini kuruluş genelinde geniş ölçekte kullanmalarına yardımcı olmaya odaklanan, kurumsal analitiklere yönelik önde gelen bağlantılı çoklu bulut veri platformudur. olarak AWS Veri ve Analitik Yetkinliği ortağı Teradata, Makine Öğrenimi de dahil olmak üzere eksiksiz bir bulut analitiği ve veri platformu sunuyor.
Teradata Vantage için AWS Glue yerel bağlayıcıyla tanışın
AWS Glue, hem AWS Glue Studio hem de AWS Glue ETL komut dosyaları aracılığıyla erişilebilen Teradata desteği sağlar. AWS Glue Studio ile Teradata'ya bağlanma ve AWS Glue ETL işlerini yazma, çalıştırma ve izleme sürecini kolaylaştıran görsel bir arayüzden yararlanırsınız. Veri geliştiriciler için bu destek, daha spesifik veri entegrasyonu ve dönüştürme görevleri oluşturmak ve yönetmek için Python veya Scala'yı kullanabileceğiniz AWS Glue ETL komut dosyalarını da kapsar.
Teradata Vantage için AWS Glue yerel bağlayıcısı, herhangi bir bağlayıcı kitaplığı kurmanıza veya yönetmenize gerek kalmadan Teradata'dan verileri verimli bir şekilde okumanıza ve yazmanıza olanak tanır. AWS Glue Studio'nun kodsuz, sürükle ve bırak özellikli görsel arayüzünde Teradata'yı hem kaynak hem de hedef olarak ekleyebilir veya bağlayıcıyı doğrudan bir AWS Glue ETL komut dosyası işinde kullanabilirsiniz.
Çözüme genel bakış
Bu örnekte, Amazon S3'te depolanan verileri zenginleştirmek ve Teradata Vantage'a yüklemek için AWS Glue Studio'yu kullanacaksınız. Etkinlik ve Mekan dosyalarını birleştirerek başlayın. BİLET veri kümesi. Daha sonra sonuçları tek bir coğrafi bölgeye göre filtrelersiniz. Son olarak, hassaslaştırılan verileri Teradata Vantage'a yüklersiniz.
TICKIT veri seti, kullanıcıların spor etkinlikleri, gösteriler ve konserler için çevrimiçi bilet alıp sattığı kurgusal TICKIT web sitesinin satış etkinliğini izliyor. Bu veri setinde analistler zaman içindeki bilet hareketlerini, satıcıların başarı oranlarını ve en çok satan etkinlikleri, mekanları ve sezonları tanımlayabilir.
Bu örnekte, görsel bir ETL işlem hattı geliştirmek için AWS Glue Studio'yu kullanıyorsunuz. Bu işlem hattı, Amazon S3'teki verileri okuyacak, dönüşümler gerçekleştirecek ve ardından dönüştürülen verileri Teradata'ya yükleyecektir. Aşağıdaki diyagram bu mimariyi göstermektedir.
Bu yazının sonunda görsel ETL işiniz aşağıdaki ekran görüntüsüne benzeyecek.
Önkoşullar
Bu örnekte, AWS'den ağ erişilebilirliğine ve tablolar oluşturma ve verileri yükleme ve sorgulama izinlerine sahip mevcut bir Teradata veritabanı uç noktasına erişiminizin olması gerekir.
AWS Glue'nun veri okumak veya yazmak için Teradata'ya ağ erişimine ihtiyacı var. Bunun nasıl yapılandırılacağı, Teradata'nızın nereye dağıtıldığına ve belirli ağ yapılandırmasına bağlıdır. AWS'de dağıtılan Teradata için yapılandırmanız gerekebilir VPC eşlemesi or AWS Özel BağlantıAWS Glue'nun Teradata açık TCP ile iletişim kurmasına izin vermek için . Teradata AWS'nin dışındaysa aşağıdaki gibi ağ hizmetleri AWS Siteden Siteye VPN or AWS Doğrudan Bağlan gerekli olabilir. Güvenlik riskleri nedeniyle halka açık internet erişimi önerilmemektedir. Genel erişimi seçerseniz AWS Glue işini bir VPC'de bir VPC'de çalıştırmak daha güvenlidir. NAT ağ geçidi. Bu yaklaşım, ağ güvenlik duvarınızda gelen trafik için yalnızca bir IP adresini izin verilenler listesine eklemenizi sağlar. Daha fazla bilgi için bkz. AWS Glue'da altyapı güvenliği.
Amazon S3'ü kurun
Amazon S3'teki her nesne bir klasörde depolanır. Verileri Amazon S3'te depolayabilmeniz için önce şunları yapmanız gerekir: S3 paketi oluştur Sonuçları saklamak için. Aşağıdaki adımları tamamlayın:
- Amazon S3 konsolunda şunu seçin: Kepçeler Gezinti bölmesinde.
- Klinik Grup oluştur.
- İçin Name, paketiniz için genel olarak benzersiz bir ad girin; örneğin, Tickit8530923.
- Klinik Grup oluştur.
- Atomic Cüzdanı indirin : BİLET veri kümesini açın ve sıkıştırın.
- S3 klasörünüzde Tickit klasörünü oluşturun ve allevents_pipe.txt ve mekan_pipe.txt dosyalarını yükleyin.
Teradata bağlantılarını yapılandırma
AWS Glue'dan Teradata'ya bağlanmak için bkz. Teradata Bağlantısını Yapılandırma.
Teradata kimlik bilgilerinizi bir AWS Sırları Yöneticisi sırrını oluşturun ve ardından bu sırrı bir Teradata AWS Glue bağlantısıyla ilişkilendirin. Bu iki adımı bu yazının ilerleyen kısımlarında daha ayrıntılı olarak ele alacağız.
AWS Glue ETL işi için bir IAM rolü oluşturun
AWS Glue ETL işini oluşturduğunuzda, AWS Kimlik ve Erişim Yönetimi İşin kullanacağı (IAM) rolü. Rol, Amazon S3 (tüm kaynaklar, hedefler, komut dosyaları, sürücü dosyaları ve geçici dizinler için) ve Secrets Manager dahil olmak üzere iş tarafından kullanılan tüm kaynaklara erişim izni vermelidir. Talimatlar için bkz. ETL işiniz için bir IAM rolü yapılandırın.
Teradata'da tablo oluşturun
Tercih ettiğiniz veritabanı aracını kullanarak Teradata'da oturum açın. Teradata'da verilerinizi yükleyeceğiniz tabloyu oluşturmak için aşağıdaki kodu çalıştırın:
Teradata oturum açma kimlik bilgilerini saklayın
An AWS Tutkal bağlantısı oturum açma kimlik bilgilerini, URI dizelerini ve daha fazlasını depolayan bir Veri Kataloğu nesnesidir. Teradata bağlayıcısı, Teradata'ya bağlanmak için kullandığınız Teradata kullanıcı adını ve parolasını depolamak için Secrets Manager'ı gerektirir.
Teradata kullanıcı adını ve parolasını Secrets Manager'da saklamak için aşağıdaki adımları tamamlayın:
- Secrets Manager konsolunda, sırları Gezinti bölmesinde.
- Klinik Yeni bir sır saklayın.
- seç Diğer tür sır.
- USER anahtarını/değerini girin ve
teradata_user
, Daha sonra seçmek Satır ekle. - Anahtar/değer ŞİFRESİNİ girin ve
teradata_user_password
, Daha sonra seçmek Sonraki.
- İçin Gizli isim, açıklayıcı bir ad girin ve ardından Sonraki.
- Klinik Sonraki inceleme adımına geçmek için ardından mağaza.
AWS Glue'da Teradata bağlantısını oluşturun
Artık Teradata'ya bir AWS Glue bağlantısı oluşturmaya hazırsınız. Aşağıdaki adımları tamamlayın:
- AWS Glue konsolunda seçin Bağlantılar altında Veri Kataloğu Gezinti bölmesinde.
- Klinik Bağlantı oluştur.
- İçin Name, bir ad girin (örneğin,
teradata_connection
). - İçin Bağlantı türüSeç Ter veri.
- İçin Ter veri URL'si, girmek
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - İçin AWS Gizli, daha önce oluşturduğunuz Teradata kimlik bilgilerinizle sırrı seçin.
Verileri dönüştürmek ve Teradata'ya yüklemek için bir AWS Glue görsel ETL işi oluşturun
AWS Glue ETL işinizi oluşturmak için aşağıdaki adımları tamamlayın:
- AWS Tutkal konsolunda, altında ETL İşleri gezinme bölmesinde öğesini seçin. Görsel ETL.
- Klinik Görsel ETL.
- İşinize bir ad girmek için kalem simgesini seçin.
Ekleriz venue_pipe.txt
ilk veri kümemiz olarak.
- Klinik Düğüm ekle Ve seç Amazon S3 üzerinde kaynaklar sekmesi.
- Aşağıdaki veri kaynağı özelliklerini girin:
- İçin Name, Mekan'a girin.
- İçin S3 kaynak türüseçin S3 konumu.
- İçin S3 URL'si, S3 yolunu girin
venue_pipe.txt
. - İçin Veri formatı, seçmek CSV.
- İçin Sınırlayıcı, seçmek Pipe .
- Kaldırın Kaynak dosyanın ilk satırı sütun başlıklarını içeriyor.
Şimdi ekliyoruz allevents_pipe.txt
ikinci veri setimiz olarak.
- Klinik Düğüm ekle Ve seç Amazon S3 üzerinde kaynaklar sekmesi.
- Aşağıdaki veri kaynağı özelliklerini girin:
- İçin Name, Etkinlik'e girin.
- İçin S3 kaynak türüseçin S3 konumu.
- İçin S3 URL'si, S3 yolunu girin
allevents_pipe.txt
. - İçin Veri formatı, seçmek CSV.
- İçin Sınırlayıcı, seçmek Pipe .
- Kaldırın Kaynak dosyanın ilk satırı sütun başlıklarını içeriyor.
Daha sonra Venue veri kümesinin sütunlarını yeniden adlandırıyoruz.
- Klinik Düğüm ekle Ve seç Şemayı Değiştir üzerinde Dönüşümler sekmesi.
- Aşağıdaki dönüştürme özelliklerini girin:
- İçin Name, Mekanı Yeniden Adlandır verilerini girin.
- İçin Düğüm ebeveynleri, Mekan'ı seçin.
- içinde Şemayı Değiştir bölümünde, kaynak anahtarlarını hedef anahtarlarla eşleyin:
- sütun0:
venueid
- sütun1:
venuename
- sütun2:
venuecity
- sütun3:
venuestate
- sütun4:
venueseats
- sütun0:
Şimdi Venue veri kümesini belirli bir coğrafi bölgeye göre filtreliyoruz.
- Klinik Düğüm ekle Ve seç filtre üzerinde Dönüşümler sekmesi.
- Aşağıdaki dönüştürme özelliklerini girin:
- İçin Name, Konum Filtresi'ne girin.
- İçin Düğüm ebeveynleri, Mekan'ı seçin.
- İçin Filtre koşulu, seçmek
venuestate
için anahtar, seçmek maçlar için Çalışmave DC'yi girin Özellik.
Şimdi Etkinlik veri kümesindeki sütunları yeniden adlandırıyoruz.
- Klinik Düğüm ekle Ve seç Şemayı Değiştir üzerinde Dönüşümler sekmesi.
- Aşağıdaki dönüştürme özelliklerini girin:
- İçin Name, Etkinlik verilerini Yeniden Adlandır'ı girin.
- İçin Düğüm ebeveynleri, Etkinlik'i seçin.
- içinde Şemayı Değiştir bölümünde, kaynak anahtarlarını hedef anahtarlarla eşleyin:
- sütun0:
eventid
- sütun1:
e_venueid
- sütun2:
catid
- sütun3:
dateid
- sütun4:
eventname
- sütun5:
starttime
- sütun0:
Daha sonra Mekan ve Etkinlik veri kümelerini birleştiriyoruz.
- Klinik Düğüm ekle Ve seç Kaydol üzerinde Dönüşümler sekmesi.
- Aşağıdaki dönüştürme özelliklerini girin:
- İçin Name, Katıl'a girin.
- İçin Düğüm ebeveynleri, Konum Filtresi'ni ve Etkinlik verilerini Yeniden Adlandır'ı seçin.
- İçin Birleştirme türüSeç İç birleşim.
- İçin Katılma koşulları, seçmek
venueid
için Konum Filtresi vee_venueid
için Etkinlik verilerini yeniden adlandırın.
Şimdi yinelenen sütunu bırakıyoruz.
- Klinik Düğüm ekle Ve seç Şemayı Değiştir üzerinde Dönüşümler sekmesi.
- Aşağıdaki dönüştürme özelliklerini girin:
- İçin Name, Bırak sütununa girin.
- İçin Düğüm ebeveynleriKatıl'ı seçin.
- içinde Şemayı Değiştir bölümünde, seçin Damla için
e_venueid
.
Daha sonra verileri Teradata tablosuna yüklüyoruz.
- Klinik Düğüm ekle Ve seç Ter veri üzerinde Hedefler sekmesi.
- Aşağıdaki veri havuzu özelliklerini girin:
- İçin Name, Teradata'ya girin.
- İçin Düğüm ebeveynleri, Sütunu bırak'ı seçin.
- İçin Ter veri bağlantısı, seçmek
teradata_connection
. - İçin Tablo ismi, girmek
schema.tablename
Teradata'da oluşturduğunuz tablonun.
Son olarak işi çalıştırıp verileri Teradata’ya yüklüyoruz.
- Klinik İndirim, Daha sonra seçmek koşmak.
İşin başladığını belirten bir banner görüntülenecektir.
- Klinik Runs, işin durumunu görüntüler.
Çalıştırma durumu olarak değişecek başarılı iş tamamlandığında.
- Teradata'nıza bağlanın ve ardından verilerin kendisine yüklendiği tabloyu sorgulayın.
İki veri kümesinden filtrelenen ve birleştirilen veriler tabloda yer alacaktır.
Temizlemek
Bu gönderinin bir parçası olarak oluşturulan kaynakların neden olduğu ek ücretlerden kaçınmak amacıyla bu gönderi için AWS hesabında oluşturduğunuz öğeleri sildiğinizden emin olun:
- Teradata kimlik bilgileri için oluşturulan Secrets Manager anahtarı
- Teradata Vantage için AWS Glue yerel bağlayıcısı
- S3 klasörüne yüklenen veriler
- AWS Glue Visual ETL işi
Sonuç
Bu gönderide, AWS Glue'yu kullanarak Teradata'ya bağlantı oluşturdunuz ve ardından verileri Teradata'ya dönüştürüp yüklemek için bir AWS Glue işi oluşturdunuz. Teradata Vantage için AWS Glue yerel bağlayıcısı, verilerinizi Teradata ile entegre etmek için sorunsuz ve etkili bir yol sağlayarak veri analizi yolculuğunuzu güçlendirir. AWS Glue'daki bu yeni özellik yalnızca veri entegrasyonu iş akışlarınızı basitleştirmekle kalmıyor, aynı zamanda gelişmiş analitik, iş zekası ve makine öğrenimi yenilikleri için yeni yollar açıyor.
AWS Teradata Connector ile veri entegrasyonu görevlerini basitleştirmek için elinizin altında en iyi araca sahipsiniz. Amazon S3 verilerini analiz, raporlama veya iş öngörüleri için Teradata'ya yüklemek istiyorsanız, bu yeni bağlayıcı süreci kolaylaştırarak daha erişilebilir ve uygun maliyetli hale getirir.
AWS Glue'yu kullanmaya başlamak için bkz. AWS Glue'ya Başlarken.
Yazarlar Hakkında
Kamen Sharlandjiev Kıdemli Büyük Veri ve ETL Çözümleri Mimarı ve AWS Glue uzmanıdır. Karmaşık veri entegrasyonu zorluklarıyla karşı karşıya kalan müşterilerin hayatını kolaylaştırma misyonundadır. Onun gizli silahı mı? İşin minimum çabayla ve kodlama gerektirmeden yapılmasını sağlayan, tam olarak yönetilen, az kodlu AWS hizmetleri. En son AWS Glue haberlerini takip etmek için Kamen'i LinkedIn'de takip edin!
Sean Bjurstrom Amazon Web Services'te ISV hesaplarında Teknik Hesap Yöneticisi olarak görev yapıyor ve burada analitik teknolojilerinde uzmanlaşıyor ve müşterilere analitik ve bulut yolculuklarında destek olmak için danışmanlık konusundaki geçmişinden yararlanıyor. Sean, işletmelerin inovasyon ve büyümeyi teşvik etmek için verilerin gücünden yararlanmasına yardımcı olma konusunda tutkulu. İş dışında koşmayı seviyor ve birçok maratona katılmış.
Vinod Jayendra Amazon Web Services'te ISV hesaplarında Kurumsal Destek Lideridir ve burada müşterilerin mimari, operasyonel ve maliyet optimizasyonu zorluklarını çözmelerine yardımcı olur. Sunucusuz teknolojilere özel olarak odaklanarak, uygulama geliştirmedeki kapsamlı geçmişinden yararlanarak müşterilerin üst düzey çözümler oluşturmasına yardımcı oluyor. İşinin ötesinde, aileyle kaliteli vakit geçirmekten, bisiklete binme maceralarına atılmaktan ve genç spor takımlarına koçluk yapmaktan keyif alıyor.
Doug Mbaya analitik ve makine öğrenimine odaklanan Kıdemli Ortak Çözüm mimarıdır. Doug, AWS iş ortaklarıyla yakın işbirliği içinde çalışıyor ve çözümlerini buluttaki AWS analitiği ve makine öğrenimi çözümleriyle entegre etmelerine yardımcı oluyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/