Zephyrnet-Logo

Bereiten Sie Amazon S3-Daten mit AWS Glue über den nativen Connector für Teradata Vantage | vor und laden Sie sie in Teradata Amazon Web Services

Datum:

In diesem Beitrag untersuchen wir, wie man das verwendet AWS-Kleber Nativer Connector für Teradata Vantage, um Datenintegrationen zu optimieren und das volle Potenzial Ihrer Daten auszuschöpfen.

Unternehmen verlassen sich oft darauf Amazon Simple Storage-Service (Amazon S3) zur kostengünstigen und sicheren Speicherung großer Datenmengen aus verschiedenen Datenquellen. Für diejenigen, die Teradata zur Datenanalyse nutzen, eröffnen Integrationen über den nativen AWS Glue-Connector für Teradata Vantage neue Möglichkeiten. AWS Glue erhöht die Flexibilität und Effizienz des Datenmanagements und ermöglicht Unternehmen die nahtlose Integration ihrer Daten unabhängig von ihrem Speicherort mit den Analysefunktionen von Teradata. Dieser neue Konnektor beseitigt technische Hürden im Zusammenhang mit Konfiguration, Sicherheit und Verwaltung und ermöglicht Unternehmen den mühelosen Export oder Import ihrer Datensätze in Teradata Vantage. Dadurch können sich Unternehmen mehr darauf konzentrieren, aussagekräftige Erkenntnisse aus ihren Daten zu gewinnen, anstatt sich mit den Feinheiten der Datenintegration auseinanderzusetzen.

AWS Glue ist ein serverloser Datenintegrationsdienst, der es Analysebenutzern leicht macht, Daten aus mehreren Quellen für Analysen, maschinelles Lernen (ML) und Anwendungsentwicklung zu entdecken, vorzubereiten, zu verschieben und zu integrieren. Mit AWS Glue können Sie mehr als 100 verschiedene Datenquellen entdecken und mit ihnen verbinden und Ihre Daten in einem zentralen Datenkatalog verwalten. Sie können ETL-Pipelines (Extrahieren, Transformieren und Laden) visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes zu laden.

Teradata Corporation ist eine führende vernetzte Multi-Cloud-Datenplattform für Unternehmensanalysen, die sich darauf konzentriert, Unternehmen dabei zu helfen, alle ihre Daten unternehmensweit und in großem Maßstab zu nutzen. Als AWS-Daten- und Analysekompetenz Als Partner bietet Teradata eine komplette Cloud-Analyse- und Datenplattform, auch für maschinelles Lernen.

Einführung des nativen AWS Glue-Connectors für Teradata Vantage

AWS Glue bietet Unterstützung für Teradata, auf die sowohl über AWS Glue Studio als auch über AWS Glue ETL-Skripte zugegriffen werden kann. Mit AWS Glue Studio profitieren Sie von einer visuellen Schnittstelle, die den Prozess der Verbindung mit Teradata sowie das Verfassen, Ausführen und Überwachen von AWS Glue ETL-Jobs vereinfacht. Für Datenentwickler erstreckt sich diese Unterstützung auf AWS Glue ETL-Skripte, mit denen Sie Python oder Scala verwenden können, um spezifischere Datenintegrations- und Transformationsaufgaben zu erstellen und zu verwalten.

Der native AWS Glue-Connector für Teradata Vantage ermöglicht Ihnen das effiziente Lesen und Schreiben von Daten aus Teradata, ohne Connector-Bibliotheken installieren oder verwalten zu müssen. Sie können Teradata sowohl als Quelle als auch als Ziel in der visuellen Benutzeroberfläche von AWS Glue Studio ohne Code und per Drag-and-Drop hinzufügen oder den Connector direkt in einem AWS Glue ETL-Skriptauftrag verwenden.

Lösungsüberblick

In diesem Beispiel verwenden Sie AWS Glue Studio, um auf Amazon S3 gespeicherte Daten anzureichern und auf Teradata Vantage hochzuladen. Sie beginnen mit dem Zusammenfügen der Veranstaltungs- und Veranstaltungsortdateien aus dem KREUZEN SIE AN Datensatz. Als Nächstes filtern Sie die Ergebnisse nach einer einzelnen geografischen Region. Abschließend laden Sie die verfeinerten Daten auf Teradata Vantage hoch.

Der TICKIT-Datensatz verfolgt die Verkaufsaktivitäten für die fiktive TICKIT-Website, auf der Benutzer online Tickets für Sportveranstaltungen, Shows und Konzerte kaufen und verkaufen. In diesem Datensatz können Analysten Ticketbewegungen im Laufe der Zeit, Erfolgsraten für Verkäufer sowie meistverkaufte Veranstaltungen, Veranstaltungsorte und Saisons identifizieren.

In diesem Beispiel verwenden Sie AWS Glue Studio, um eine visuelle ETL-Pipeline zu entwickeln. Diese Pipeline liest Daten aus Amazon S3, führt Transformationen durch und lädt die transformierten Daten dann in Teradata. Das folgende Diagramm veranschaulicht diese Architektur.

Die Lösung im Überblick

Am Ende dieses Beitrags wird Ihr visueller ETL-Job dem folgenden Screenshot ähneln.

Visueller ETL-Jobablauf

Voraussetzungen:

Für dieses Beispiel sollten Sie Zugriff auf einen vorhandenen Teradata-Datenbankendpunkt mit Netzwerkerreichbarkeit von AWS und Berechtigungen zum Erstellen von Tabellen sowie zum Laden und Abfragen von Daten haben.

AWS Glue benötigt Netzwerkzugriff auf Teradata, um Daten lesen oder schreiben zu können. Wie dies konfiguriert wird, hängt davon ab, wo Ihre Teradata bereitgestellt werden und von der spezifischen Netzwerkkonfiguration. Für auf AWS bereitgestellte Teradata müssen Sie möglicherweise konfigurieren VPC-Peering or AWS PrivateLink, Sicherheitsgruppen und Netzwerkzugriffskontrolllisten (NACLs), um AWS Glue die Kommunikation mit Teradata Overt TCP zu ermöglichen. Wenn Teradata außerhalb von AWS liegt, sind Netzwerkdienste wie z AWS Site-to-Site-VPN or AWS Direktverbindung wird vielleicht benötigt. Aufgrund von Sicherheitsrisiken wird ein öffentlicher Internetzugang nicht empfohlen. Wenn Sie öffentlichen Zugriff wählen, ist es sicherer, den AWS Glue-Job in einer VPC hinter einem auszuführen NAT-Gateway. Mit diesem Ansatz können Sie nur eine IP-Adresse für eingehenden Datenverkehr in Ihrer Netzwerk-Firewall zulassen. Weitere Informationen finden Sie unter Infrastruktursicherheit in AWS Glue.

Richten Sie Amazon S3 ein

Jedes Objekt in Amazon S3 wird in einem Bucket gespeichert. Bevor Sie Daten in Amazon S3 speichern können, müssen Sie dies tun Erstellen Sie einen S3-Bucket um die Ergebnisse zu speichern. Führen Sie die folgenden Schritte aus:

  1. Wählen Sie in der Amazon S3-Konsole aus Eimer im Navigationsbereich.
  2. Auswählen Eimer erstellen.
  3. Aussichten für Name und VornameGeben Sie einen weltweit eindeutigen Namen für Ihren Bucket ein. zum Beispiel tickit8530923.
  4. Auswählen Eimer erstellen.
  5. Laden Sie die KREUZEN SIE AN Datensatz und entpacken Sie ihn.
  6. Erstellen Sie den Ordner tickit in Ihrem S3-Bucket und laden Sie die Dateien allevents_pipe.txt und Venue_pipe.txt hoch.

Konfigurieren Sie Teradata-Verbindungen

Informationen zum Herstellen einer Verbindung zu Teradata über AWS Glue finden Sie unter Konfigurieren der Teradata-Verbindung.

Sie müssen Ihre Teradata-Anmeldeinformationen erstellen und in einem speichern AWS Secrets Manager Secret und verknüpfen Sie dieses Secret dann mit einer Teradata AWS Glue-Verbindung. Wir werden diese beiden Schritte später in diesem Beitrag ausführlicher besprechen.

Erstellen Sie eine IAM-Rolle für den AWS Glue ETL-Job

Wenn Sie den AWS Glue ETL-Auftrag erstellen, geben Sie einen an AWS Identity and Access Management and (IAM)-Rolle, die der Job verwenden soll. Die Rolle muss Zugriff auf alle vom Job verwendeten Ressourcen gewähren, einschließlich Amazon S3 (für alle Quellen, Ziele, Skripte, Treiberdateien und temporäre Verzeichnisse) und Secrets Manager. Anweisungen finden Sie unter Konfigurieren Sie eine IAM-Rolle für Ihren ETL-Job.

Erstellen Sie eine Tabelle in Teradata

Melden Sie sich mit Ihrem bevorzugten Datenbanktool bei Teradata an. Führen Sie den folgenden Code aus, um die Tabelle in Teradata zu erstellen, in die Sie Ihre Daten laden:

CREATE MULTISET TABLE test.tickit, FALLBACK
   (venueid varchar(25),
    venuename varchar(100),
    venuecity varchar(100),
    venuestate varchar(25),
    venueseats varchar(25),
    eventid varchar(25),
    catid varchar(25),
    dateid varchar(25),
    eventname varchar(100),
    starttime varchar(100))
    NO PRIMARY INDEX
;

Speichern Sie die Anmeldeinformationen für Teradata

An AWS Glue-Verbindung ist ein Datenkatalogobjekt, das Anmeldeinformationen, URI-Zeichenfolgen und mehr speichert. Für den Teradata-Connector ist Secrets Manager zum Speichern des Teradata-Benutzernamens und -Kennworts erforderlich, mit dem Sie eine Verbindung zu Teradata herstellen.

Führen Sie die folgenden Schritte aus, um den Teradata-Benutzernamen und das Kennwort in Secrets Manager zu speichern:

  1. Wählen Sie in der Secrets Manager-Konsole aus Geheimnisse im Navigationsbereich.
  2. Auswählen Speichern Sie ein neues Geheimnis.
  3. Auswählen Andere Art von Geheimnis.
  4. Geben Sie den Schlüssel/Wert USER und ein teradata_user, Dann wählen Zeile hinzufügen.
  5. Geben Sie den Schlüssel/Wert PASSWORT ein und teradata_user_password, Dann wählen Weiter.

Teradata Secrets Manager-Konfiguration

  1. Aussichten für Geheimer Name, geben Sie einen beschreibenden Namen ein und wählen Sie dann Weiter.
  2. Auswählen Weiter , um zum Überprüfungsschritt zu gelangen, und wählen Sie dann aus Geschäft.

Erstellen Sie die Teradata-Verbindung in AWS Glue

Jetzt können Sie eine AWS Glue-Verbindung zu Teradata erstellen. Führen Sie die folgenden Schritte aus:

  1. Wählen Sie in der AWS Glue-Konsole aus Verbindungen für Datenkatalog im Navigationsbereich.
  2. Auswählen Verbindung herstellen.
  3. Aussichten für Name und VornameGeben Sie einen Namen ein (z. B. teradata_connection).
  4. Aussichten für Verbindungstypwählen Teradata.
  5. Aussichten für Teradata-URL, eingeben jdbc:teradata://url_of_teradata/database=name_of_your_database.
  6. Aussichten für AWS-Geheimnis, wählen Sie das Geheimnis mit Ihren Teradata-Anmeldeinformationen aus, das Sie zuvor erstellt haben.

Zugriff auf die Teradata-Verbindung

Erstellen Sie einen visuellen AWS Glue-ETL-Auftrag, um Daten zu transformieren und in Teradata zu laden

Führen Sie die folgenden Schritte aus, um Ihren AWS Glue ETL-Job zu erstellen:

  1. Auf der AWS Glue-Konsole unter ETL-Jobs Wählen Sie im Navigationsbereich Visuelles ETL.
  2. Auswählen Visuelles ETL.
  3. Wählen Sie das Stiftsymbol, um einen Namen für Ihren Job einzugeben.

Wir fügen hinzu venue_pipe.txt als unser erster Datensatz.

  1. Auswählen Knoten hinzufügen und wählen Sie Amazon S3 auf die Quellen Tab.

Amazon S3-Quellknoten

  1. Geben Sie die folgenden Datenquelleneigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie den Veranstaltungsort ein.
    2. Aussichten für S3-QuellentypWählen S3 Standort.
    3. Aussichten für S3-URLGeben Sie den S3-Pfad ein venue_pipe.txt.
    4. Aussichten für Datei Format, wählen CSV.
    5. Aussichten für Trennzeichen, wählen Pipe .
    6. Deaktivieren Die erste Zeile der Quelldatei enthält Spaltenüberschriften.

Eigenschaften der S3-Datenquelle

Jetzt fügen wir hinzu allevents_pipe.txt als unser zweiter Datensatz.

  1. Auswählen Knoten hinzufügen und wählen Sie Amazon S3 auf die Quellen Tab.
  2. Geben Sie die folgenden Datenquelleneigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie Ereignis ein.
    2. Aussichten für S3-QuellentypWählen S3 Standort.
    3. Aussichten für S3-URLGeben Sie den S3-Pfad ein allevents_pipe.txt.
    4. Aussichten für Datei Format, wählen CSV.
    5. Aussichten für Trennzeichen, wählen Pipe .
    6. Deaktivieren Die erste Zeile der Quelldatei enthält Spaltenüberschriften.

Als Nächstes benennen wir die Spalten des Venue-Datensatzes um.

  1. Auswählen Knoten hinzufügen und wählen Sie Schema ändern auf die Verwandelt sich Tab.
  2. Geben Sie die folgenden Transformationseigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie „Veranstaltungsortdaten umbenennen“ ein.
    2. Aussichten für Knoteneltern, wählen Sie Veranstaltungsort.
    3. Im Schema ändern Ordnen Sie im Abschnitt die Quellschlüssel den Zielschlüsseln zu:
      1. col0: venueid
      2. col1: venuename
      3. col2: venuecity
      4. col3: venuestate
      5. col4: venueseats

Benennen Sie die ETL-Transformation der Veranstaltungsortdaten um

Jetzt filtern wir den Venue-Datensatz nach einer bestimmten geografischen Region.

  1. Auswählen Knoten hinzufügen und wählen Sie Filter auf die Verwandelt sich Tab.
  2. Geben Sie die folgenden Transformationseigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie den Standortfilter ein.
    2. Aussichten für Knoteneltern, wählen Sie Veranstaltungsort.
    3. Aussichten für Filterbedingung, wählen venuestate für Wesentliche, wählen Streichhölzer für Produktion, und geben Sie DC für ein Wert.

Standortfiltereinstellungen

Jetzt benennen wir die Spalten im Ereignisdatensatz um.

  1. Auswählen Knoten hinzufügen und wählen Sie Schema ändern auf die Verwandelt sich Tab.
  2. Geben Sie die folgenden Transformationseigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie „Ereignisdaten umbenennen“ ein.
    2. Aussichten für Knoteneltern, wählen Sie Ereignis.
    3. Im Schema ändern Ordnen Sie im Abschnitt die Quellschlüssel den Zielschlüsseln zu:
      1. col0: eventid
      2. col1: e_venueid
      3. col2: catid
      4. col3: dateid
      5. col4: eventname
      6. col5: starttime

Als Nächstes verbinden wir die Datensätze „Veranstaltungsort“ und „Veranstaltung“.

  1. Auswählen Knoten hinzufügen und wählen Sie Bewirb dich bei uns! auf die Verwandelt sich Tab.
  2. Geben Sie die folgenden Transformationseigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie „Beitreten“ ein.
    2. Aussichten für Knoteneltern, wählen Sie „Standortfilter“ und „Ereignisdaten umbenennen“.
    3. Aussichten für Join-Typwählen Innere Verbindung.
    4. Aussichten für Teilnahmebedingungen, wählen venueid für Standortfilter und e_venueid für Ereignisdaten umbenennen.

Treten Sie Eigenschaften bei

Jetzt löschen wir die doppelte Spalte.

  1. Auswählen Knoten hinzufügen und wählen Sie Schema ändern auf die Verwandelt sich Tab.
  2. Geben Sie die folgenden Transformationseigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie die Drop-Spalte ein.
    2. Aussichten für Knoteneltern, wählen Sie „Beitreten“.
    3. Im Schema ändern Abschnitt auswählen Drop für e_venueid .

Spalteneigenschaften löschen

Als nächstes laden wir die Daten in die Teradata-Tabelle.

  1. Auswählen Knoten hinzufügen und wählen Sie Teradata auf die Targets Tab.
  2. Geben Sie die folgenden Datensenkeneigenschaften ein:
    1. Aussichten für Name und Vorname, geben Sie Teradata ein.
    2. Aussichten für Knoteneltern, wählen Sie Spalte löschen.
    3. Aussichten für Teradata-Verbindung, wählen teradata_connection.
    4. Aussichten für Tabellenname, eingeben schema.tablename der Tabelle, die Sie in Teradata erstellt haben.

Eigenschaften der Datensenke Teradata

Zuletzt führen wir den Job aus und laden die Daten in Teradata.

  1. Auswählen Speichern, Dann wählen Führen Sie.

Ein Banner zeigt an, dass der Job gestartet wurde.

  1. Auswählen Läuft, das den Status des Jobs anzeigt.

Der Laufstatus ändert sich in Gelungen wenn der Auftrag abgeschlossen ist.

Ausführungsstatus

  1. Stellen Sie eine Verbindung zu Ihrem Teradata her und fragen Sie dann die Tabelle ab, in die die Daten geladen wurden.

Die gefilterten und verbundenen Daten aus den beiden Datensätzen werden in der Tabelle angezeigt.

Ergebnis der gefilterten und zusammengeführten Daten

Aufräumen

Um zusätzliche Kosten durch im Rahmen dieses Beitrags erstellte Ressourcen zu vermeiden, stellen Sie sicher, dass Sie die Elemente löschen, die Sie im AWS-Konto für diesen Beitrag erstellt haben:

  • Der Secrets Manager-Schlüssel, der für die Teradata-Anmeldeinformationen erstellt wurde
  • Der native AWS Glue-Connector für Teradata Vantage
  • Die in den S3-Bucket geladenen Daten
  • Der AWS Glue Visual ETL-Job

Zusammenfassung

In diesem Beitrag haben Sie mithilfe von AWS Glue eine Verbindung zu Teradata erstellt und anschließend einen AWS Glue-Auftrag erstellt, um Daten umzuwandeln und in Teradata zu laden. Der native AWS Glue-Connector für Teradata Vantage unterstützt Sie bei der Datenanalyse, indem er einen nahtlosen und effizienten Weg zur Integration Ihrer Daten in Teradata bietet. Diese neue Funktion in AWS Glue vereinfacht nicht nur Ihre Datenintegrations-Workflows, sondern eröffnet auch neue Möglichkeiten für fortschrittliche Analysen, Business Intelligence und Innovationen im Bereich maschinelles Lernen.

Mit dem AWS Teradata Connector steht Ihnen das beste Tool zur Vereinfachung von Datenintegrationsaufgaben zur Verfügung. Ganz gleich, ob Sie Amazon S3-Daten für Analysen, Berichte oder Geschäftseinblicke in Teradata laden möchten, dieser neue Connector rationalisiert den Prozess und macht ihn zugänglicher und kostengünstiger.

Informationen zu den ersten Schritten mit AWS Glue finden Sie unter Erste Schritte mit AWS Glue.


Über die Autoren

Kamen Sharlandjiev ist Senior Big Data and ETL Solutions Architect und AWS Glue-Experte. Seine Mission ist es, Kunden, die vor komplexen Herausforderungen bei der Datenintegration stehen, das Leben zu erleichtern. Seine Geheimwaffe? Vollständig verwaltete Low-Code-AWS-Services, die Ihre Arbeit mit minimalem Aufwand und ohne Programmieraufwand erledigen können. Folgen Sie Kamen auf LinkedIn, um über die neuesten AWS Glue-Neuigkeiten auf dem Laufenden zu bleiben!

Sean Bjurstrom ist technischer Account Manager für ISV-Konten bei Amazon Web Services, wo er sich auf Analysetechnologien spezialisiert hat und auf seinen Hintergrund in der Beratung zurückgreift, um Kunden auf ihren Analysen und Cloud-Reisen zu unterstützen. Seans Leidenschaft liegt darin, Unternehmen dabei zu helfen, das Potenzial von Daten zu nutzen, um Innovation und Wachstum voranzutreiben. Außerhalb der Arbeit läuft er gerne und hat an mehreren Marathons teilgenommen.

Vinod Jayendra ist Enterprise Support Lead für ISV-Konten bei Amazon Web Services, wo er Kunden bei der Lösung ihrer Architektur-, Betriebs- und Kostenoptimierungsherausforderungen unterstützt. Mit besonderem Fokus auf serverlose Technologien greift er auf seinen umfassenden Hintergrund in der Anwendungsentwicklung zurück, um Kunden beim Aufbau erstklassiger Lösungen zu unterstützen. Neben der Arbeit findet er Freude an der Zeit mit der Familie, an Radabenteuern und an der Betreuung von Jugendsportteams.

Doug Mbaya ist Senior Partner Solution Architect mit Schwerpunkt auf Analytik und maschinellem Lernen. Doug arbeitet eng mit AWS-Partnern zusammen und hilft ihnen bei der Integration ihrer Lösungen mit AWS-Analyse- und maschinellen Lernlösungen in der Cloud.

spot_img

Neueste Intelligenz

spot_img