Zephyrnet-Logo

7 Schritte zur Beherrschung des Data Engineering – KDnuggets

Datum:

7 Schritte zur Beherrschung des Data Engineering
Bild vom Autor
 

Unter Data Engineering versteht man den Prozess der Erstellung und Pflege von Strukturen und Systemen, die Daten sammeln, speichern und in ein Format umwandeln, das von Datenwissenschaftlern, Analysten und Geschäftsinteressenten leicht analysiert und verwendet werden kann. Diese Roadmap hilft Ihnen bei der Beherrschung verschiedener Konzepte und Tools und ermöglicht Ihnen den effektiven Aufbau und die Ausführung verschiedener Arten von Datenpipelines.

Durch die Containerisierung können Entwickler ihre Anwendungen und Abhängigkeiten in leichte, tragbare Container packen, die in verschiedenen Umgebungen konsistent ausgeführt werden können. Infrastructure as Code hingegen ist die Praxis der Verwaltung und Bereitstellung von Infrastruktur durch Code, die es Entwicklern ermöglicht, Cloud-Infrastruktur zu definieren, zu versionieren und zu automatisieren.

Im ersten Schritt werden Sie in die Grundlagen der SQL-Syntax, der Docker-Container und der Postgres-Datenbank eingeführt. Sie erfahren, wie Sie mit Docker lokal einen Datenbankserver initiieren und eine Datenpipeline in Docker erstellen. Darüber hinaus entwickeln Sie ein Verständnis für Google Cloud Provider (GCP) und Terraform. Terraform wird Ihnen besonders bei der Bereitstellung Ihrer Tools, Datenbanken und Frameworks in der Cloud nützlich sein.

Die Workflow-Orchestrierung verwaltet und automatisiert den Datenfluss durch verschiedene Verarbeitungsphasen, wie z. B. Datenaufnahme, -bereinigung, -transformation und -analyse. Es ist eine effizientere, zuverlässigere und skalierbarere Art, Dinge zu erledigen.

Im zweiten Schritt lernen Sie Datenorchestrierungstools wie Airflow, Mage oder Prefect kennen. Sie sind alle Open Source und verfügen über mehrere wesentliche Funktionen zum Beobachten, Verwalten, Bereitstellen und Ausführen der Datenpipeline. Sie erfahren, wie Sie Prefect mit Docker einrichten und eine ETL-Pipeline mit Postgres, Google Cloud Storage (GCS) und BigQuery-APIs erstellen. 

Probieren Sie auch die 5 Airflow-Alternativen für die Datenorchestrierung und wählen Sie diejenige aus, die für Sie besser funktioniert.

Unter Data Warehousing versteht man den Prozess des Sammelns, Speicherns und Verwaltens großer Datenmengen aus verschiedenen Quellen in einem zentralen Repository, um die Analyse und Gewinnung wertvoller Erkenntnisse zu erleichtern.

Im dritten Schritt erfahren Sie alles über das Data Warehouse von Postgres (lokal) oder BigQuery (Cloud). Sie lernen die Konzepte der Partitionierung und des Clustering kennen und tauchen in die Best Practices von BigQuery ein. BigQuery bietet außerdem eine Integration für maschinelles Lernen, mit der Sie Modelle für große Datenmengen, die Optimierung von Hyperparametern, die Vorverarbeitung von Funktionen und die Modellbereitstellung trainieren können. Es ist wie SQL für maschinelles Lernen.

Analytics Engineering ist eine Spezialdisziplin, die sich auf den Entwurf, die Entwicklung und die Wartung von Datenmodellen und Analysepipelines für Business-Intelligence- und Data-Science-Teams konzentriert. 

Im vierten Schritt erfahren Sie, wie Sie mithilfe von dbt (Data Build Tool) eine analytische Pipeline mit einem vorhandenen Data Warehouse wie BigQuery oder PostgreSQL erstellen. Sie erhalten ein Verständnis für Schlüsselkonzepte wie ETL vs. ELT sowie für die Datenmodellierung. Sie lernen außerdem erweiterte DBT-Funktionen wie inkrementelle Modelle, Tags, Hooks und Snapshots kennen. 

Am Ende lernen Sie, Visualisierungstools wie Google Data Studio und Metabase zum Erstellen interaktiver Dashboards und Datenanalyseberichte zu verwenden.

Bei der Stapelverarbeitung handelt es sich um eine datentechnische Technik, bei der große Datenmengen stapelweise (minütlich, stündlich oder sogar tageweise) verarbeitet werden, anstatt Daten in Echtzeit oder nahezu in Echtzeit zu verarbeiten. 

Im fünften Schritt Ihrer Lernreise werden Sie in die Stapelverarbeitung mit Apache Spark eingeführt. Sie erfahren, wie Sie es auf verschiedenen Betriebssystemen installieren, mit Spark SQL und DataFrames arbeiten, Daten vorbereiten, SQL-Operationen durchführen und ein Verständnis für die Interna von Spark erlangen. Gegen Ende dieses Schritts erfahren Sie außerdem, wie Sie Spark-Instanzen in der Cloud starten und in das Data Warehouse BigQuery integrieren.

Unter Streaming versteht man das Sammeln, Verarbeiten und Analysieren von Daten in Echtzeit oder nahezu in Echtzeit. Im Gegensatz zur herkömmlichen Stapelverarbeitung, bei der Daten in regelmäßigen Abständen erfasst und verarbeitet werden, ermöglicht die Streaming-Datenverarbeitung eine kontinuierliche Analyse der aktuellsten Informationen.

Im sechsten Schritt lernen Sie das Datenstreaming mit Apache Kafka kennen. Beginnen Sie mit den Grundlagen und tauchen Sie dann in die Integration mit Confluent Cloud und praktische Anwendungen ein, die Produzenten und Verbraucher einbeziehen. Darüber hinaus müssen Sie sich mit Stream-Joins, Tests, Windowing und der Verwendung von Kafka ksqldb & Connect vertraut machen. 

Wenn Sie verschiedene Tools für verschiedene Data-Engineering-Prozesse erkunden möchten, können Sie hier nachschlagen 14 unverzichtbare Data-Engineering-Tools für den Einsatz im Jahr 2024.

Im letzten Schritt nutzen Sie alle Konzepte und Tools, die Sie in den vorherigen Schritten erlernt haben, um ein umfassendes End-to-End-Data-Engineering-Projekt zu erstellen. Dazu gehört der Aufbau einer Pipeline zur Verarbeitung der Daten, die Speicherung der Daten in einem Data Lake, die Erstellung einer Pipeline zur Übertragung der verarbeiteten Daten vom Data Lake in ein Data Warehouse, die Transformation der Daten im Data Warehouse und deren Aufbereitung für das Dashboard . Abschließend erstellen Sie ein Dashboard, das die Daten visuell darstellt.

Alle in dieser Anleitung erwähnten Schritte finden Sie im Data Engineering ZoomCamp. Dieses ZoomCamp besteht aus mehreren Modulen, die jeweils Tutorials, Videos, Fragen und Projekte enthalten, die Ihnen beim Lernen und Aufbau von Datenpipelines helfen. 

In dieser Data-Engineering-Roadmap haben wir die verschiedenen Schritte kennengelernt, die zum Erlernen, Erstellen und Ausführen von Datenpipelines für die Verarbeitung, Analyse und Modellierung von Daten erforderlich sind. Wir haben auch etwas über Cloud-Anwendungen und -Tools sowie lokale Tools gelernt. Sie können wählen, ob Sie alles lokal erstellen oder zur Vereinfachung die Cloud nutzen möchten. Ich würde die Nutzung der Cloud empfehlen, da die meisten Unternehmen diese bevorzugen und möchten, dass Sie Erfahrungen mit Cloud-Plattformen wie GCP sammeln.
 
 

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der gerne Modelle für maschinelles Lernen erstellt. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs zu maschinellem Lernen und Datenwissenschaftstechnologien. Abid verfügt über einen Master-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Vision ist es, ein KI-Produkt mithilfe eines graphischen neuronalen Netzwerks für Schüler mit psychischen Erkrankungen zu entwickeln.

spot_img

Neueste Intelligenz

spot_img