Zephyrnet-Logo

Kostenloser Data-Engineering-Kurs für Anfänger – KDnuggets

Datum:

Kostenloser Data-Engineering-Kurs für Anfänger
Bild nach Storyset auf Freepik
 

Es ist eine großartige Zeit, in die Datentechnik einzusteigen. Wo fängst du also an? 

Das Erlernen von Data Engineering kann manchmal überwältigend sein, wegen der Vielzahl an Tools, die Sie kennen müssen, ganz zu schweigen von den äußerst einschüchternden Stellenbeschreibungen! 

Wenn Sie also nach einer einsteigerfreundlichen Einführung in die Datentechnik suchen, ist diese kostenlos Data Engineering-Kurs für Anfänger, gelehrt von Justin Chau, einem Entwicklerbefürworter bei Airbyte, ist ein guter Anfang.

In etwa drei Stunden erlernen Sie grundlegende Fähigkeiten im Bereich Data Engineering: Docker, SQL, Analytics Engineering und mehr. Wenn Sie sich also mit Data Engineering befassen und herausfinden möchten, ob es das Richtige für Sie ist, ist dieser Kurs eine großartige Einführung. Sehen wir uns nun an, was der Kurs abdeckt.

Link zum Kurs: Data Engineering-Kurs für Anfänger

Dieser Kurs beginnt mit einer Einführung darüber, warum Sie überhaupt darüber nachdenken sollten, Dateningenieur zu werden. Was meiner Meinung nach sehr hilfreich ist, es zu verstehen, bevor man sich direkt mit den technischen Themen befasst.

Der Ausbilder Justin Chau spricht über: 

  • Der Bedarf an qualitativ hochwertigen Daten und einer Dateninfrastruktur, um den Erfolg von Big-Data-Projekten sicherzustellen 
  • Wie Stellen im Bereich Data Engineering immer gefragter und gut bezahlt werden 
  • Der geschäftliche Mehrwert, den Sie der Organisation hinzufügen können, indem Sie als Dateningenieur die Dateninfrastruktur der Organisation unterstützen

Wenn Sie Data Engineering erlernen, ist Docker eines der ersten Tools, die Sie Ihrer Toolbox hinzufügen können. Docker ist ein beliebtes Containerisierungstool, mit dem Sie Anwendungen – mit Abhängigkeiten und Konfiguration – in einem einzigen Artefakt namens Image packen können. Auf diese Weise können Sie mit Docker eine konsistente und reproduzierbare Umgebung erstellen, um alle Ihre Anwendungen in einem Container auszuführen.

Das Docker-Modul dieses Kurses beginnt mit den Grundlagen wie:

  • Docker-Dateien
  • Docker-Bilder 
  • Docker-Container 

Anschließend geht der Kursleiter darauf ein, wie man eine Anwendung mit Docker in einen Container umwandelt: Er geht durch die Erstellung der Docker-Datei und die Befehle, um Ihren Container zum Laufen zu bringen. In diesem Abschnitt werden außerdem persistente Volumes, die Grundlagen des Docker-Netzwerks und die Verwendung von Docker-Compose zur Verwaltung mehrerer Container behandelt.

Insgesamt ist dieses Modul an sich ein guter Crashkurs zu Docker, wenn Sie neu in der Containerisierung sind!

Im nächsten Modul zu SQL erfahren Sie, wie Sie Postgres in Docker-Containern ausführen. Anschließend erlernen Sie die Grundlagen von SQL, indem Sie eine Beispiel-Postgres-Datenbank erstellen und die folgenden Vorgänge ausführen:

  • CRUD-Operationen 
  • Aggregierte Funktionen 
  • Aliase verwenden
  • Joins 
  • Union und Union alle 
  • Subqueries

Mit Docker- und SQL-Grundlagen können Sie jetzt lernen, eine Datenpipeline von Grund auf aufzubauen. Sie beginnen mit dem Aufbau einer einfachen ELT-Pipeline, die Sie im weiteren Verlauf des Kurses verbessern können. 

Außerdem werden Sie sehen, wie alle SQL-, Docker-Netzwerk- und Docker-Compose-Konzepte, die Sie bisher gelernt haben, beim Aufbau dieser Pipeline zusammenkommen, die Postgres in Docker sowohl für die Quelle als auch für das Ziel ausführt.

Der Kurs geht dann zum Analyse-Engineering-Teil über, in dem Sie etwas über dbt (Data Build Tool) lernen, um Ihre SQL-Abfragen als benutzerdefinierte Datentransformationsmodelle zu organisieren. 

Der Kursleiter führt Sie durch die ersten Schritte mit dbt: Installation des erforderlichen Adapters und dbt-Core sowie Einrichtung des Projekts. Dieses Modul konzentriert sich speziell auf die Arbeit mit DBT-Modellen, Makros und Jinjas. Sie erfahren, wie Sie:

  • Definieren Sie benutzerdefinierte DBT-Modelle und führen Sie sie auf den Daten in der Zieldatenbank aus
  • Organisieren Sie SQL-Abfragen zur Wiederverwendbarkeit als DBT-Makros 
  • Verwenden Sie dbt jinjas, um Kontrollstrukturen zu SQL-Abfragen hinzuzufügen

Bisher haben Sie eine ELT-Pipeline erstellt, die bei manueller Auslösung ausgeführt wird. Aber Sie benötigen auf jeden Fall eine gewisse Automatisierung, und der einfachste Weg, dies zu tun, besteht darin, einen Cron-Job zu definieren, der automatisch zu einer bestimmten Tageszeit ausgeführt wird. 

In diesem superkurzen Abschnitt geht es also um Cron-Jobs. Mit Datenorchestrierungstools wie Airflow (die Sie im nächsten Modul kennenlernen) erhalten Sie jedoch mehr Granularität in der Pipeline. 

Um Datenpipelines zu orchestrieren, verwenden Sie Open-Source-Tools wie Airflow, Prefect, Dagster und dergleichen. In diesem Abschnitt erfahren Sie, wie Sie das Open-Source-Orchestrierungstool Airflow verwenden.

Dieser Abschnitt ist im Vergleich zu den vorherigen Abschnitten umfangreicher, da er alles abdeckt, was Sie wissen müssen, um mit dem Schreiben von Airflow-DAGs für das aktuelle Projekt vertraut zu werden.

Sie erfahren, wie Sie den Airflow-Webserver und den Planer zum Planen von Jobs einrichten. Anschließend erfahren Sie mehr über Airflow-Operatoren: Python- und Bash-Operatoren. Abschließend definieren Sie die Aufgaben, die in die DAGs für das vorliegende Beispiel einfließen.

Im letzten Modul lernen Sie Airbyte kennen, eine Open-Source-Datenintegrations-/-bewegungsplattform, mit der Sie problemlos mehr Datenquellen und -ziele verbinden können.

Sie erfahren, wie Sie Ihre Umgebung einrichten und wie Sie den ELT-Prozess mit Airbyte vereinfachen können. Dazu ändern Sie die Komponenten des vorhandenen Projekts: ELT-Skript und DAGs, um Airbyte in den Workflow zu integrieren.

Ich hoffe, Sie fanden diese Rezension des kostenlosen Data-Engineering-Kurses hilfreich. Der Kurs hat mir gefallen – insbesondere der praktische Ansatz zum Aufbau und der schrittweisen Verbesserung einer Datenpipeline – anstatt mich nur auf die Theorie zu konzentrieren. Der Code steht Ihnen auch zum Nachlesen zur Verfügung. Also, viel Spaß beim Data Engineering!
 
 

Bala Priya C ist ein Entwickler und technischer Redakteur aus Indien. Sie arbeitet gerne an der Schnittstelle von Mathematik, Programmierung, Datenwissenschaft und Inhaltserstellung. Zu ihren Interessen- und Fachgebieten gehören DevOps, Datenwissenschaft und Verarbeitung natürlicher Sprache. Sie liebt es zu lesen, zu schreiben, zu programmieren und Kaffee zu trinken! Derzeit arbeitet sie daran, zu lernen und ihr Wissen mit der Entwickler-Community zu teilen, indem sie Tutorials, Anleitungen, Meinungsbeiträge und mehr verfasst.

spot_img

Neueste Intelligenz

spot_img