Zephyrnet-logo

Gratis cursus Data Engineering voor beginners – KDnuggets

Datum:

Gratis cursus Data Engineering voor beginners
Afbeelding per verhalenset op Freepik
 

Het is een goed moment om in te breken in data-engineering. Dus waar begin je? 

Het leren van data-engineering kan soms overweldigend aanvoelen vanwege het aantal tools dat je moet kennen, om nog maar te zwijgen van de super intimiderende functiebeschrijvingen! 

Dus als u op zoek bent naar een beginnersvriendelijke introductie tot data-engineering, dan is deze gratis Cursus data-engineering voor beginners, gegeven door Justin Chau, een voorstander van ontwikkelaars bij Airbyte, is een goed beginpunt.

In ongeveer drie uur leer je essentiële vaardigheden op het gebied van data-engineering: Docker, SQL, analytics-engineering en meer. Dus als je data-engineering wilt verkennen en wilt kijken of het iets voor jou is, dan is deze cursus een geweldige introductie. Laten we nu eens bekijken wat de cursus inhoudt.

Link naar de cursus: Cursus data-engineering voor beginners

Deze cursus begint met een inleiding over waarom je überhaupt zou moeten overwegen om data engineer te worden. Wat volgens mij super nuttig is om te begrijpen voordat je meteen in de technische onderwerpen duikt.

De instructeur, Justin Chau, vertelt over: 

  • De behoefte aan data en data-infrastructuur van goede kwaliteit om het succes van big data-projecten te garanderen 
  • Hoe de vraag naar data-engineeringfuncties steeds groter wordt en goed betaald wordt 
  • De bedrijfswaarde die je kunt toevoegen aan de organisatie door als data engineer de data-infrastructuur van de organisatie te faciliteren

Als je data-engineering leert, is Docker een van de eerste tools die je aan je toolbox kunt toevoegen. Docker is een populaire containerisatietool waarmee u applicaties (met afhankelijkheden en configuratie) kunt verpakken in één enkel artefact dat de image wordt genoemd. Op deze manier kunt u met Docker een consistente en reproduceerbare omgeving creëren waarin u al uw applicaties binnen een container kunt uitvoeren.

De Docker-module van deze cursus begint met de basis, zoals:

  • Dockerbestanden
  • Docker-afbeeldingen 
  • Dockercontainers 

De instructeur gaat vervolgens in op het containeriseren van een applicatie met Docker: het maken van Dockerfile en de opdrachten om uw container aan de praat te krijgen. Deze sectie behandelt ook persistente volumes, de basisprincipes van Docker-netwerken en het gebruik van Docker-Compose om meerdere containers te beheren.

Over het algemeen is deze module op zichzelf een goede spoedcursus Docker als containerisatie nieuw voor je is!

In de volgende module over SQL leert u hoe u Postgres in Docker-containers uitvoert en leert u vervolgens de basisprincipes van SQL door een voorbeeld van een Postgres-database te maken en de volgende bewerkingen uit te voeren:

  • CRUD-bewerkingen 
  • Geaggregeerde functies 
  • Aliassen gebruiken
  • Sluit zich aan bij 
  • Unie en unie allemaal 
  • Subquery's

Met de Docker- en SQL-fundamenten kunt u nu leren een datapijplijn helemaal opnieuw op te bouwen. Je begint met het bouwen van een eenvoudige ELT-pijplijn die je in de rest van de cursus kunt verbeteren. 

Ook zul je zien hoe alle SQL-, Docker-netwerk- en Docker-compose-concepten die je tot nu toe hebt geleerd, samenkomen bij het bouwen van deze pijplijn die Postgres in Docker draait voor zowel de bron als de bestemming.

De cursus gaat vervolgens verder naar het analytische engineeringgedeelte, waar u leert over dbt (data build tool) om uw SQL-query's te organiseren als aangepaste datatransformatiemodellen. 

De instructeur begeleidt u bij het aan de slag gaan met dbt: het installeren van de benodigde adapter en dbt-core en het opzetten van het project. Deze module richt zich specifiek op het werken met dbt-modellen, macro's en jinjas. Je leert hoe je:

  • Definieer aangepaste dbt-modellen en voer deze uit bovenop de gegevens in de doeldatabase
  • Organiseer SQL-query's als dbt-macro's voor herbruikbaarheid 
  • Gebruik dbt jinjas om besturingsstructuren aan SQL-query's toe te voegen

Tot nu toe hebt u een ELT-pijplijn gebouwd die werkt op basis van handmatige triggering. Maar je hebt zeker wat automatisering nodig, en de eenvoudigste manier om dit te doen is door een cronjob te definiëren die automatisch op een specifiek tijdstip van de dag wordt uitgevoerd. 

Dit superkorte gedeelte behandelt dus cronjobs. Maar data-orkestratietools zoals Airflow (die u in de volgende module zult leren) geven u meer granulariteit over de pijplijn. 

Om datapijplijnen te orkestreren, gebruikt u open-sourcetools zoals Airflow, Prefect, Dagster en dergelijke. In deze sectie leert u hoe u de open-source orkestratietool Airflow kunt gebruiken.

Deze sectie is uitgebreider in vergelijking met de voorgaande secties, omdat het alles omvat wat u moet weten om aan de slag te gaan met het schrijven van Airflow DAG's voor het huidige project.

U leert hoe u de Airflow-webserver en de planner instelt om taken te plannen. Vervolgens leer je over Airflow-operatoren: Python- en Bash-operatoren. Ten slotte definieert u de taken die in de DAG's voor het onderhavige voorbeeld worden opgenomen.

In de laatste module leert u over Airbyte, een open-source data-integratie/verplaatsingsplatform waarmee u eenvoudig meer databronnen en bestemmingen kunt verbinden.

U leert hoe u uw omgeving inricht en ziet hoe u het ELT-proces kunt vereenvoudigen met Airbyte. Om dit te doen, wijzigt u de bestaande projectcomponenten: ELT-script en DAG's om Airbyte in de workflow te integreren.

Ik hoop dat je deze recensie van de gratis cursus data-engineering nuttig vond. Ik heb genoten van de cursus – vooral van de praktijkgerichte benadering van het opbouwen en stapsgewijs verbeteren van een datapijplijn – in plaats van dat ik me alleen maar op de theorie concentreerde. U kunt de code ook volgen. Dus, gelukkige data-engineering!
 
 

Bala Priya C is een ontwikkelaar en technisch schrijver uit India. Ze werkt graag op het snijvlak van wiskunde, programmeren, datawetenschap en contentcreatie. Haar interessegebieden en expertise omvatten DevOps, data science en natuurlijke taalverwerking. Ze houdt van lezen, schrijven, coderen en koffie drinken! Momenteel werkt ze aan het leren en delen van haar kennis met de gemeenschap van ontwikkelaars door het schrijven van zelfstudies, handleidingen, opiniestukken en meer.

spot_img

Laatste intelligentie

spot_img