Zephyrnet-logo

7 stappen om data-engineering onder de knie te krijgen – KDnuggets

Datum:

7 stappen om data-engineering onder de knie te krijgen
Afbeelding door auteur
 

Data-engineering verwijst naar het proces van het creëren en onderhouden van structuren en systemen die gegevens verzamelen, opslaan en transformeren in een formaat dat gemakkelijk kan worden geanalyseerd en gebruikt door datawetenschappers, analisten en zakelijke belanghebbenden. Deze roadmap begeleidt u bij het beheersen van verschillende concepten en tools, waardoor u effectief verschillende soorten datapipelines kunt bouwen en uitvoeren.

Met containerisatie kunnen ontwikkelaars hun applicaties en afhankelijkheden verpakken in lichtgewicht, draagbare containers die consistent in verschillende omgevingen kunnen worden uitgevoerd. Infrastructure as Code daarentegen is de praktijk van het beheren en inrichten van infrastructuur door middel van code, waardoor ontwikkelaars de cloudinfrastructuur kunnen definiëren, versieleren en automatiseren.

In de eerste stap maakt u kennis met de basisprincipes van SQL-syntaxis, Docker-containers en de Postgres-database. U leert hoe u lokaal een databaseserver kunt initiëren met behulp van Docker, en hoe u een datapijplijn in Docker kunt maken. Verder ontwikkel je inzicht in Google Cloud Provider (GCP) en Terraform. Terraform zal met name nuttig voor u zijn bij het implementeren van uw tools, databases en frameworks in de cloud.

Workfloworkestratie beheert en automatiseert de gegevensstroom via verschillende verwerkingsfasen, zoals gegevensopname, opschoning, transformatie en analyse. Het is een efficiëntere, betrouwbaardere en schaalbare manier om dingen te doen.

In de tweede stap leert u over dataorkestratietools zoals Airflow, Mage of Prefect. Ze zijn allemaal open source en worden geleverd met meerdere essentiële functies voor het observeren, beheren, implementeren en uitvoeren van de datapijplijn. Je leert Prefect instellen met Docker en een ETL-pijplijn bouwen met behulp van Postgres, Google Cloud Storage (GCS) en BigQuery API's. 

Check out de 5 luchtstroomalternatieven voor data-orkestratie en kies degene die het beste bij u past.

Datawarehousing is het proces van het verzamelen, opslaan en beheren van grote hoeveelheden gegevens uit verschillende bronnen in een gecentraliseerde opslagplaats, waardoor het gemakkelijker wordt om waardevolle inzichten te analyseren en te extraheren.

In de derde stap leert u alles over het datawarehouse van Postgres (lokaal) of BigQuery (cloud). Je leert over de concepten van partitioneren en clusteren, en duikt in de best practices van BigQuery. BigQuery biedt ook machine learning-integratie waarmee u modellen kunt trainen op grote data, afstemming van hyperparameters, voorverwerking van functies en modelimplementatie. Het is als SQL voor machine learning.

Analytics Engineering is een gespecialiseerde discipline die zich richt op het ontwerp, de ontwikkeling en het onderhoud van datamodellen en analytische pijplijnen voor business intelligence- en data science-teams. 

In de vierde stap leer je hoe je met behulp van dbt (Data Build Tool) een analytische pipeline bouwt met een bestaand datawarehouse, zoals BigQuery of PostgreSQL. Je krijgt inzicht in sleutelconcepten zoals ETL versus ELT, evenals in datamodellering. Je leert ook geavanceerde dbt-functies zoals incrementele modellen, tags, hooks en snapshots. 

Uiteindelijk leer je visualisatietools zoals Google Data Studio en Metabase te gebruiken voor het maken van interactieve dashboards en data-analyserapporten.

Batchverwerking is een data-engineeringtechniek waarbij grote hoeveelheden gegevens in batches worden verwerkt (elke minuut, uur of zelfs dagen), in plaats van gegevens in realtime of bijna realtime te verwerken. 

In de vijfde stap van je leertraject maak je kennis met batchverwerking met Apache Spark. Je leert hoe je het op verschillende besturingssystemen installeert, met Spark SQL en DataFrames werkt, data voorbereidt, SQL-bewerkingen uitvoert en inzicht krijgt in de interne processen van Spark. Aan het einde van deze stap leert u ook hoe u Spark-instanties in de cloud kunt starten en deze kunt integreren met het datawarehouse BigQuery.

Streaming verwijst naar het verzamelen, verwerken en analyseren van gegevens in realtime of bijna realtime. In tegenstelling tot traditionele batchverwerking, waarbij gegevens met regelmatige tussenpozen worden verzameld en verwerkt, maakt streaminggegevensverwerking een continue analyse van de meest actuele informatie mogelijk.

In de zesde stap leer je over datastreaming met Apache Kafka. Begin met de basis en duik vervolgens in de integratie met Confluent Cloud en praktische toepassingen waarbij producenten en consumenten betrokken zijn. Bovendien moet u meer leren over stream-joins, testen, windowing en het gebruik van Kafka ksqldb & Connect. 

Als u verschillende tools voor verschillende data-engineeringprocessen wilt verkennen, kunt u verwijzen naar 14 essentiële data-engineeringtools om te gebruiken in 2024.

In de laatste stap gebruik je alle concepten en tools die je in de voorgaande stappen hebt geleerd om een ​​uitgebreid end-to-end data-engineeringproject te creëren. Dit omvat het bouwen van een pijplijn voor het verwerken van de gegevens, het opslaan van de gegevens in een datameer, het creëren van een pijplijn voor het overbrengen van de verwerkte gegevens van het datameer naar een datawarehouse, het transformeren van de gegevens in het datawarehouse en het voorbereiden ervan voor het dashboard. . Tenslotte bouw je een dashboard dat de data visueel presenteert.

Alle stappen die in deze handleiding worden genoemd, zijn te vinden in de Data-engineering ZoomCamp. Deze ZoomCamp bestaat uit meerdere modules, elk met tutorials, video's, vragen en projecten om u te helpen datapijplijnen te leren en op te bouwen. 

In deze data-engineering-roadmap hebben we de verschillende stappen geleerd die nodig zijn om datapijplijnen te leren, te bouwen en uit te voeren voor het verwerken, analyseren en modelleren van gegevens. We hebben ook geleerd over zowel cloudapplicaties en -tools als lokale tools. Je kunt ervoor kiezen om alles lokaal te bouwen of voor gebruiksgemak de cloud te gebruiken. Ik zou aanraden om de cloud te gebruiken, omdat de meeste bedrijven daar de voorkeur aan geven en willen dat je ervaring opdoet in cloudplatforms zoals GCP.
 
 

Abid Ali Awan (@1abidaliawan) is een gecertificeerde datawetenschapper die graag machine learning-modellen bouwt. Momenteel richt hij zich op het creëren van content en het schrijven van technische blogs over machine learning en data science-technologieën. Abid heeft een masterdiploma in technologiemanagement en een bachelordiploma in telecommunicatietechniek. Zijn visie is om een ​​AI-product te bouwen met behulp van een grafisch neuraal netwerk voor studenten die worstelen met een psychische aandoening.

spot_img

Laatste intelligentie

spot_img