Zephyrnet-logo

7 essentiële spiekbriefjes voor data-engineering

Datum:

7 essentiële spiekbriefjes voor data-engineering
Afbeelding door auteur

De Data Engineering met GCP is een compleet spiekbriefje voor de levenscyclus van data voor ervaren personen die de essentiële concepten van het data engineering-ecosysteem en de tools willen doornemen.

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. Basisconcepten van Data Engineering
  2. Hadoop-ecosysteem
  3. Google rekenplatform
  4. Identiteitstoegangsbeheer
  5. Sleutelbegrippen
  6. Bereken keuzes
  7. Stapelstuurprogramma
  8. Opslag, Big table, BigQuery en Cloud SQL
  9. DataStore, DataProc en DataFlow
  10. Pub / Sub

Cheatsheet van PySpark bevat handige opdrachten voor het omgaan met DataFrames in Python met voorbeelden. De cheat behandelt de basiswerking van Apache Spark DataFrames, van het initialiseren van de SparkSession tot het uitvoeren van query's en het opslaan van de gegevens. 

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. SparkSession wordt geïnitialiseerd
  2. Dataframes maken in Python
  3. Filtering
  4. Waarden dupliceren
  5. Spark-query's uitvoeren
  6. Query's programmatisch uitvoeren
  7. De kolommen aanpassen
  8. Omgaan met ontbrekende waarden
  9. Opnieuw partitioneren
  10. Groeperen op en sorteren
  11. De gegevens inspecteren, de uitvoer opslaan en de sessie stoppen.

De dbt-opdrachten (tool voor gegevensopbouw). spiekbriefje biedt eenvoudige voorbeelden van verschillende opdrachten die u kunt gebruiken om de gegevens te transformeren. dbt is een transformatietool, het laadt of extraheert niet. 

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. Inleiding tot dbt
  2. dbt generieke commando's
  3. Wordt uitgevoerd op basis van de modelnaam
  4. Wordt uitgevoerd op basis van de mapnaam
  5. Wordt uitgevoerd op basis van de mapnaam
  6. Meerdere modelinvoeren in de dbt-opdracht
  7. Speciale opdrachten

Apache Kafka is een op commando's gebaseerd spiekbriefje dat de essentiële commando's voor gedistribueerde datastreaming behandelt. 

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. Onderwerpinformatie weergeven
  2. Wijzig onderwerpretentie
  3. Maak een lijst van bestaande onderwerpen
  4. Een onderwerp opschonen
  5. Een onderwerp verwijderen
  6. Vroegste offset nog steeds in een onderwerp
  7. Laatste offset nog steeds in een onderwerp
  8. Berichten consumeren
  9. Verkrijg de consumentencompensaties voor een onderwerp
  10. Kafka consumentengroepen
  11. Kafkakat
  12. Dierentuinmedewerker

De Google BigQuery is een op opdrachten gebaseerd spiekbriefje waarin elke BigQuery-functie in detail wordt uitgelegd. BigQuery is een volledig beheerd datawarehouse met geavanceerde functies zoals geospatiale analyse, BI-tooling en machine learning. 

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. BigQuery-resources initialiseren met DDL
  2. Schema's veranderen
  3. Tabellen veranderen
  4. Veranderende weergaven
  5. Gematerialiseerde weergaven wijzigen
  6. BigQuery-gegevenstypen
  7. Numerieke typen
  8. BigQuery-gegevens toevoegen en bewerken
  9. Veelvoorkomende vragen

De Luchtstroom is een op opdrachten gebaseerd spiekbriefje met essentiële opdrachten voor het maken, plannen en bewaken van workflows. Apache Airflow is een veelgebruikte datapijplijntool in de branche. Het biedt schaalbaarheid, uitbreidbaarheid en dynamische pijplijngeneratie.

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. Diverse commando's
  2. Selderij componenten
  3. Configuratie bekijken
  4. Beheer verbindingen
  5. DAG's beheren
  6. Database operaties
  7. Tools om de KubernetesExecutor te helpen uitvoeren
  8. Beheer zwembaden
  9. Aanbieders weergeven
  10. Beheer rollen, taken, gebruikers en variabelen

De Docker spiekbriefje behandelt de basisfunctionaliteit van het bouwen, uitvoeren en beheren van Docker-images. Docker biedt virtualisatie op besturingssysteemniveau om software te leveren in pakketten die containers worden genoemd. Het wordt gebruikt voor reproduceerbaarheid en beheer van beschikbare bronnen. 

 

7 essentiële spiekbriefjes voor data-engineering
Afbeelding van Cheatsheet
 

In deze spiekbrief leer je:

  1. Bouw de docker-image
  2. De docker-afbeelding delen
  3. Het runnen van de container
  4. Beheer van build, configuraties, afbeeldingen en services

Dagelijks voert data-engineering data-opname, datawarehousing, analytische engineering, workflowbeheer, batchverwerking en streaming uit. Om alle taken uit te voeren, hebt u de kennis van de tools en de commando's nodig. De 7 spiekbriefjes helpen je verschillende tools, commando's en concepten te herzien. Bovendien zal het u helpen om met minimale inspanning de technische interviewfase van data-engineering te doorstaan. 

Ik hoop dat je de spiekbriefjes leuk vindt. Vergeet me niet te volgen Twitter en LinkedIn, waar ik boeiende blogs over datawetenschap post.

 
 
Abid Ali Awan (@1abidaliawan) is een gecertificeerde datawetenschapper-professional die dol is op het bouwen van machine learning-modellen. Momenteel richt hij zich op het creëren van content en het schrijven van technische blogs over machine learning en data science-technologieën. Abid heeft een Master in Technologie Management en een Bachelor in Telecommunicatie Engineering. Zijn visie is om een ​​AI-product te bouwen met behulp van een grafisch neuraal netwerk voor studenten die worstelen met een psychische aandoening.
 

spot_img

Laatste intelligentie

spot_img