Logo Zephyrnet

Corso gratuito di ingegneria dei dati per principianti – KDnuggets

Data:

Corso gratuito di ingegneria dei dati per principianti
Immagine per storyset su Freepik
 

È un ottimo momento per entrare nell'ingegneria dei dati. Allora da dove iniziare? 

L'apprendimento dell'ingegneria dei dati a volte può sembrare opprimente a causa del numero di strumenti che è necessario conoscere, per non parlare delle descrizioni dei lavori super intimidatorie! 

Quindi, se stai cercando un'introduzione all'ingegneria dei dati adatta ai principianti, questa è gratuita Corso di ingegneria dei dati per principianti, insegnato da Justin Chau, un sostenitore degli sviluppatori di Airbyte, è un buon punto di partenza.

In circa tre ore apprenderai le competenze essenziali di ingegneria dei dati: Docker, SQL, ingegneria analitica e altro ancora. Quindi, se vuoi esplorare l'ingegneria dei dati e vedere se fa per te, questo corso è un'ottima introduzione. Ora esaminiamo gli argomenti trattati nel corso.

Link al corso: Corso di ingegneria dei dati per principianti

Questo corso inizia con un'introduzione sul motivo per cui dovresti prendere in considerazione innanzitutto di diventare un ingegnere dei dati. Penso che sia molto utile capirlo prima di immergermi direttamente negli argomenti tecnici.

L'istruttore, Justin Chau, parla di: 

  • La necessità di dati e infrastrutture di dati di buona qualità per garantire il successo dei progetti di big data 
  • Come i ruoli di ingegneria dei dati stanno diventando sempre più richiesti e pagati bene 
  • Il valore aziendale che puoi aggiungere all'organizzazione lavorando come ingegnere dei dati facilitando l'infrastruttura dati dell'organizzazione

Quando stai imparando l'ingegneria dei dati, Docker è uno dei primi strumenti che puoi aggiungere alla tua casella degli strumenti. Docker è un popolare strumento di containerizzazione che consente di creare pacchetti di applicazioni, con dipendenze e configurazioni, in un singolo artefatto chiamato immagine. In questo modo Docker ti consente di creare un ambiente coerente e riproducibile per eseguire tutte le tue applicazioni all'interno di un contenitore.

Il modulo Docker di questo corso inizia con le nozioni di base come:

  • File Docker
  • Immagini docker 
  • Contenitori Docker 

L'istruttore passa poi a spiegare come containerizzare un'applicazione con Docker: passando attraverso la creazione di Dockerfile e i comandi per rendere operativo il contenitore. Questa sezione copre anche i volumi persistenti, i fondamenti della rete Docker e l'utilizzo di Docker-Compose per gestire più contenitori.

Nel complesso, questo modulo di per sé è un buon corso intensivo su Docker se sei nuovo alla containerizzazione!

Nel prossimo modulo su SQL imparerai come eseguire Postgres nei contenitori Docker e poi apprenderai le basi di SQL creando un database Postgres di esempio ed eseguendo le seguenti operazioni:

  • Operazioni CRUD 
  • Funzioni aggregate 
  • Utilizzando gli alias
  • Entra a far parte 
  • Unione e unione tutta 
  • sottoquery

Con Docker e le basi SQL, ora puoi imparare a creare una pipeline di dati da zero. Inizierai costruendo una semplice pipeline ELT che migliorerai durante il resto del corso. 

Inoltre, vedrai come tutti i concetti di SQL, rete Docker e composizione Docker che hai imparato finora si uniscono nella costruzione di questa pipeline che esegue Postgres in Docker sia per l'origine che per la destinazione.

Il corso prosegue quindi con la parte di ingegneria analitica in cui imparerai a conoscere il dbt (strumento di creazione dei dati) per organizzare le tue query SQL come modelli di trasformazione dei dati personalizzati. 

L'istruttore ti spiega come iniziare con dbt: installare l'adattatore e il dbt-core richiesti e impostare il progetto. Questo modulo si concentra specificamente sul lavoro con modelli dbt, macro e jinja. Imparerai come:

  • Definisci modelli dbt personalizzati ed eseguili sui dati nel database di destinazione
  • Organizza le query SQL come macro dbt per la riusabilità 
  • Utilizza dbt jinjas per aggiungere strutture di controllo alle query SQL

Finora hai creato una pipeline ELT che viene eseguita con l'attivazione manuale. Ma sicuramente hai bisogno di un po’ di automazione, e il modo più semplice per farlo è definire un processo cron che venga eseguito automaticamente a un’ora specifica del giorno. 

Quindi questa sezione brevissima tratta i lavori cron. Ma gli strumenti di orchestrazione dei dati come Airflow (che imparerai nel modulo successivo) ti offrono maggiore granularità sulla pipeline. 

Per orchestrare le pipeline di dati, utilizzerai strumenti open source come Airflow, Prefect, Dagster e simili. In questa sezione imparerai come utilizzare lo strumento di orchestrazione open source Airflow.

Questa sezione è più estesa rispetto alle sezioni precedenti perché copre tutto ciò che è necessario sapere per essere al passo con la scrittura dei DAG Airflow per il progetto corrente.

Imparerai come configurare il server web Airflow e lo scheduler per pianificare i lavori. Quindi imparerai gli operatori Airflow: operatori Python e Bash. Infine, definirai le attività che vanno nei DAG per l'esempio in questione.

Nell'ultimo modulo imparerai Airbyte, una piattaforma di integrazione/spostamento dati open source che ti consente di connettere facilmente più origini e destinazioni dati.

Imparerai come configurare il tuo ambiente e come semplificare il processo ELT utilizzando Airbyte. Per fare ciò, modificherai i componenti del progetto esistente: script ELT e DAG per integrare Airbyte nel flusso di lavoro.

Spero che tu abbia trovato utile questa recensione del corso gratuito di ingegneria dei dati. Il corso mi è piaciuto, in particolare l'approccio pratico alla creazione e al miglioramento incrementale di una pipeline di dati, invece di concentrarmi solo sulla teoria. Il codice è anche disponibile per essere seguito. Quindi, buona ingegneria dei dati!
 
 

Bala Priya C è uno sviluppatore e scrittore tecnico dall'India. Le piace lavorare all'intersezione tra matematica, programmazione, scienza dei dati e creazione di contenuti. Le sue aree di interesse e competenza includono DevOps, data science ed elaborazione del linguaggio naturale. Le piace leggere, scrivere, programmare e il caffè! Attualmente, sta lavorando all'apprendimento e alla condivisione delle sue conoscenze con la comunità degli sviluppatori creando tutorial, guide pratiche, articoli di opinione e altro ancora.

spot_img

L'ultima intelligenza

spot_img