Logo Zéphyrnet

Cours gratuit d'ingénierie des données pour les débutants – KDnuggets

Date :

Cours gratuit d'ingénierie des données pour les débutants
Image par storyset sur Freepik
 

C’est le moment idéal pour se lancer dans l’ingénierie des données. Alors par où commencer ? 

L’apprentissage de l’ingénierie des données peut parfois sembler intimidant en raison du nombre d’outils que vous devez connaître, sans parler des descriptions de poste super intimidantes ! 

Donc, si vous recherchez une introduction à l'ingénierie des données adaptée aux débutants, cette version gratuite Cours d'ingénierie des données pour débutants, enseigné par Justin Chau, défenseur des développeurs chez Airbyte, est un bon point de départ.

En trois heures environ, vous acquerrez les compétences essentielles en ingénierie des données : Docker, SQL, ingénierie analytique, etc. Donc, si vous souhaitez explorer l'ingénierie des données et voir si cela est fait pour vous, ce cours est une excellente introduction. Passons maintenant en revue ce que couvre le cours.

Lien vers le cours : Cours d'ingénierie des données pour débutants

Ce cours commence par une introduction expliquant pourquoi vous devriez envisager de devenir ingénieur de données en premier lieu. Ce que je pense est très utile à comprendre avant de plonger directement dans les sujets techniques.

L'instructeur, Justin Chau, parle de : 

  • La nécessité de disposer de données et d’infrastructures de données de bonne qualité pour garantir le succès des projets Big Data 
  • Comment les rôles d'ingénierie de données sont de plus en plus demandés et bien rémunérés 
  • La valeur commerciale que vous pouvez ajouter à l'organisation en travaillant en tant qu'ingénieur de données en facilitant l'infrastructure de données de l'organisation

Lorsque vous apprenez l'ingénierie des données, Docker est l'un des premiers outils que vous pouvez ajouter à votre boîte à outils. Docker est un outil de conteneurisation populaire qui vous permet de regrouper des applications (avec dépendances et configuration) dans un seul artefact appelé image. De cette façon, Docker vous permet de créer un environnement cohérent et reproductible pour exécuter toutes vos applications dans un conteneur.

Le module Docker de ce cours commence par les bases telles que :

  • Fichiers Docker
  • Images Docker 
  • Conteneurs Docker 

L'instructeur explique ensuite comment conteneuriser une application avec Docker : en passant par la création de Dockerfile et les commandes permettant de rendre votre conteneur opérationnel. Cette section couvre également les volumes persistants, les principes fondamentaux de la mise en réseau Docker et l'utilisation de Docker-Compose pour gérer plusieurs conteneurs.

Dans l'ensemble, ce module en lui-même est un bon cours intensif sur Docker si vous débutez dans la conteneurisation !

Dans le prochain module sur SQL, vous apprendrez comment exécuter Postgres dans des conteneurs Docker, puis apprendrez les bases de SQL en créant un exemple de base de données Postgres et en effectuant les opérations suivantes :

  • Opérations CRUD 
  • Fonctions d'agrégation 
  • Utiliser des alias
  • Joint 
  • Syndicat et syndicat tous 
  • Les sous-requêtes

Avec les fondations Docker et SQL, vous pouvez désormais apprendre à créer un pipeline de données à partir de zéro. Vous commencerez par créer un pipeline ELT simple que vous pourrez améliorer tout au long du cours. 

Vous verrez également comment tous les concepts SQL, de mise en réseau Docker et de composition Docker que vous avez appris jusqu'à présent sont réunis pour créer ce pipeline qui exécute Postgres dans Docker à la fois pour la source et la destination.

Le cours passe ensuite à la partie ingénierie analytique où vous découvrirez dbt (outil de création de données) pour organiser vos requêtes SQL en tant que modèles de transformation de données personnalisés. 

L'instructeur vous explique comment démarrer avec dbt : installer l'adaptateur et le dbt-core requis et configurer le projet. Ce module se concentre spécifiquement sur l'utilisation de modèles dbt, de macros et de jinjas. Vous apprendrez à :

  • Définissez des modèles DBT personnalisés et exécutez-les au-dessus des données de la base de données de destination.
  • Organisez les requêtes SQL sous forme de macros DBT pour pouvoir les réutiliser 
  • Utilisez dbt jinjas pour ajouter des structures de contrôle aux requêtes SQL

Jusqu'à présent, vous avez créé un pipeline ELT qui s'exécute lors d'un déclenchement manuel. Mais vous avez certainement besoin d'une certaine automatisation, et le moyen le plus simple d'y parvenir est de définir une tâche cron qui s'exécute automatiquement à un moment précis de la journée. 

Cette section très courte couvre donc les tâches cron. Mais les outils d'orchestration de données comme Airflow (que vous découvrirez dans le prochain module) vous offrent plus de granularité sur le pipeline. 

Pour orchestrer les pipelines de données, vous utiliserez des outils open source tels que Airflow, Prefect, Dagster, etc. Dans cette section, vous apprendrez à utiliser l'outil d'orchestration open source Airflow.

Cette section est plus complète que les sections précédentes car elle couvre tout ce que vous devez savoir pour vous familiariser avec l'écriture de DAG Airflow pour le projet en cours.

Vous apprendrez à configurer le serveur Web Airflow et le planificateur pour planifier des tâches. Vous découvrirez ensuite les opérateurs Airflow : les opérateurs Python et Bash. Enfin, vous définirez les tâches qui entrent dans les DAG pour l'exemple présenté.

Dans le dernier module, vous découvrirez Airbyte, une plate-forme open source d'intégration/de mouvement de données qui vous permet de connecter facilement davantage de sources de données et de destinations.

Vous apprendrez comment configurer votre environnement et verrez comment simplifier le processus ELT à l'aide d'Airbyte. Pour ce faire, vous modifierez les composants du projet existant : le script ELT et les DAG pour intégrer Airbyte dans le workflow.

J'espère que vous avez trouvé cette revue du cours gratuit d'ingénierie des données utile. J'ai apprécié le cours, en particulier l'approche pratique de la création et de l'amélioration progressive d'un pipeline de données, au lieu de me concentrer uniquement sur la théorie. Le code est également disponible pour que vous puissiez le suivre. Alors, bonne ingénierie des données !
 
 

Bala Priya C est un développeur et rédacteur technique indien. Elle aime travailler à l'intersection des mathématiques, de la programmation, de la science des données et de la création de contenu. Ses domaines d'intérêt et d'expertise incluent DevOps, la science des données et le traitement du langage naturel. Elle aime lire, écrire, coder et prendre un café ! Actuellement, elle travaille à l'apprentissage et au partage de ses connaissances avec la communauté des développeurs en créant des didacticiels, des guides pratiques, des articles d'opinion, etc.

spot_img

Dernières informations

spot_img