Logo Zéphyrnet

Démarrer avec Google Cloud Platform en 5 étapes – KDnuggets

Date :

Premiers pas avec Google Cloud Platform en 5 étapes

Premiers pas avec Google Cloud Platform en 5 étapes
 

Cet article vise à fournir un aperçu étape par étape de la prise en main de Google Cloud Platform (GCP) pour la science des données et l’apprentissage automatique. Nous donnerons un aperçu de GCP et de ses principales fonctionnalités d'analyse, passerons en revue la configuration du compte, explorerons les services essentiels tels que BigQuery et les cloud Storage, créez un exemple de projet de données et utilisez GCP pour le machine learning. Que vous soyez nouveau sur GCP ou que vous recherchiez un rappel rapide, poursuivez votre lecture pour apprendre les bases et démarrer avec Google Cloud.

Qu'est-ce que GCP ?

Google Cloud Platform propose toute une gamme de services de cloud computing pour vous aider à créer et exécuter des applications sur l'infrastructure de Google. Pour la puissance de calcul, Compute Engine vous permet de faire tourner des machines virtuelles. Si vous devez exécuter des conteneurs, Kubernetes fait le travail. BigQuery gère vos besoins en matière d'entreposage de données et d'analyse. Et avec Cloud ML, vous bénéficiez de modèles d'apprentissage automatique pré-entraînés via API pour des éléments tels que la vision, la traduction et bien plus encore. Dans l'ensemble, GCP vise à fournir les éléments de base dont vous avez besoin pour que vous puissiez vous concentrer sur la création d'applications de qualité sans vous soucier de l'infrastructure sous-jacente.

Avantages de GCP pour la science des données

GCP offre plusieurs avantages pour l'analyse des données et le machine learning :

  • Ressources de calcul évolutives capables de gérer les charges de travail Big Data
  • Services gérés comme BigQuery pour traiter les données à grande échelle
  • Fonctionnalités avancées d'apprentissage automatique telles que Cloud AutoML et AI Platform
  • Outils et services d'analyse intégrés

Comment GCP se compare à AWS et Azure

Comparé à Amazon Web Services et Microsoft Azure, GCP se démarque par sa force en matière de big data, d'analyse et d'apprentissage automatique, ainsi que par son offre de services gérés comme BigQuery et Dataflow pour le traitement des données. AI Platform facilite la formation et le déploiement de modèles ML. Dans l'ensemble, GCP est proposé à un prix compétitif et constitue un excellent choix pour les applications basées sur les données.

Fonctionnalité Google Cloud Platform (GCP) Amazon Web Services (AWS) Microsoft Azure
Tarif* Prix ​​compétitifs avec remises d’utilisation soutenue Tarification à l'heure avec remises sur les instances réservées Tarification à la minute avec remises sur les instances réservées
Entreposage de données BigQuery Redshift Analyse Synapse
Machine Learning Cloud AutoML, plate-forme AI SageMaker Apprentissage automatique Azure
Services informatiques Moteur de calcul, moteur Kubernetes EC2, ECS, EKS Machines virtuelles, AKS
Offres sans serveur Fonctions cloud, App Engine Lambda, Fargate Fonctions, applications logiques

*Notez que les modèles de tarification sont nécessairement simplifiés pour nos besoins. AWS et Azure proposent également des remises d'utilisation soutenue ou d'engagement d'utilisation similaires à GCP ; Les structures de tarification sont complexes et peuvent varier considérablement en fonction d'une multitude de facteurs. Le lecteur est donc encouragé à approfondir lui-même cette question pour déterminer quels pourraient être les coûts réels dans sa situation.
 

Dans ce tableau, nous avons comparé Google Cloud Platform, Amazon Web Services et Microsoft Azure en fonction de diverses fonctionnalités telles que la tarification, l'entreposage de données, l'apprentissage automatique, les services de calcul et les offres sans serveur. Chacune de ces plates-formes cloud possède son propre ensemble de services et de modèles de tarification, qui répondent à différentes exigences commerciales et techniques.

Création d'un compte Google Cloud

Pour utiliser GCP, inscrivez-vous d'abord pour un compte Google Cloud. Allez au page d'accueil et cliquez sur « Commencer gratuitement ». Suivez les invites pour créer votre compte à l'aide de vos informations d'identification Google ou Gmail.

Créer un compte de facturation

Ensuite, vous devrez configurer un compte de facturation et un mode de paiement. Cela vous permet d'utiliser des services payants au-delà du niveau gratuit. Accédez à la section Facturation dans la console et suivez les invites pour ajouter vos informations de facturation.

Comprendre la tarification de GCP

GCP propose un généreux niveau gratuit de 12 mois avec un crédit de 300 $. Cela permet d'utiliser gratuitement des produits clés tels que Compute Engine, BigQuery et bien d'autres. Consultez les calculateurs de prix et les documents pour estimer les coûts totaux.

Installer le SDK Google Cloud

Installez le SDK Cloud sur votre machine locale pour gérer les projets/ressources via la ligne de commande. Télécharger depuis le Page de guide du SDK Cloud et suivez le guide d'installation.

 
Enfin, n'oubliez pas de consulter et de garder à portée de main le Premiers pas avec Google Cloud Documentation.

Google Cloud Platform (GCP) regorge d'une myriade de services conçus pour répondre à divers besoins en matière de science des données. Ici, nous approfondissons certains des services essentiels tels que BigQuery, Cloud Storage et Cloud Dataflow, mettant en lumière leurs fonctionnalités et leurs cas d'utilisation potentiels.

BigQuery

BigQuery est la base de données analytiques entièrement gérée et à faible coût de GCP. Avec son modèle sans serveur, BigQuery permet des requêtes SQL ultra-rapides sur des tables à ajout, en utilisant la puissance de traitement de l'infrastructure de Google. Il ne s'agit pas simplement d'un outil permettant d'exécuter des requêtes, mais d'une solution d'entreposage de données robuste et à grande échelle, capable de gérer des pétaoctets de données. L'approche sans serveur élimine le besoin d'administrateurs de bases de données, ce qui en fait une option intéressante pour les entreprises cherchant à réduire les frais opérationnels.

 
Exemple: Plonger dans l'ensemble de données publiques sur la natalité pour obtenir des informations sur les naissances aux États-Unis.

SELECT * FROM `bigquery-public-data.samples.natality`
LIMIT 10

cloud Storage

Cloud Storage permet un stockage d'objets robuste, sécurisé et évolutif. Il s'agit d'une excellente solution pour les entreprises car elle permet le stockage et la récupération de grandes quantités de données avec un haut degré de disponibilité et de fiabilité. Les données dans Cloud Storage sont organisées en compartiments, qui fonctionnent comme des conteneurs individuels pour les données et peuvent être gérés et configurés séparément. Cloud Storage prend en charge les classes de stockage standard, Nearline, Coldline et d'archives, permettant d'optimiser les exigences de prix et d'accès.

 
Exemple : importation d'un exemple de fichier CSV dans un bucket Cloud Storage à l'aide de la CLI gsutil.

gsutil cp sample.csv gs://my-bucket

Flux de données cloud

Cloud Dataflow est un service entièrement géré pour le traitement des données par flux et par lots. Il excelle dans l'analyse en temps réel ou quasi-réel et prend en charge les tâches d'extraction, de transformation et de chargement (ETL), ainsi que les cas d'utilisation de l'analyse en temps réel et de l'intelligence artificielle (IA). Cloud Dataflow est conçu pour gérer les complexités liées au traitement de grandes quantités de données de manière fiable et tolérante aux pannes. Il s'intègre parfaitement à d'autres services GCP tels que BigQuery pour l'analyse et Cloud Storage pour la préparation des données et les résultats temporaires, ce qui en fait la pierre angulaire de la création de pipelines de traitement de données de bout en bout.

Se lancer dans un projet de données nécessite une approche systématique pour garantir des résultats précis et perspicaces. Au cours de cette étape, nous allons créer un projet sur Google Cloud Platform (GCP), activer les API nécessaires et préparer le terrain pour l'ingestion, l'analyse et la visualisation des données à l'aide de BigQuery et Data Studio. Pour notre projet, approfondissons l'analyse des données météorologiques historiques pour discerner les tendances climatiques.

Configurer le projet et activer les API

Commencez votre parcours en créant un nouveau projet sur GCP. Accédez à Cloud Console, cliquez sur la liste déroulante du projet et sélectionnez « Nouveau projet ». Nommez-le « Analyse météo » et suivez l'assistant de configuration. Une fois votre projet prêt, accédez au tableau de bord API et services pour activer les API essentielles telles que BigQuery, Cloud Storage et Data Studio.

Charger l'ensemble de données dans BigQuery

Pour notre analyse météorologique, nous aurons besoin d’un riche ensemble de données. Une mine de données météorologiques historiques est disponible auprès de la NOAA. Téléchargez une partie de ces données et accédez à la console BigQuery. Ici, créez un nouvel ensemble de données nommé « weather_data ». Cliquez sur « Créer une table », téléchargez votre fichier de données et suivez les instructions pour configurer le schéma.

Table Name: historical_weather
Schema: Date:DATE, Temperature:FLOAT, Precipitation:FLOAT, WindSpeed:FLOAT

Interroger des données et les analyser dans BigQuery

Avec les données à votre disposition, il est temps de découvrir des informations. L'interface SQL de BigQuery facilite l'exécution de requêtes. Par exemple, pour connaître la température moyenne au fil des années :

SELECT EXTRACT(YEAR FROM Date) as Year, AVG(Temperature) as AvgTemperature
FROM `weather_data.historical_weather`
GROUP BY Year
ORDER BY Year ASC;

Cette requête fournit une répartition annuelle des températures moyennes, cruciale pour notre analyse des tendances climatiques.

Visualisez les insights avec Data Studio

La représentation visuelle des données dévoile souvent des modèles invisibles dans les chiffres bruts. Connectez votre ensemble de données BigQuery à Data Studio, créez un rapport et commencez à créer des visualisations. Un graphique linéaire montrant les tendances des températures au fil des années serait un bon début. L'interface intuitive de Data Studio facilite le glisser-déposer et la personnalisation de vos visualisations.

Partagez vos résultats avec votre équipe à l'aide du bouton « Partager », permettant ainsi aux parties prenantes d'accéder et d'interagir facilement avec votre analyse.

 
En suivant cette étape, vous avez configuré un projet GCP, ingéré un ensemble de données réel, exécuté des requêtes SQL pour analyser les données et visualisé vos résultats pour une meilleure compréhension et un meilleur partage. Cette approche pratique aide non seulement à comprendre les mécanismes de GCP, mais également à obtenir des informations exploitables à partir de vos données.

L'utilisation de l'apprentissage automatique (ML) peut améliorer considérablement votre analyse de données en fournissant des informations et des prédictions plus approfondies. Dans cette étape, nous étendrons notre projet « Analyse météorologique », en utilisant les services ML de GCP pour prédire les températures futures sur la base de données historiques. GCP propose deux services de ML principaux : Cloud AutoML pour ceux qui découvrent le ML et AI Platform pour les praticiens plus expérimentés.

Présentation de Cloud AutoML et d'AI Platform

  • Cloud AutoML : il s'agit d'un service ML entièrement géré qui facilite la formation de modèles personnalisés avec un minimum de codage. Il est idéal pour ceux qui n’ont pas une expérience approfondie en apprentissage automatique.
  • AI Platform : il s'agit d'une plate-forme gérée pour la création, la formation et le déploiement de modèles ML. Il prend en charge les frameworks populaires tels que TensorFlow, scikit-learn et XGBoost, ce qui le rend adapté aux personnes ayant une expérience en ML.

Exemple pratique avec AI Platform

Poursuivant notre projet d'analyse météorologique, notre objectif est de prédire les températures futures à l'aide de données historiques. Dans un premier temps, la préparation des données d’entraînement est une étape cruciale. Prétraitez vos données dans un format adapté au ML, généralement CSV, et divisez-les en ensembles de données de formation et de test. Assurez-vous que les données sont propres, avec des fonctionnalités pertinentes sélectionnées pour une formation précise du modèle. Une fois préparé, téléchargez les ensembles de données dans un bucket Cloud Storage, en créant un répertoire structuré comme gs://weather_analysis_data/training/ et les gs://weather_analysis_data/testing/.

La formation d’un modèle est la prochaine étape importante. Accédez à AI Platform sur GCP et créez un nouveau modèle. Optez pour un modèle de régression prédéfini, car nous prévoyons une cible continue : la température. Pointez le modèle vers vos données d'entraînement dans Cloud Storage et définissez les paramètres nécessaires à l'entraînement. GCP gérera automatiquement le processus de formation, le réglage et l'évaluation, ce qui simplifie le processus de création de modèle.

Une fois la formation réussie, déployez le modèle formé dans AI Platform. Le déploiement du modèle permet une intégration facile avec d'autres services GCP et applications externes, facilitant ainsi l'utilisation du modèle pour les prédictions. Assurez-vous de définir les contrôles de version et d’accès appropriés pour une gestion sécurisée et organisée des modèles.

Maintenant que le modèle est déployé, il est temps de tester ses prédictions. Envoyez des requêtes de requête pour tester les prédictions du modèle à l'aide de la console GCP ou des SDK. Par exemple, saisissez des paramètres météorologiques historiques pour un jour particulier et observez la température prévue, ce qui donnera un aperçu de la précision et des performances du modèle.

Pratique avec Cloud AutoML

Pour une approche plus simple de l'apprentissage automatique, Cloud AutoML propose une interface conviviale pour les modèles de formation. Commencez par vous assurer que vos données sont correctement formatées et divisées, puis téléchargez-les sur Cloud Storage. Cette étape reflète la préparation des données dans AI Platform, mais s'adresse à ceux qui ont moins d'expérience en ML.

Accédez à AutoML Tables sur GCP, créez un nouvel ensemble de données et importez vos données depuis Cloud Storage. Cette configuration est assez intuitive et nécessite des configurations minimales, ce qui facilite la préparation de vos données pour la formation.

Entraîner un modèle dans AutoML est simple. Sélectionnez les données d'entraînement, spécifiez la colonne cible (Température) et lancez le processus d'entraînement. AutoML Tables gérera automatiquement l'ingénierie des fonctionnalités, le réglage du modèle et l'évaluation, ce qui vous soulage du lourd travail et vous permet de vous concentrer sur la compréhension du résultat du modèle.

Une fois votre modèle entraîné, déployez-le dans Cloud AutoML et testez sa précision prédictive à l'aide de l'interface fournie ou en envoyant des requêtes de requête via les SDK GCP. Cette étape donne vie à votre modèle, vous permettant de faire des prédictions sur de nouvelles données.

Enfin, évaluez les performances de votre modèle. Examinez les mesures d'évaluation du modèle, la matrice de confusion et l'importance des fonctionnalités pour mieux comprendre ses performances. Ces informations sont cruciales car elles indiquent s'il est nécessaire de procéder à des réglages supplémentaires, à une ingénierie des fonctionnalités ou à la collecte de davantage de données pour améliorer la précision du modèle.

 
En vous immergeant à la fois dans AI Platform et Cloud AutoML, vous acquérez une compréhension pratique de l'exploitation du machine learning sur GCP, enrichissant ainsi votre projet d'analyse météorologique avec des capacités prédictives. Grâce à ces exemples pratiques, la voie à suivre pour intégrer l’apprentissage automatique dans vos projets de données est démystifiée, jetant ainsi une base solide pour des explorations plus avancées de l’apprentissage automatique.

Une fois votre modèle d’apprentissage automatique formé de manière satisfaisante, la prochaine étape cruciale consiste à le déployer en production. Ce déploiement permet à votre modèle de commencer à recevoir des données du monde réel et de renvoyer des prédictions. Au cours de cette étape, nous explorerons différentes options de déploiement sur GCP, garantissant que vos modèles sont servis efficacement et en toute sécurité.

Servir des prédictions via des services sans serveur

Les services sans serveur sur GCP comme Cloud Functions ou Cloud Run peuvent être exploités pour déployer des modèles entraînés et fournir des prédictions en temps réel. Ces services suppriment les tâches de gestion de l'infrastructure, vous permettant de vous concentrer uniquement sur l'écriture et le déploiement de code. Ils sont bien adaptés aux demandes de prédiction intermittentes ou à faible volume en raison de leurs capacités de mise à l'échelle automatique.

Par exemple, le déploiement de votre modèle de prévision de température via Cloud Functions implique de regrouper votre modèle dans une fonction, puis de le déployer dans le cloud. Une fois déployé, Cloud Functions augmente ou réduit automatiquement autant d'instances que nécessaire pour gérer le taux de demandes entrantes.

Création de services de prédiction

Pour les prédictions à volume élevé ou sensibles à la latence, regrouper vos modèles entraînés dans des conteneurs Docker et les déployer sur Google Kubernetes Engine (GKE) est une approche plus appropriée. Cette configuration permet des services de prédiction évolutifs, répondant à un nombre potentiellement important de demandes.

En encapsulant votre modèle dans un conteneur, vous créez un environnement portable et cohérent, garantissant qu'il fonctionnera de la même manière quel que soit l'endroit où le conteneur est déployé. Une fois votre conteneur prêt, déployez-le sur GKE, qui fournit un service Kubernetes géré pour orchestrer efficacement vos applications conteneurisées.

Pratiques d'excellence

Le déploiement de modèles en production implique également le respect des meilleures pratiques pour garantir le bon fonctionnement et la précision continue de vos modèles.

  • Surveiller les modèles en production: Gardez un œil attentif sur les performances de votre modèle au fil du temps. La surveillance peut aider à détecter des problèmes tels que la dérive du modèle, qui se produit lorsque les prédictions du modèle deviennent moins précises à mesure que la distribution des données sous-jacentes change.
  • Actualisez régulièrement les modèles sur de nouvelles données: À mesure que de nouvelles données deviennent disponibles, recyclez vos modèles pour vous assurer qu'ils continuent à faire des prédictions précises.
  • Mettre en œuvre des tests A/B pour les itérations du modèle: Avant de remplacer complètement un modèle existant en production, utilisez les tests A/B pour comparer les performances du nouveau modèle par rapport à l'ancien.
  • Gérer les scénarios d'échec et les restaurations : Préparez-vous aux échecs et prévoyez un plan de restauration pour revenir à une version précédente du modèle si nécessaire.

Optimisation du coût

L’optimisation des coûts est essentielle pour maintenir un équilibre entre performances et dépenses.

  • Utiliser des VM préemptives et l'autoscaling: Pour gérer les coûts, utilisez des VM préemptives qui sont nettement moins chères que les VM classiques. En combinant cela avec la mise à l'échelle automatique, vous disposez des ressources nécessaires en cas de besoin, sans surprovisionnement.
  • Comparez les déploiements sans serveur et conteneurisés: Évaluez les différences de coûts entre les déploiements sans serveur et conteneurisés pour déterminer l'approche la plus rentable pour votre cas d'utilisation.
  • Types de machines de taille adaptée pour modéliser les besoins en ressources: choisissez des types de machines qui correspondent aux besoins en ressources de votre modèle pour éviter de dépenser trop pour des ressources sous-utilisées.

Considérations de sécurité

Sécuriser votre déploiement est primordial pour protéger à la fois vos modèles et les données qu'ils traitent.

  • Comprendre les meilleures pratiques en matière d'IAM, d'authentification et de chiffrement: Familiarisez-vous avec la gestion des identités et des accès (IAM) et mettez en œuvre une authentification et un cryptage appropriés pour sécuriser l'accès à vos modèles et données.
  • Accès sécurisé aux modèles et aux données de production: Assurez-vous que seules les personnes et services autorisés ont accès à vos modèles et données en production.
  • Empêcher l'accès non autorisé aux points de terminaison de prédiction: Mettez en œuvre des contrôles d'accès robustes pour empêcher tout accès non autorisé à vos points de terminaison de prédiction, protégeant ainsi vos modèles contre une utilisation abusive potentielle.

Le déploiement de modèles en production sur GCP implique un mélange de considérations techniques et opérationnelles. En adhérant aux meilleures pratiques, en optimisant les coûts et en garantissant la sécurité, vous établissez une base solide pour des déploiements de machine learning réussis, prêts à apporter de la valeur à partir de vos modèles dans des applications réelles.

Dans ce guide complet, nous avons parcouru les éléments essentiels pour démarrer votre parcours sur Google Cloud Platform (GCP) pour l'apprentissage automatique et la science des données. De la configuration d'un compte GCP au déploiement de modèles dans un environnement de production, chaque étape constitue un élément de base vers la création d'applications robustes basées sur les données. Voici les prochaines étapes pour poursuivre votre exploration et votre apprentissage sur GCP.

  • Niveau gratuit de GCP: profitez de l'offre gratuite de GCP pour explorer et expérimenter davantage les services cloud. L'offre gratuite donne accès aux principaux produits GCP et constitue un excellent moyen d'acquérir une expérience pratique sans encourir de coûts supplémentaires.
  • Services GCP avancés: Plongez dans des services GCP plus avancés tels que Pub/Sub pour la messagerie en temps réel, Dataflow pour le traitement par flux et par lots, ou Kubernetes Engine pour l'orchestration de conteneurs. Comprendre ces services élargira vos connaissances et vos compétences dans la gestion de projets de données complexes sur GCP.
  • Communauté et documentation: La communauté GCP est une riche source de connaissances et la documentation officielle est complète. Participez à des forums, assistez à des rencontres GCP et explorez des didacticiels pour continuer à apprendre.
  • Certifications: Envisagez de poursuivre une certification Google Cloud, telle que Professional Data Engineer ou Professional Machine Learning Engineer, pour valider vos compétences et améliorer vos perspectives de carrière.
  • Collaborer sur des projets : Collaborez sur des projets avec des pairs ou contribuez à des projets open source qui utilisent GCP. La collaboration dans le monde réel offre une perspective différente et améliore vos compétences en résolution de problèmes.

La sphère technologique, en particulier le cloud computing et l’apprentissage automatique, est en constante évolution. Rester informé des dernières avancées, interagir avec la communauté et travailler sur des projets pratiques sont d'excellents moyens de continuer à perfectionner vos compétences. De plus, réfléchissez aux projets terminés, tirez les leçons des défis rencontrés et appliquez ces apprentissages à vos projets futurs. Chaque projet est une opportunité d'apprentissage, et l'amélioration continue est la clé du succès dans votre parcours de science des données et d'apprentissage automatique sur GCP.

En suivant ce guide, vous avez posé une base solide pour vos aventures sur Google Cloud Platform. Le chemin à parcourir est rempli d’apprentissage, d’exploration et de nombreuses opportunités pour avoir un impact significatif sur vos projets de données.

 
 
Matthieu Mayo (@mattmayo13) est titulaire d'une maîtrise en informatique et d'un diplôme d'études supérieures en fouille de données. En tant que rédacteur en chef de KDnuggets, Matthew vise à rendre accessibles les concepts complexes de la science des données. Ses intérêts professionnels incluent le traitement du langage naturel, les algorithmes d’apprentissage automatique et l’exploration de l’IA émergente. Il est animé par la mission de démocratiser les connaissances dans la communauté de la science des données. Matthew code depuis l'âge de 6 ans.
 

spot_img

Dernières informations

spot_img