Zephyrnet-logo

Aan de slag met Google Cloud Platform in 5 stappen – KDnuggets

Datum:

Aan de slag met Google Cloud Platform in 5 stappen

Aan de slag met Google Cloud Platform in 5 stappen
 

Dit artikel is bedoeld om een ​​stapsgewijs overzicht te geven van hoe u aan de slag kunt gaan Google Cloud Platform (GCP) voor datawetenschap en machinaal leren. We geven een overzicht van GCP en de belangrijkste mogelijkheden voor analyse, doorlopen het instellen van accounts en verkennen essentiële services zoals BigQuery en Cloud Storage, bouw een voorbeeldgegevensproject en gebruik GCP voor machine learning. Of u nu nieuw bent bij GCP of op zoek bent naar een snelle opfrisser: lees verder om de basisbeginselen te leren en ga aan de slag met Google Cloud.

Wat is GCP?

Google Cloud Platform biedt een hele reeks cloudcomputingservices waarmee u apps kunt bouwen en uitvoeren op de infrastructuur van Google. Voor rekenkracht is er Compute Engine waarmee u virtuele machines kunt opstarten. Als u containers moet uitvoeren, doet Kubernetes het werk. BigQuery verzorgt uw behoeften op het gebied van datawarehousing en analyse. En met Cloud ML krijgt u via API vooraf getrainde machine learning-modellen voor zaken als visie, vertaling en meer. Over het geheel genomen streeft GCP ernaar de bouwstenen te bieden die u nodig heeft, zodat u zich kunt concentreren op het maken van geweldige apps zonder u zorgen te hoeven maken over de onderliggende infrastructuur.

Voordelen van GCP voor datawetenschap

GCP biedt verschillende voordelen voor data-analyse en machine learning:

  • Schaalbare computerresources die big data-workloads aankunnen
  • Beheerde services zoals BigQuery om gegevens op schaal te verwerken
  • Geavanceerde machine learning-mogelijkheden zoals Cloud AutoML en AI Platform
  • Geïntegreerde analysetools en -diensten

Hoe GCP zich verhoudt tot AWS en Azure

Vergeleken met Amazon Web Services en Microsoft Azure onderscheidt GCP zich door zijn kracht op het gebied van big data, analytics en machine learning, en zijn aanbod van beheerde diensten zoals BigQuery en Dataflow voor gegevensverwerking. Het AI-platform maakt het eenvoudig om ML-modellen te trainen en te implementeren. Over het algemeen is GCP concurrerend geprijsd en een topkeuze voor datagestuurde toepassingen.

Kenmerk Google Cloud Platform (GCP) Amazon Web Services (AWS) Microsoft Azure
Prijzen* Concurrerende prijzen met kortingen voor langdurig gebruik Prijzen per uur met kortingen voor gereserveerde exemplaren Prijzen per minuut met kortingen voor gereserveerde exemplaren
Data opslagplaats BigQuery Redshift Synapsanalyse
Machine leren Cloud AutoML, AI-platform SageMaker Azure-machine learning
Computerdiensten Compute-engine, Kubernetes-engine EC2, ECS, EKS Virtuele machines, AKS
Serverloze aanbiedingen Cloudfuncties, App Engine Lambda, Fargate Functies, Logic Apps

*Houd er rekening mee dat de prijsmodellen voor onze doeleinden noodzakelijkerwijs vereenvoudigd zijn. AWS en Azure bieden ook kortingen voor langdurig gebruik of vastgelegd gebruik, vergelijkbaar met GCP; prijsstructuren zijn complex en kunnen aanzienlijk variëren op basis van een groot aantal factoren. De lezer wordt daarom aangemoedigd om hier zelf verder naar te kijken om te bepalen wat de werkelijke kosten in hun situatie zouden kunnen zijn.
 

In deze tabel hebben we Google Cloud Platform, Amazon Web Services en Microsoft Azure vergeleken op basis van verschillende functies, zoals prijzen, datawarehousing, machine learning, computerservices en serverloze aanbiedingen. Elk van deze cloudplatforms heeft zijn eigen unieke set services en prijsmodellen, die tegemoetkomen aan verschillende zakelijke en technische vereisten.

Een Google Cloud-account maken

Om GCP te gebruiken, moet u zich eerst aanmelden voor een Google Cloud-account. Ga naar de Startpagina en klik op ‘Gratis aan de slag’. Volg de aanwijzingen om uw account aan te maken met uw Google- of Gmail-inloggegevens.

Een factureringsaccount aanmaken

Vervolgens moet u een factureringsaccount en betalingsmethode instellen. Hierdoor kunt u betaalde services gebruiken die verder gaan dan het gratis niveau. Navigeer naar het gedeelte Facturering in de console en volg de aanwijzingen om uw factuurgegevens toe te voegen.

GCP-prijzen begrijpen

GCP biedt een royale gratis laag van 12 maanden met een tegoed van $ 300. Hierdoor kunt u kosteloos gebruik maken van belangrijke producten zoals Compute Engine, BigQuery en meer. Bekijk prijscalculatoren en documenten om de volledige kosten te schatten.

Installeer de Google Cloud SDK

Installeer de Cloud SDK op uw lokale computer om projecten/bronnen te beheren via de opdrachtregel. Downloaden van de Cloud SDK-handleiding en volg de installatiehandleiding.

 
Zorg er ten slotte voor dat u de Aan de slag met Google Cloud documentatie.

Google Cloud Platform (GCP) is beladen met een groot aantal services die zijn ontworpen om tegemoet te komen aan een verscheidenheid aan datawetenschapsbehoeften. Hier gaan we dieper in op enkele van de essentiële services, zoals BigQuery, Cloud Storage en Cloud Dataflow, en werpen we licht op hun functionaliteit en mogelijke gebruiksscenario's.

BigQuery

BigQuery is de volledig beheerde, goedkope analysedatabase van GCP. Met zijn serverloze model maakt BigQuery supersnelle SQL-query's mogelijk tegen voornamelijk toegevoegde tabellen, door gebruik te maken van de verwerkingskracht van de infrastructuur van Google. Het is niet alleen een hulpmiddel voor het uitvoeren van query's, maar een robuuste, grootschalige datawarehousing-oplossing die petabytes aan gegevens kan verwerken. De serverloze aanpak elimineert de behoefte aan databasebeheerders, waardoor het een aantrekkelijke optie wordt voor ondernemingen die de operationele overhead willen verminderen.

 
Voorbeeld: Duiken in de openbare dataset van geboorten om inzichten te verkrijgen over geboorten in de VS.

SELECT * FROM `bigquery-public-data.samples.natality`
LIMIT 10

Cloud Storage

Cloud Storage zorgt voor robuuste, veilige en schaalbare objectopslag. Het is een uitstekende oplossing voor ondernemingen omdat het de opslag en het ophalen van grote hoeveelheden gegevens mogelijk maakt met een hoge mate van beschikbaarheid en betrouwbaarheid. Gegevens in Cloud Storage zijn georganiseerd in buckets, die fungeren als individuele containers voor gegevens, en afzonderlijk kunnen worden beheerd en geconfigureerd. Cloud Storage ondersteunt standaard-, nearline-, coldline- en archiefopslagklassen, waardoor prijs- en toegangsvereisten kunnen worden geoptimaliseerd.

 
Voorbeeld: Een voorbeeld-CSV-bestand uploaden naar een Cloud Storage-bucket met behulp van de gsutil CLI.

gsutil cp sample.csv gs://my-bucket

Cloudgegevensstroom

Cloud Dataflow is een volledig beheerde service voor het streamen en batchverwerking van gegevens. Het blinkt uit in realtime of bijna realtime analyses en ondersteunt Extract, Transform en Load (ETL)-taken, evenals realtime analyses en gebruiksscenario's voor kunstmatige intelligentie (AI). Cloud Dataflow is gebouwd om de complexiteit van het verwerken van grote hoeveelheden gegevens op een betrouwbare, fouttolerante manier aan te kunnen. Het kan naadloos worden geïntegreerd met andere GCP-services zoals BigQuery voor analyse en Cloud Storage voor data-staging en tijdelijke resultaten, waardoor het een hoeksteen wordt voor het bouwen van end-to-end dataverwerkingspijplijnen.

Het starten van een dataproject vereist een systematische aanpak om nauwkeurige en inzichtelijke resultaten te garanderen. In deze stap doorlopen we hoe u een project maakt op Google Cloud Platform (GCP), waarbij u de benodigde API's inschakelt en de weg vrijmaakt voor gegevensopname, -analyse en -visualisatie met BigQuery en Data Studio. Laten we ons voor ons project verdiepen in het analyseren van historische weergegevens om klimaattrends te onderscheiden.

Project instellen en API's inschakelen

Begin uw reis door een nieuw project op GCP te maken. Navigeer naar de Cloud Console, klik op de vervolgkeuzelijst met projecten en selecteer 'Nieuw project'. Noem het "Weeranalyse" en volg de installatiewizard. Zodra uw project klaar is, gaat u naar het dashboard API's en services om essentiële API's zoals BigQuery, Cloud Storage en Data Studio in te schakelen.

Laad de dataset in BigQuery

Voor onze weeranalyse hebben we een rijke dataset nodig. NOAA heeft een schat aan historische weersgegevens beschikbaar. Download een deel van deze gegevens en ga naar de BigQuery Console. Maak hier een nieuwe dataset met de naam `weather_data`. Klik op “Tabel maken”, upload uw gegevensbestand en volg de aanwijzingen om het schema te configureren.

Table Name: historical_weather
Schema: Date:DATE, Temperature:FLOAT, Precipitation:FLOAT, WindSpeed:FLOAT

Gegevens opvragen en analyseren in BigQuery

Nu u gegevens tot uw beschikking heeft, is het tijd om inzichten te verwerven. Dankzij de SQL-interface van BigQuery kunnen query's naadloos worden uitgevoerd. Om bijvoorbeeld de gemiddelde temperatuur door de jaren heen te vinden:

SELECT EXTRACT(YEAR FROM Date) as Year, AVG(Temperature) as AvgTemperature
FROM `weather_data.historical_weather`
GROUP BY Year
ORDER BY Year ASC;

Deze zoekopdracht maakt gebruik van een jaarlijkse uitsplitsing van de gemiddelde temperaturen, cruciaal voor onze klimaattrendanalyse.

Visualiseer inzichten met Data Studio

Visuele representatie van gegevens onthult vaak patronen die onzichtbaar zijn in ruwe cijfers. Koppel uw BigQuery-dataset aan Data Studio, maak een nieuw rapport en begin met het bouwen van visualisaties. Een lijndiagram dat de temperatuurtrends door de jaren heen laat zien, zou een goed begin zijn. Dankzij de intuïtieve interface van Data Studio kunt u uw visualisaties eenvoudig slepen, neerzetten en aanpassen.

Deel uw bevindingen met uw team via de knop ‘Delen’, zodat belanghebbenden moeiteloos toegang krijgen tot uw analyse en er interactie mee kunnen hebben.

 
Door deze stap te volgen, heeft u een GCP-project opgezet, een dataset uit de echte wereld opgenomen, SQL-query's uitgevoerd om gegevens te analyseren en uw bevindingen gevisualiseerd voor een beter begrip en delen. Deze praktische aanpak helpt niet alleen bij het begrijpen van de werking van GCP, maar ook bij het verkrijgen van bruikbare inzichten uit uw gegevens.

Het gebruik van machine learning (ML) kan uw data-analyse aanzienlijk verbeteren door diepere inzichten en voorspellingen te bieden. In deze stap breiden we ons project 'Weeranalyse' uit, waarbij we de ML-services van GCP gebruiken om toekomstige temperaturen te voorspellen op basis van historische gegevens. GCP biedt twee primaire ML-services: Cloud AutoML voor degenen die nieuw zijn met ML, en AI Platform voor meer ervaren beoefenaars.

Overzicht van Cloud AutoML en AI Platform

  • Cloud AutoML: Dit is een volledig beheerde ML-service die de training van aangepaste modellen met minimale codering mogelijk maakt. Het is ideaal voor mensen zonder een diepgaande machine learning-achtergrond.
  • AI Platform: Dit is een beheerd platform voor het bouwen, trainen en implementeren van ML-modellen. Het ondersteunt populaire frameworks zoals TensorFlow, scikit-learn en XGBoost, waardoor het geschikt is voor mensen met ML-ervaring.

Praktijkvoorbeeld met AI Platform

Als we doorgaan met ons weeranalyseproject, is het ons doel om toekomstige temperaturen te voorspellen met behulp van historische gegevens. In eerste instantie is het voorbereiden van trainingsgegevens een cruciale stap. Verwerk uw gegevens voor in een formaat dat geschikt is voor ML, meestal CSV, en splits deze op in trainings- en testdatasets. Zorg ervoor dat de gegevens schoon zijn en dat relevante functies zijn geselecteerd voor nauwkeurige modeltraining. Eenmaal voorbereid, uploadt u de datasets naar een Cloud Storage-bucket, waardoor een gestructureerde map ontstaat zoals gs://weather_analysis_data/training/ en gs://weather_analysis_data/testing/.

Het trainen van een model is de volgende belangrijke stap. Navigeer naar het AI-platform op GCP en maak een nieuw model. Kies voor een vooraf gebouwd regressiemodel, omdat we een continue doeltemperatuur voorspellen. Verwijs het model naar uw trainingsgegevens in Cloud Storage en stel de benodigde parameters voor training in. GCP verzorgt automatisch het trainingsproces, de afstemming en de evaluatie, wat het modelbouwproces vereenvoudigt.

Na een succesvolle training implementeert u het getrainde model binnen AI Platform. Door het model te implementeren is eenvoudige integratie met andere GCP-services en externe applicaties mogelijk, waardoor het gebruik van het model voor voorspellingen wordt vergemakkelijkt. Zorg ervoor dat u de juiste versiebeheer- en toegangscontroles instelt voor veilig en georganiseerd modelbeheer.

Nu het model is geïmplementeerd, is het tijd om de voorspellingen ervan te testen. Verzend queryverzoeken om de voorspellingen van het model te testen met behulp van de GCP-console of SDK's. Voer bijvoorbeeld historische weerparameters voor een bepaalde dag in en observeer de voorspelde temperatuur, waardoor u een glimp krijgt van de nauwkeurigheid en prestaties van het model.

Praktisch met Cloud AutoML

Voor een eenvoudigere benadering van machine learning biedt Cloud AutoML een gebruiksvriendelijke interface voor trainingsmodellen. Zorg er eerst voor dat uw gegevens op de juiste manier zijn geformatteerd en opgesplitst, en upload ze vervolgens naar Cloud Storage. Deze stap weerspiegelt de gegevensvoorbereiding in het AI-platform, maar is gericht op mensen met minder ML-ervaring.

Ga verder met navigeren naar AutoML Tables op GCP, maak een nieuwe dataset en importeer uw gegevens uit Cloud Storage. Deze installatie is vrij intuïtief en vereist minimale configuraties, waardoor het een fluitje van een cent is om uw gegevens gereed te maken voor training.

Het trainen van een model in AutoML is eenvoudig. Selecteer de trainingsgegevens, specificeer de doelkolom (Temperatuur) en start het trainingsproces. AutoML Tables verzorgt automatisch de feature-engineering, modelafstemming en evaluatie, waardoor het zware werk van uw schouders wordt genomen en u zich kunt concentreren op het begrijpen van de output van het model.

Zodra uw model is getraind, implementeert u het binnen Cloud AutoML en test u de voorspellende nauwkeurigheid ervan met behulp van de meegeleverde interface of door queryverzoeken te verzenden via GCP SDK's. Deze stap brengt uw model tot leven, waardoor u voorspellingen kunt doen op basis van nieuwe gegevens.

Evalueer ten slotte de prestaties van uw model. Bekijk de evaluatiestatistieken, de verwarringsmatrix en het belang van de functies van het model om de prestaties ervan beter te begrijpen. Deze inzichten zijn cruciaal omdat ze aangeven of er behoefte is aan verdere afstemming, feature-engineering of het verzamelen van meer gegevens om de nauwkeurigheid van het model te verbeteren.

 
Door u te verdiepen in zowel het AI Platform als Cloud AutoML krijgt u praktisch inzicht in het benutten van machine learning op GCP, waardoor uw weeranalyseproject wordt verrijkt met voorspellende mogelijkheden. Door deze praktische voorbeelden wordt de weg naar het integreren van machine learning in uw dataprojecten gedemystificeerd, waardoor een solide basis wordt gelegd voor meer geavanceerde verkenningen op het gebied van machine learning.

Zodra uw machine learning-model naar tevredenheid is getraind, is de volgende cruciale stap de implementatie ervan in productie. Dankzij deze implementatie kan uw model gegevens uit de echte wereld ontvangen en voorspellingen retourneren. In deze stap verkennen we verschillende implementatieopties op GCP, zodat we ervoor zorgen dat uw modellen efficiënt en veilig worden aangeboden.

Voorspellingen weergeven via serverloze services

Serverloze services op GCP, zoals Cloud Functions of Cloud Run, kunnen worden gebruikt om getrainde modellen te implementeren en realtime voorspellingen te doen. Deze services nemen taken op het gebied van infrastructuurbeheer weg, zodat u zich uitsluitend kunt concentreren op het schrijven en implementeren van code. Ze zijn zeer geschikt voor intermitterende of kleine voorspellingsverzoeken vanwege hun automatische schalingsmogelijkheden.

Als u bijvoorbeeld uw temperatuurvoorspellingsmodel via Cloud Functions implementeert, betekent dit dat u uw model in een functie verpakt en vervolgens in de cloud implementeert. Eenmaal geïmplementeerd, schaalt Cloud Functions automatisch zoveel instanties omhoog of omlaag als nodig is om het aantal binnenkomende verzoeken te verwerken.

Voorspellingsservices creëren

Voor voorspellingen met een hoog volume of latentiegevoelige voorspellingen is het verpakken van uw getrainde modellen in Docker-containers en het implementeren ervan in Google Kubernetes Engine (GKE) een geschiktere aanpak. Deze opzet maakt schaalbare voorspellingsdiensten mogelijk, die tegemoetkomen aan een potentieel groot aantal verzoeken.

Door uw model in een container in te kapselen, creëert u een draagbare en consistente omgeving, zodat deze altijd hetzelfde blijft werken, ongeacht waar de container wordt ingezet. Zodra uw container klaar is, implementeert u deze in GKE, dat een beheerde Kubernetes-service biedt om uw container-applicaties efficiënt te orkestreren.

Best Practices

Het implementeren van modellen voor productie houdt ook in dat u zich aan best practices houdt om een ​​soepele werking en voortdurende nauwkeurigheid van uw modellen te garanderen.

  • Monitor modellen in productie: Houd de prestaties van uw model in de loop van de tijd nauwlettend in de gaten. Monitoring kan helpen bij het opsporen van problemen zoals modeldrift, die optreedt wanneer de voorspellingen van het model minder nauwkeurig worden naarmate de onderliggende gegevensdistributie verandert.
  • Train modellen regelmatig opnieuw op basis van nieuwe gegevens: Wanneer er nieuwe gegevens beschikbaar komen, moet u uw modellen opnieuw trainen om ervoor te zorgen dat ze nauwkeurige voorspellingen blijven doen.
  • Implementeer A/B-testen voor modeliteraties: Voordat u een bestaand model in productie volledig vervangt, gebruikt u A/B-testen om de prestaties van het nieuwe model te vergelijken met het oude.
  • Afhandelen van foutscenario's en terugdraaiingen: Wees voorbereid op storingen en zorg voor een rollback-plan om indien nodig terug te keren naar een eerdere modelversie.

Optimaliseren voor kosten

Kostenoptimalisatie is essentieel voor het behoud van een evenwicht tussen prestaties en kosten.

  • Gebruik verwijderbare VM's en automatisch schalen: Om de kosten te beheersen, kunt u verwijderbare VM's gebruiken die aanzienlijk goedkoper zijn dan reguliere VM's. Door dit te combineren met automatisch schalen, zorgt u ervoor dat u over de benodigde resources beschikt wanneer dat nodig is, zonder overprovisioning.
  • Vergelijk serverloze en container-implementaties: Beoordeel de kostenverschillen tussen serverloze en container-implementaties om de meest kosteneffectieve aanpak voor uw gebruiksscenario te bepalen.
  • Machinetypes van het juiste formaat om de resourcebehoeften te modelleren: Kies machinetypen die aansluiten bij de resourcevereisten van uw model om te voorkomen dat u te veel uitgeeft aan onderbenutte resources.

Beveiligingsoverwegingen

Het beveiligen van uw implementatie is van cruciaal belang om zowel uw modellen als de gegevens die ze verwerken te beschermen.

  • Begrijp de beste praktijken op het gebied van IAM, authenticatie en encryptie: Maak uzelf vertrouwd met Identity and Access Management (IAM) en implementeer de juiste authenticatie en encryptie om de toegang tot uw modellen en gegevens te beveiligen.
  • Veilige toegang tot productiemodellen en gegevens: Zorg ervoor dat alleen geautoriseerde personen en services toegang hebben tot uw modellen en gegevens in productie.
  • Voorkom ongeautoriseerde toegang tot voorspellingseindpunten: Implementeer robuuste toegangscontroles om ongeautoriseerde toegang tot uw voorspellingseindpunten te voorkomen en uw modellen te beschermen tegen mogelijk misbruik.

Het implementeren van modellen voor productie op GCP brengt een combinatie van technische en operationele overwegingen met zich mee. Door best practices te volgen, de kosten te optimaliseren en de veiligheid te garanderen, legt u een solide basis voor succesvolle machine learning-implementaties, klaar om waarde uit uw modellen te halen in echte toepassingen.

In deze uitgebreide gids hebben we de essentie besproken om uw reis op Google Cloud Platform (GCP) voor machine learning en data science een vliegende start te geven. Van het opzetten van een GCP-account tot het implementeren van modellen in een productieomgeving: elke stap is een bouwsteen op weg naar het creëren van robuuste datagestuurde applicaties. Hier zijn de volgende stappen om uw verkenning en leerproces op GCP voort te zetten.

  • GCP Gratis niveau: Profiteer van de gratis GCP-laag om de cloudservices verder te verkennen en ermee te experimenteren. De gratis laag biedt toegang tot de belangrijkste GCP-producten en is een geweldige manier om praktijkervaring op te doen zonder dat dit extra kosten met zich meebrengt.
  • Geavanceerde GCP-services: Duik in meer geavanceerde GCP-services zoals Pub/Sub voor realtime berichtenuitwisseling, Dataflow voor stream- en batchverwerking of Kubernetes Engine voor containerorkestratie. Als u deze services begrijpt, vergroot u uw kennis en vaardigheden bij het beheren van complexe dataprojecten op GCP.
  • Gemeenschap en documentatie: De GCP-gemeenschap is een rijke bron van kennis en de officiële documentatie is uitgebreid. Neem deel aan forums, woon GCP-bijeenkomsten bij en bekijk tutorials om te blijven leren.
  • Certificering: Overweeg een Google Cloud-certificering te volgen, zoals de Professional Data Engineer of Professional Machine Learning Engineer, om uw vaardigheden te valideren en uw carrièrevooruitzichten te verbeteren.
  • Samenwerken aan projecten: Werk samen aan projecten met collega's of draag bij aan open-sourceprojecten die GCP gebruiken. Samenwerking in de echte wereld biedt een ander perspectief en vergroot uw probleemoplossende vaardigheden.

De technische sfeer, vooral cloud computing en machine learning, evolueert voortdurend. Op de hoogte blijven van de nieuwste ontwikkelingen, contact houden met de gemeenschap en werken aan praktische projecten zijn uitstekende manieren om je vaardigheden te blijven verbeteren. Denk bovendien na over voltooide projecten, leer van eventuele uitdagingen en pas die lessen toe op toekomstige inspanningen. Elk project is een leermogelijkheid, en voortdurende verbetering is de sleutel tot succes in uw data science- en machine learning-traject op GCP.

Door deze handleiding te volgen heeft u een robuuste basis gelegd voor uw avonturen op Google Cloud Platform. De weg die voor ons ligt, is gevuld met leren, verkennen en volop mogelijkheden om aanzienlijke impact te maken met uw dataprojecten.

 
 
Matthijs Mayo (@mattmayo13) heeft een masterdiploma in computerwetenschappen en een universitair diploma in datamining. Als hoofdredacteur van KDnuggets wil Matthew complexe datawetenschapsconcepten toegankelijk maken. Zijn professionele interesses omvatten de verwerking van natuurlijke taal, machine learning-algoritmen en het verkennen van opkomende AI. Hij wordt gedreven door een missie om kennis in de data science-gemeenschap te democratiseren. Matthew codeert al sinds hij zes jaar oud was.
 

spot_img

Laatste intelligentie

spot_img