ゼファーネットのロゴ

5 つのステップで Google Cloud Platform を使い始める – KDnuggets

日付:

5 つのステップで Google Cloud Platform を使い始める

5 つのステップで Google Cloud Platform を使い始める
 

この記事は、使用を開始する手順の概要を段階的に説明することを目的としています。 Google Cloud Platform (GCP) データ サイエンスと機械学習用。 GCP とその主要な分析機能の概要を説明し、アカウント設定を段階的に説明し、次のような重要なサービスについて説明します。 ビッグクエリー & Cloud Storage、サンプル データ プロジェクトを構築し、機械学習に GCP を使用します。 GCP を初めて使用する場合でも、簡単に復習したい場合でも、この記事を読んで基本を学び、Google Cloud の使用を開始してください。

GCPとは何ですか?

Google Cloud Platform は、Google のインフラストラクチャ上でアプリを構築および実行できるよう、あらゆる種類のクラウド コンピューティング サービスを提供します。 コンピューティング能力については、仮想マシンを起動できる Compute Engine があります。 コンテナを実行する必要がある場合は、Kubernetes がその仕事を行います。 BigQuery は、データ ウェアハウジングと分析のニーズに対応します。 また、Cloud ML を使用すると、ビジョンや翻訳などのために API 経由で事前トレーニングされた機械学習モデルを取得できます。 全体として、GCP は、基盤となるインフラストラクチャを気にせずに優れたアプリの作成に集中できるように、必要な構成要素を提供することを目的としています。

データ サイエンスにおける GCP のメリット

GCP は、データ分析と機械学習にいくつかのメリットをもたらします。

  • ビッグデータのワークロードを処理できるスケーラブルなコンピューティング リソース
  • 大規模なデータを処理するための BigQuery などのマネージド サービス
  • Cloud AutoML や AI Platform などの高度な機械学習機能
  • 統合された分析ツールとサービス

GCP と AWS および Azure の比較

Amazon Web Services や Microsoft Azure と比較すると、GCP はビッグデータ、分析、機械学習における強みと、データ処理のための BigQuery や Dataflow などのマネージド サービスの提供で際立っています。 AI プラットフォームを使用すると、ML モデルのトレーニングとデプロイが簡単になります。 全体として、GCP は競争力のある価格であり、データドリブン アプリケーションにとって最適な選択肢です。

特徴 Google Cloud Platform(GCP) Amazon Webサービス(AWS) Microsoft Azure
価格* 継続利用割引を備えた競争力のある価格設定 予約インスタンスの割引を含む時間当たりの料金 予約インスタンスの割引を伴う分単位の料金設定
データウェアハウス ビッグクエリー レッドシフト シナプス分析
機械学習 クラウド AutoML、AI プラットフォーム セージメーカー Azure機械学習
コンピューティングサービス コンピューティング エンジン、Kubernetes エンジン EC2、ECS、EKS 仮想マシン、AKS
サーバーレス製品 クラウド機能、App Engine ラムダ、ファーゲート 関数、ロジック アプリ

*価格モデルは、目的のために必然的に簡素化されていることに注意してください。 AWS と Azure も、GCP と同様の継続利用割引または確約利用割引を提供しています。 価格設定構造は複雑であり、多数の要因に基づいて大幅に変動する可能性があるため、読者は自分自身でこれをさらに詳しく調査し、自分の状況で実際のコストがいくらになるかを判断することをお勧めします。
 

この表では、価格設定、データ ウェアハウジング、機械学習、コンピューティング サービス、サーバーレス製品などのさまざまな機能に基づいて、Google Cloud Platform、Amazon Web Services、Microsoft Azure を比較しました。 これらのクラウド プラットフォームにはそれぞれ独自のサービス セットと価格モデルがあり、さまざまなビジネス要件や技術要件に対応します。

Googleクラウドアカウントの作成

GCP を使用するには、まず Google Cloud アカウントにサインアップします。 に行きます ホームページ 「無料で始める」をクリックします。 プロンプトに従って、Google または Gmail の資格情報を使用してアカウントを作成します。

請求先アカウントの作成

次に、請求先アカウントと支払い方法を設定する必要があります。 これにより、無料利用枠を超えて有料サービスを使用できるようになります。 コンソールの「請求」セクションに移動し、プロンプトに従って請求情報を追加します。

GCP の料金を理解する

GCP では、12 ドルのクレジットが付いた 300 か月の寛大な無料枠を提供しています。 これにより、Compute Engine、BigQuery などの主要な製品を無料で使用できるようになります。 料金計算ツールとドキュメントを確認して、総コストを見積もります。

Google Cloud SDKをインストールする

Cloud SDK をローカル マシンにインストールして、コマンド ラインからプロジェクト/リソースを管理します。 からダウンロードしてください クラウドSDKガイドページ そしてインストールガイドに従ってください。

 
最後に、必ずご覧になって手元に置いてください。 Google Cloud を使ってみる のドキュメントで詳しく説明されています)。

Google Cloud Platform (GCP) には、さまざまなデータ サイエンスのニーズに応えるように設計された無数のサービスが満載されています。 ここでは、BigQuery、Cloud Storage、Cloud Dataflow などのいくつかの重要なサービスをさらに詳しく掘り下げ、その機能と潜在的なユースケースに光を当てます。

ビッグクエリー

BigQuery は、GCP のフルマネージドの低コスト分析データベースとして機能します。 BigQuery はサーバーレス モデルを備えており、Google インフラストラクチャの処理能力を利用することで、追加がほとんどのテーブルに対して超高速の SQL クエリを実行できます。 これはクエリを実行するための単なるツールではなく、ペタバイト規模のデータを処理できる堅牢な大規模なデータ ウェアハウス ソリューションです。 サーバーレスのアプローチによりデータベース管理者の必要性がなくなり、運用上のオーバーヘッドを削減したい企業にとって魅力的な選択肢となります。

 
: 米国の出生に関する洞察を得るために、公開されている出生データセットを調査します。

SELECT * FROM `bigquery-public-data.samples.natality`
LIMIT 10

Cloud Storage

Cloud Storage により、堅牢かつ安全でスケーラブルなオブジェクト ストレージが可能になります。 これは、高度な可用性と信頼性を備えた大量のデータの保存と取得を可能にするため、企業にとって優れたソリューションです。 Cloud Storage 内のデータはバケットに編成され、データの個別のコンテナとして機能し、個別に管理および構成できます。 Cloud Storage は、標準、ニアライン、コールドライン、アーカイブ ストレージ クラスをサポートしており、価格とアクセス要件の最適化が可能です。

 
: gsutil CLI を使用して、サンプル CSV ファイルを Cloud Storage バケットにアップロードします。

gsutil cp sample.csv gs://my-bucket

クラウドデータフロー

Cloud Dataflow は、データのストリームおよびバッチ処理のためのフルマネージド サービスです。 リアルタイムまたはほぼリアルタイムの分析に優れており、抽出、変換、読み込み (ETL) タスクだけでなく、リアルタイム分析や人工知能 (AI) のユースケースもサポートしています。 Cloud Dataflow は、信頼性が高くフォールト トレラントな方法で膨大な量のデータを処理する複雑さを処理するように構築されています。 分析用の BigQuery やデータ ステージングと一時的な結果用の Cloud Storage などの他の GCP サービスとシームレスに統合され、エンドツーエンドのデータ処理パイプラインを構築するための基礎となります。

データ プロジェクトに着手するには、正確で洞察に満ちた結果を確実に得るための体系的なアプローチが必要です。 このステップでは、Google Cloud Platform (GCP) でプロジェクトを作成し、必要な API を有効にして、BigQuery とデータスタジオを使用したデータの取り込み、分析、可視化の準備を段階的に進めていきます。 私たちのプロジェクトでは、気候の傾向を識別するために過去の気象データを分析してみましょう。

プロジェクトを設定して API を有効にする

GCP で新しいプロジェクトを作成して、旅を始めましょう。 Cloud Console に移動し、プロジェクトのドロップダウンをクリックして、[新しいプロジェクト] を選択します。 「Weather Analysis」という名前を付け、セットアップ ウィザードに従ってください。 プロジェクトの準備ができたら、[API とサービス] ダッシュボードに移動して、BigQuery、Cloud Storage、Data Studio などの重要な API を有効にします。

データセットを BigQuery にロードする

気象分析には豊富なデータセットが必要です。 過去の気象データの宝庫は NOAA から入手できます。 このデータの一部をダウンロードし、BigQuery コンソールに移動します。 ここでは、「weather_data」という名前の新しいデータセットを作成します。 [テーブルの作成] をクリックし、データ ファイルをアップロードし、プロンプトに従ってスキーマを構成します。

Table Name: historical_weather
Schema: Date:DATE, Temperature:FLOAT, Precipitation:FLOAT, WindSpeed:FLOAT

BigQuery でデータのクエリと分析を行う

データを自由に使えるようになったら、洞察を発掘しましょう。 BigQuery の SQL インターフェースにより、クエリをシームレスに実行できます。 たとえば、年間の平均気温を確認するには、次のようにします。

SELECT EXTRACT(YEAR FROM Date) as Year, AVG(Temperature) as AvgTemperature
FROM `weather_data.historical_weather`
GROUP BY Year
ORDER BY Year ASC;

このクエリは、気候傾向分析に重要な平均気温の年間内訳を利用します。

データスタジオでインサイトを視覚化する

データを視覚的に表現すると、生の数値では見えないパターンが明らかになることがよくあります。 BigQuery データセットをデータポータルに接続し、新しいレポートを作成して、ビジュアライゼーションの構築を開始します。 まずは、長年にわたる気温の傾向を示す折れ線グラフから始めるとよいでしょう。 データポータルの直感的なインターフェイスにより、ビジュアライゼーションを簡単にドラッグ アンド ドロップしてカスタマイズできます。

[共有] ボタンを使用して調査結果をチームと共有すると、関係者が分析に簡単にアクセスして操作できるようになります。

 
このステップを実行すると、GCP プロジェクトを設定し、現実世界のデータセットを取り込み、SQL クエリを実行してデータを分析し、より深く理解して共有できるように結果を視覚化しました。 この実践的なアプローチは、GCP の仕組みを理解するだけでなく、データから実用的な洞察を得るのにも役立ちます。

機械学習 (ML) を利用すると、より深い洞察と予測が提供され、データ分析が大幅に強化されます。 このステップでは、GCP の ML サービスを利用して「気象分析」プロジェクトを拡張し、過去のデータに基づいて将来の気温を予測します。 GCP は XNUMX つの主要な ML サービスを提供します。XNUMX つは ML の初心者向けの Cloud AutoML、もう XNUMX つは経験豊富な実務者向けの AI Platform です。

Cloud AutoML と AI プラットフォームの概要

  • Cloud AutoML: これは、最小限のコーディングでカスタム モデルのトレーニングを容易にするフルマネージド ML サービスです。 機械学習に関する深い知識のない人にとっては理想的です。
  • AI プラットフォーム: これは、ML モデルの構築、トレーニング、デプロイのためのマネージド プラットフォームです。 TensorFlow、scikit-learn、XGBoost などの一般的なフレームワークをサポートしているため、ML の経験がある人に適しています。

AIプラットフォームを使った実践例

気象分析プロジェクトを継続する私たちの目標は、過去のデータを使用して将来の気温を予測することです。 最初に、トレーニング データの準備が重要なステップになります。 データを ML に適した形式 (通常は CSV) に前処理し、トレーニング データセットとテスト データセットに分割します。 正確なモデル トレーニングに関連する特徴が選択されており、データがクリーンであることを確認します。 準備が完了したら、データセットを Cloud Storage バケットにアップロードし、次のような構造化されたディレクトリを作成します。 gs://weather_analysis_data/training/ & gs://weather_analysis_data/testing/.

モデルのトレーニングは、次の重要なステップです。 GCP 上の AI プラットフォームに移動し、新しいモデルを作成します。 継続的な目標である温度を予測しているため、事前に構築された回帰モデルを選択します。 モデルが Cloud Storage 内のトレーニング データを指すようにし、トレーニングに必要なパラメータを設定します。 GCP はトレーニング プロセス、調整、評価を自動的に処理するため、モデル構築プロセスが簡素化されます。

トレーニングが成功したら、トレーニングされたモデルを AI Platform 内にデプロイします。 モデルをデプロイすると、他の GCP サービスや外部アプリケーションと簡単に統合でき、予測のためのモデルの利用が容易になります。 安全で組織化されたモデル管理のために、適切なバージョン管理とアクセス制御を設定してください。

モデルがデプロイされたので、その予測をテストします。 GCP Console または SDK を使用してクエリ リクエストを送信し、モデルの予測をテストします。 たとえば、特定の日の過去の気象パラメータを入力し、予測気温を観察すると、モデルの精度とパフォーマンスがわかります。

Cloud AutoML の実践

機械学習へのより直接的なアプローチとして、Cloud AutoML はモデルをトレーニングするための使いやすいインターフェースを提供します。 まず、データが適切にフォーマットされて分割されていることを確認してから、Cloud Storage にアップロードします。 このステップは AI プラットフォームでのデータ準備を反映していますが、ML の経験が少ない人を対象としています。

GCP 上の AutoML Tables に移動し、新しいデータセットを作成し、Cloud Storage からデータをインポートします。 このセットアップは非常に直感的で、最小限の構成が必要なため、トレーニング用のデータを簡単に準備できます。

AutoML でのモデルのトレーニングは簡単です。 トレーニング データを選択し、ターゲット列 (温度) を指定して、トレーニング プロセスを開始します。 AutoML Tables は、特徴量エンジニアリング、モデルのチューニング、評価を自動的に処理するため、肩の荷が下り、モデルの出力の理解に集中できるようになります。

モデルのトレーニングが完了したら、Cloud AutoML 内にデプロイし、提供されたインターフェースを使用するか、GCP SDK 経由でクエリ リクエストを送信して、その予測精度をテストします。 このステップによりモデルが有効になり、新しいデータに対して予測ができるようになります。

最後に、モデルのパフォーマンスを評価します。 モデルのパフォーマンスをよりよく理解するために、モデルの評価指標、混同行列、および機能の重要性を確認します。 これらの洞察は、モデルの精度を向上させるためにさらなるチューニング、特徴エンジニアリング、またはより多くのデータ収集が必要かどうかを判断するため、非常に重要です。

 
AI Platform と Cloud AutoML の両方を活用することで、GCP での機械学習の活用について実践的に理解し、予測機能を備えた気象分析プロジェクトを強化できます。 これらの実践例を通じて、機械学習をデータ プロジェクトに統合する道筋が解明され、機械学習のより高度な探索のための強固な基盤が築かれます。

機械学習モデルが満足のいくまでトレーニングされたら、次の重要なステップはそれを実稼働環境にデプロイすることです。 このデプロイメントにより、モデルが現実世界のデータの受信を開始し、予測を返すことができるようになります。 このステップでは、GCP 上のさまざまなデプロイ オプションを検討し、モデルが効率的かつ安全に提供されるようにします。

サーバーレス サービスを介した予測の提供

Cloud Functions や Cloud Run などの GCP 上のサーバーレス サービスを利用して、トレーニングされたモデルをデプロイし、リアルタイムの予測を提供できます。 これらのサービスはインフラストラクチャ管理タスクを抽象化し、コードの作成とデプロイだけに集中できるようにします。 自動スケーリング機能があるため、断続的または少量の予測リクエストに適しています。

たとえば、Cloud Functions 経由で温度予測モデルをデプロイするには、モデルを関数にパッケージ化し、それをクラウドにデプロイする必要があります。 デプロイが完了すると、Cloud Functions は受信リクエストの速度を処理するために必要な数のインスタンスを自動的にスケールアップまたはスケールダウンします。

予測サービスの作成

大量の予測やレイテンシの影響を受けやすい予測の場合は、トレーニングされたモデルを Docker コンテナにパッケージ化し、Google Kubernetes Engine (GKE) にデプロイする方がより適切なアプローチです。 この設定により、潜在的に多数のリクエストに対応できるスケーラブルな予測サービスが可能になります。

モデルをコンテナーにカプセル化することで、移植性と一貫性のある環境を作成し、コンテナーがデプロイされている場所に関係なく同じように実行できるようにします。 コンテナの準備ができたら、それを GKE にデプロイします。これにより、コンテナ化されたアプリケーションを効率的にオーケストレーションするためのマネージド Kubernetes サービスが提供されます。

ベストプラクティス

モデルを運用環境にデプロイするには、モデルのスムーズな動作と継続的な精度を確保するためのベスト プラクティスに従うことも必要です。

  • 本番環境でのモデルの監視: モデルのパフォーマンスを長期にわたって注意深く観察してください。 モニタリングは、基礎となるデータ分布が変化するにつれてモデルの予測の精度が低下するときに発生するモデル ドリフトなどの問題を検出するのに役立ちます。
  • 新しいデータでモデルを定期的に再トレーニングする: 新しいデータが利用可能になったら、モデルを再トレーニングして、正確な予測を継続できるようにします。
  • モデルの反復に対する A/B テストの実装: 本番環境の既存モデルを完全に置き換える前に、A/B テストを使用して、新しいモデルのパフォーマンスを古いモデルと比較します。
  • 障害シナリオとロールバックの処理: 障​​害に備えて、必要に応じて以前のモデル バージョンに戻すロールバック計画を立ててください。

コストの最適化

コストの最適化は、パフォーマンスと費用のバランスを維持するために不可欠です。

  • プリエンプティブル VM と自動スケーリングを使用する: コストを管理するには、通常の VM よりも大幅に安価なプリエンプティブル VM を利用します。 これを自動スケーリングと組み合わせることで、過剰なプロビジョニングを行わずに、必要なときに必要なリソースを確実に確保できます。
  • サーバーレス デプロイメントとコンテナー化デプロイメントの比較: サーバーレス展開とコンテナ化展開のコストの違いを評価して、ユースケースに最もコスト効率の高いアプローチを決定します。
  • リソースのニーズをモデル化するための適切なサイズのマシンタイプ: 十分に活用されていないリソースへの過剰な支出を避けるために、モデルのリソース要件に合わせたマシン タイプを選択してください。

セキュリティに関する考慮事項

モデルとモデルが処理するデータの両方を保護するには、展開を保護することが最も重要です。

  • IAM、認証、暗号化のベスト プラクティスを理解する: Identity and Access Management (IAM) について理解し、適切な認証と暗号化を実装してモデルとデータへのアクセスを保護します。
  • 実稼働モデルとデータへの安全なアクセス: 許可された個人およびサービスのみが本番環境のモデルおよびデータにアクセスできるようにします。
  • 予測エンドポイントへの不正アクセスを防止する: 堅牢なアクセス制御を実装して、予測エンドポイントへの不正アクセスを防止し、潜在的な悪用からモデルを保護します。

GCP 上の本番環境にモデルをデプロイするには、技術的な考慮事項と運用上の考慮事項が混在する必要があります。 ベスト プラクティスを遵守し、コストを最適化し、セキュリティを確保することで、機械学習の導入を成功させるための強固な基盤を築き、現実世界のアプリケーションでモデルから価値を提供できるようになります。

この包括的なガイドでは、機械学習とデータ サイエンスのために Google Cloud Platform (GCP) での取り組みを開始するための重要事項を説明しました。 GCP アカウントの設定から本番環境へのモデルのデプロイに至るまで、各ステップは堅牢なデータドリブン アプリケーションを作成するための構成要素です。 GCP の探索と学習を続けるための次のステップは次のとおりです。

  • GCP無料利用枠: GCP の無料枠を利用して、クラウド サービスをさらに探索して実験してください。 無料枠を利用すると、コアの GCP プロダクトにアクセスでき、追加費用をかけずに実践体験を得ることができる優れた方法です。
  • 高度な GCP サービス: リアルタイム メッセージング用の Pub/Sub、ストリームおよびバッチ処理用の Dataflow、コンテナ オーケストレーション用の Kubernetes Engine など、より高度な GCP サービスを詳しく調べます。 これらのサービスを理解すると、GCP で複雑なデータ プロジェクトを管理するための知識とスキルが広がります。
  • コミュニティとドキュメント: GCP コミュニティは豊富な知識源であり、公式ドキュメントは包括的です。 フォーラムに参加したり、GCP ミートアップに参加したり、チュートリアルを探索して学習を続けてください。
  • 認証: 自分のスキルを検証し、キャリアの可能性を高めるために、Professional Data Engineer や Professional Machine Learning Engineer などの Google Cloud 認定資格の取得を検討してください。
  • プロジェクトで協力する: 同僚とプロジェクトで共同作業したり、GCP を利用するオープンソース プロジェクトに貢献したりできます。 現実世界でのコラボレーションは、異なる視点を提供し、問題解決スキルを高めます。

テクノロジー分野、特にクラウド コンピューティングと機械学習は、継続的に進化しています。 最新の進歩を常に把握し、コミュニティと関わり、実践的なプロジェクトに取り組むことは、スキルを磨き続けるための優れた方法です。 さらに、完了したプロジェクトを振り返り、直面した課題から学び、それらの学びを将来の取り組みに応用します。 各プロジェクトは学習の機会であり、継続的な改善が GCP でのデータ サイエンスと機械学習の取り組みを成功させる鍵となります。

このガイドに従うことで、Google Cloud Platform での冒険のための強固な基盤を築くことができます。 これからの道は、学習、探索、そしてデータ プロジェクトに大きな影響を与えるための豊富な機会に満ちています。

 
 
マシュー・メイヨー (@ mattmayo13) は、コンピューター サイエンスの修士号とデータ マイニングの大学院卒業証書を取得しています。 KDnuggets の編集長として、Matthew は複雑なデータ サイエンスの概念をアクセスしやすくすることを目指しています。 彼の専門的な関心には、自然言語処理、機械学習アルゴリズム、新興 AI の探索などがあります。 彼は、データ サイエンス コミュニティの知識を民主化するという使命に突き動かされています。 マシューは 6 歳の頃からコーディングを続けています。
 

スポット画像

最新のインテリジェンス

スポット画像