ゼファーネットのロゴ

データエンジニアリングをマスターするための 7 つのステップ – KDnuggets

日付:

データエンジニアリングをマスターするための 7 つのステップ
著者による画像
 

データ エンジニアリングとは、データを収集、保存し、データ サイエンティスト、アナリスト、ビジネス関係者が簡単に分析して使用できる形式に変換する構造とシステムを作成および維持するプロセスを指します。このロードマップは、さまざまな概念とツールを習得するためのガイドとなり、さまざまな種類のデータ パイプラインを効果的に構築して実行できるようにします。

コンテナ化により、開発者はアプリケーションと依存関係を、さまざまな環境間で一貫して実行できる軽量でポータブルなコンテナにパッケージ化できます。一方、コードとしてのインフラストラクチャは、コードを通じてインフラストラクチャを管理およびプロビジョニングする実践であり、開発者がクラウド インフラストラクチャを定義、バージョン管理、および自動化できるようにします。

最初のステップでは、SQL 構文、Docker コンテナー、Postgres データベースの基礎を学びます。 Docker をローカルで使用してデータベース サーバーを起動する方法と、Docker でデータ パイプラインを作成する方法を学習します。さらに、Google Cloud Provider (GCP) と Terraform についても理解します。 Terraform は、ツール、データベース、フレームワークをクラウド上に展開する場合に特に役立ちます。

ワークフロー オーケストレーションは、データの取り込み、クリーニング、変換、分析などのさまざまな処理段階を通じてデータ フローを管理および自動化します。これは、より効率的で信頼性が高く、スケーラブルな方法です。

2 番目のステップでは、Airflow、Mage、Prefect などのデータ オーケストレーション ツールについて学びます。これらはすべてオープンソースであり、データ パイプラインの監視、管理、展開、実行に必要な複数の機能が付属しています。 Docker を使用して Prefect をセットアップし、Postgres、Google Cloud Storage (GCS)、BigQuery API を使用して ETL パイプラインを構築する方法を学びます。 

チェックアウトします データ オーケストレーションのための 5 つのエアフロー代替手段 そして自分にとってより効果的なものを選択してください。

データ ウェアハウジングは、さまざまなソースから大量のデータを一元化されたリポジトリに収集、保存、管理するプロセスであり、貴重な分析情報の分析と抽出が容易になります。

3 番目のステップでは、Postgres (ローカル) または BigQuery (クラウド) データ ウェアハウスについてすべて学びます。パーティショニングとクラスタリングの概念について学び、BigQuery のベスト プラクティスを詳しく学びます。 BigQuery は、大規模なデータでのモデルのトレーニング、ハイパーパラメータ調整、機能の前処理、モデルのデプロイを可能にする機械学習の統合も提供します。機械学習におけるSQLのようなものです。

分析エンジニアリングは、ビジネス インテリジェンス チームとデータ サイエンス チーム向けのデータ モデルと分析パイプラインの設計、開発、保守に焦点を当てた専門分野です。 

4 番目のステップでは、BigQuery や PostgreSQL などの既存のデータ ウェアハウスで dbt (データ構築ツール) を使用して分析パイプラインを構築する方法を学びます。 ETL と ELT やデータ モデリングなどの重要な概念を理解できるようになります。また、増分モデル、タグ、フック、スナップショットなどの高度な dbt 機能についても学習します。 

最終的には、Google データスタジオやメタベースなどの視覚化ツールを使用して、インタラクティブなダッシュボードやデータ分析レポートを作成する方法を学びます。

バッチ処理は、リアルタイムまたはほぼリアルタイムでデータを処理するのではなく、大量のデータをバッチ (分、時間、場合によっては日ごと) で処理するデータ エンジニアリング手法です。 

学習の 5 番目のステップでは、Apache Spark を使用したバッチ処理を紹介します。さまざまなオペレーティング システムにインストールする方法、Spark SQL と DataFrame の操作方法、データの準備方法、SQL 操作の実行方法、および Spark の内部構造を理解する方法を学びます。このステップの終わりに向けて、クラウドで Spark インスタンスを起動し、データ ウェアハウス BigQuery と統合する方法も学習します。

ストリーミングとは、リアルタイムまたはほぼリアルタイムでのデータの収集、処理、分析を指します。データが一定の間隔で収集および処理される従来のバッチ処理とは異なり、ストリーミング データ処理により、最新の情報を継続的に分析できます。

6 番目のステップでは、Apache Kafka を使用したデータ ストリーミングについて学びます。基本から始めて、Confluent Cloud との統合、およびプロデューサーとコンシューマーが関与する実践的なアプリケーションに進みます。さらに、ストリーム結合、テスト、ウィンドウ処理、Kafka ksqldb と Connect の使用について学ぶ必要があります。 

さまざまなデータ エンジニアリング プロセス用のさまざまなツールを検討したい場合は、以下を参照してください。 14 年に使用すべき 2024 の必須データ エンジニアリング ツール.

最後のステップでは、前のステップで学んだすべての概念とツールを使用して、包括的なエンドツーエンドのデータ エンジニアリング プロジェクトを作成します。これには、データを処理するためのパイプラインの構築、データ レイクへのデータの保存、処理されたデータをデータ レイクからデータ ウェアハウスに転送するためのパイプラインの作成、データ ウェアハウス内のデータの変換、およびダッシュボード用の準備が含まれます。 。最後に、データを視覚的に表示するダッシュボードを構築します。

このガイドで説明されているすべての手順は、次の場所にあります。 データ エンジニアリング ZoomCamp。この ZoomCamp は複数のモジュールで構成されており、各モジュールにはデータ パイプラインの学習と構築に役立つチュートリアル、ビデオ、質問、プロジェクトが含まれています。 

このデータ エンジニアリング ロードマップでは、データの処理、分析、モデリングのためのデータ パイプラインを学習、構築、実行するために必要なさまざまな手順を学習しました。また、ローカル ツールだけでなく、クラウド アプリケーションとツールの両方についても学びました。すべてをローカルに構築するか、使いやすさのためにクラウドを使用するかを選択できます。ほとんどの企業がクラウドを好むため、クラウドの使用をお勧めします。GCP などのクラウド プラットフォームで経験を積んでほしいと考えています。
 
 

アビッド・アリ・アワン (@ 1abidaliawan) は、機械学習モデルの構築を愛する認定データ サイエンティストのプロフェッショナルです。現在はコンテンツ制作に注力し、機械学習やデータサイエンス技術に関する技術ブログを執筆している。アビッドは、テクノロジー管理の修士号と電気通信工学の学士号を取得しています。彼のビジョンは、精神疾患に苦しむ学生のためにグラフ ニューラル ネットワークを使用して AI 製品を構築することです。

スポット画像

最新のインテリジェンス

スポット画像