ゼファーネットのロゴ

倉庫内の機械学習と最新のデータサイエンススタック

日付:

倉庫内の機械学習と最新のデータサイエンススタック

組織がデータサイエンスのポートフォリオと機能を成熟させるにつれて、そのような成長を可能にするために最新のデータスタックを確立することが不可欠です。 ここでは、さまざまなデータウェアハウス内の機械学習サービスの概要を説明し、それぞれのメリットと要件について説明します。


By ニック・アコスタ、Developer Advocate、Alliances、Fivetran.

最新のデータスタック

データスタックの収束

データ分析とデータサイエンスは非常にユニークな分野ですが、それらを効果的に達成するために使用されるデータ処理ステップにはかなりの重複があります。 どちらも、一元化された場所に保存されている大量の高品質データにアクセスできることと、ソースからこれらの中央リポジトリにデータを移動するための効率的で信頼性の高いプロセスの恩恵を受けています。 最近まで、分析とビジネスインテリジェンスのデータウェアハウス、およびデータサイエンスと機械学習のデータレイクとして、さまざまな分野の個別のテクノロジーを使用して作業が複製されてきました。 多くの新しいサービスがこれらのデータスタックを単一の環境にマージすることに取り組んでいます。この記事では、これらのサービスの概要と、それらがデータ組織に追加できる価値について説明します。

最新のデータサイエンススタックの利点

最新のデータスタックは、分析で人気が高まっている一元化されたクラウドデータウェアハウスに複数のデータソースをもたらし、保存するテクノロジーのコレクションです。 機械学習のワークロードを、 現代のデータサイエンススタック。 最新のデータサイエンススタックは、データ分析チームとデータサイエンスチームの重複作業を実行するサイロとサービスを削除し、モデルをトレーニングして予測に使用するデータに近づけ、モデル中心のAI開発から データ中心のAI開発。 多くの組織は、環境を安全に、管理し、運用し、組織化し、パフォーマンスを維持するためにデータウェアハウジングテクノロジーにかなりの投資を行っていますが、データウェアハウスからデータレイクにサンプリングされると、データはこれらすべての品質を失います。

現代のデータサイエンススタックへの移行以降に発見した、あまり明白ではない利点がさらにXNUMXつあります。 モデルをデータウェアハウスに保存するということは、モデルの予測も保存して、SQLクエリを介して取得できることを意味します。 機械学習を使用するために組み込みモデルやフレームワークを必要とせずにテーブルルックアップを実行すると、組織での機械学習の使用を民主化するのに大いに役立ちます。 また、機械学習プロセスの各ステップは同じデータの同じ場所で行われるため、トレーニング時とサービング時にモデルに送信されるデータに違いが生じる可能性は低くなります。 トレーニング-サービングスキュー そしてそれを検出するために使用されるツールは大部分回避することができます。 最後に、機械学習プロセスのすべてのステップをSQLとして実行できるため、Apache Airflowなどのツールを使用して、さまざまなステップをデータパイプラインにまとめることが簡単になります。

倉庫内機械学習サービスの概要

BigQueryMLとRedshiftML

RedshiftとBigquery

AWSとGoogleCloudはどちらも最近、データウェアハウスであるRedshift(左)とBigQuery(右)に機械学習機能を追加しました。

BigQueryMLとRedshiftMLは、BigQueryとRedshift、Google Cloud Platform、AWSのそれぞれのデータウェアハウスに機械学習機能を追加します。 AWSは最近、の一般提供を発表しました 赤方偏移ML, BigQuery ML しばらくの間利用可能でした。

どちらも、機械学習モデルの作成と、モデルタイプ、トレーニングデータとして使用されるテーブル、予測を生成するためのターゲット機能などのパラメーターの指定を可能にするCREATEMODELコマンドを使用してSQL構文を拡張します。 これらの新しいSQLコマンドは、自動化された機械学習プロセスを活用して、データ変換とモデルチューニングを提供し、候補モデルの中で最高のパフォーマンスを特定します。 カスタムモデルはそれぞれで使用することもでき、モデルアーキテクチャとパフォーマンスにかなりの柔軟性を提供しますが、それぞれの開発にはいくつかの制限があります。 カスタムモデルはBigQueryで使用するTensorFlowモデルとして保存する必要があり、RedshiftMLはAWSデータサイエンス開発プラットフォームSageMakerでデプロイされたモデルを使用する必要があります。 モデルがトレーニングされるか、ウェアハウスにインポートされると、SELECTステートメントをFROMとともに使用して、テーブルの代わりにトレーニングされたモデルを指定して推論を呼び出すことができます。推論は、ウェアハウスの予測テーブルに簡単に挿入して、使用、監査、およびエラー分析。

スノーフレークとその他のオプション

スノーフレークは言った 彼らの「AIとMLの全体的なイニシアチブは、[データウェアハウス]に拡張性を組み込み、選択したツールとインターフェースできるようにすることでした。」 前述のAWSのSagemakerプラットフォームは、Snowflakeが統合できるMLツールの例であり、Databricksも同様です。 リリースされたばかりのDatabricksでより印象的な開発が行われています DeltaLakeのバージョン1.0.0、データ分析とデータサイエンステクノロジースタックを反対方向から収束します。 Delta Lakeは、機械学習機能をデータウェアハウスに導入する代わりに、データレイクへのACIDトランザクションなどの従来の分析機能とビジネスインテリジェンス機能を、最新のデータサイエンススタックに同様のメリットを提供する新しいデータレイクハウスアーキテクチャに追加します。

レビュー

組織がデータ分析とデータサイエンスの両方の実行に関心を持っている場合、XNUMXつの分野を促進するための多くのオプションがありますが、データの取り込み、保存、および変換のための個別のツールを別々に持つには、データパイプライン間に共通点が多すぎますワークロード。 社内の機械学習ツールを使用して、データエンジニアリングで発生するサイロを取り除き、データサイエンスの実践のコンポーネントを提供するモデルを、すべてのデータとそのデータを操作する実践者を一元化することで削除できる最新のデータサイエンススタックを構築できます。ロケーション。

バイオ: ニック・アコスタ はFivetranの開発者アドボケイトおよびデータサイエンティストであり、パデュー大学と南カリフォルニア大学でコンピューターサイエンスを学びました。 Fivetranはデータの取り込みを自動化し、Amazon、Databricks、Google、Snowflakeなど、この記事に記載されている多くの組織とテクノロジーパートナーになることを嬉しく思います。

関連する

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.kdnuggets.com/2021/06/in-warehouse-machine-learning-modern-data-science-stack.html

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?