ゼファーネットのロゴ

データレイクエンジンを使用してセルフサービスインサイトを提供する

日付:

顧客を理解し、充実させる
ニーズはビジネスの成功の鍵であり、顧客データはその基盤です
その成功が築かれています。 ほとんどの場合、データへのアクセスと分析は
データエンジニアや他のITスタッフに依存し、意思決定者は
洞察を受け取ります。 待機をスキップして、データをに直接配信するXNUMXつの方法
エンドユーザーは、内部のサービスとしてのデータ(DaaS)モデルを作成し、
どこにいても、企業データへのアクセス
ITスタッフ。

サービスとしてのデータ

による DAMA DMBoK2、Data-as-a-ServiceにはXNUMXつのモデルがあります。XNUMXつは社外のデータを使用し、もうXNUMXつはIT部門を介して社内データの利用者に「サービス」として提供される会社の内部データを使用します。 外部DaaSは、ライセンス組織によって保存および保守されるのではなく、ベンダーからライセンス供与され、オンデマンドで提供されるデータを使用します。 このタイプの一般的な例 サービスとしてのデータ 証券取引所を通じて販売された有価証券および関連する価格に関する情報が含まれています。 DaaSの内部モデルは、組織内の「サービス」の概念を使用して、企業独自のエンタープライズデータまたはデータサービスをさまざまな機能、人、および運用システムに提供します。

ダニエル・ニューマン、フォーブスの投稿で サービスとしてのデータ:ビジネスにとっての大きなチャンス オンサイトのデータストレージと分析を行うほとんどの企業は、「データ主導の洞察に対する需要の高まりに追いつくのに苦労しています」と述べています。 DaaSは、クライアントのニーズに合わせた仕出しデータストリームを提供し、貴重な時間と労力を節約します。 企業が必要なデータに使いやすい形式でアクセスできる場合、そのデータを資産として活用することがはるかに簡単になり、時間もかかりません。

Tomer Shiran、共同創設者兼CEO ドレミオは、企業が最終的にデータ主導型になり、「分析の聖杯」に向けて努力し、データの大きさやシステムに関係なく、いつでもデータについて質問できるようにすることを目標としています。シラン氏は、分析へのアクセスはユーティリティに似ているべきだと考えています。「電気を利用したり、自宅で蛇口を開けたりして、水を手に入れることができるのと同じです。 心配する必要はありません。」 現実には、企業はすべてのデータをXNUMXか所にまとめているわけではないため、データに簡単にアクセスして分析することはできません。

散在するデータとITの負担

多くの企業が見ることを考えると
彼らのデータを彼らの主な差別化資産として、彼らは取ることができるはずです
シラン氏によると、その利点はありますが、ほとんどの企業にとってそれは不可能です。 と
データは複数の異なるシステムに分散しており、分析のためにアクセスします
複雑になりすぎて圧倒的になり、スキルセットがないため
それを整理し、クエリを実行します。

今日のITスタッフは、データを湖からにコピーして移動することを余儀なくされています データウェアハウス、キューブ、BI抽出、および集計テーブルは、十分なパフォーマンスを得るために、質問をすることができるとシラン氏は述べています。 しかし、そうすることで、分析に利用できるデータの範囲も劇的に縮小します。 「まだ実現されていない目標は、データがどこにあるかに関係なく、すべてのデータについて質問できるようにし、それでも非常に高速な応答を得ることができるようにすることです。」

エンドユーザーは理解していないか、理解していない
Oracleデータベースと寄木細工のディレクトリの違いに注意してください
S3上のファイル、と彼は言った。 「これが機能する唯一の方法は、できるかどうかです。
データがどこにあるのか、そしてますますデータレイクストレージにあるのかについて質問してください。」

ビジネス側のユーザーには、
データセットはデータセットであり、新しいソースを簡単に追加したいだけです。
クエリを実行しているかどうかに関係なく、応答時間が速くなります。
単一のソースまたは複数のソースにまたがる。 「人々は通過したくない
もう旅行代理店。 彼らは自立し、自由に素早く移動できることを望んでいます。」

職場はどこに進化しました
ビジネス側のアナリストは、データの使用について非常に精通しており、
そのすべてを探索し、独自の質問をすることができるようになりたいです。 「これらの人々
朝、机の上のプリントアウトを見たくはありません。 彼らは欲しい
行って自分でやるのです。」

Hadoopとベンダーロックインの課題

Hadoopベース データ湖 結局、企業が作成、維持、使用するのが難しくなったので、彼らから最大の価値を得たのは開発者と技術スタッフでした。

「Dremioは、最初からやり直して、データレイクストレージやその他のソースへのクエリを大幅に簡単かつ迅速に行えるようになれば、魔法のようになると考えていました。」

許可された「きれいなスレート」の精神
彼らは、現在のテクノロジートレンドを活用するための知恵を見ることができます。
クラウドの採用などの業界、特に着陸への傾向
AWSS3やAWSSXNUMXなどのクラウドベースのデータレイクストレージにすべてのタイプのデータを保存します
MicrosoftADLS。 そして、そのデータの量が劇的に増加しているということは、
コピー、変換、データへの移動がこれまでになく実用的ではなくなります
倉庫。 だけでなく、すべての企業が明らかになり始めていました
スタートアップやテクノロジー企業は、パブリッククラウドを活用します
大きな意味で、シランは言ったので、彼らはその傾向に基づいて構築したかったのです。

彼らはまた、オープンにしたかった
企業が必要なクラウドを簡単に選択できるアプローチ
それらの間で移行します。 「多くの企業がマルチクラウド戦略を採用しています。 であること
オンプレミスのデータレイクと
クラウドベースのデータレイクも同様に重要です。」

彼らが避けたかった問題は
ベンダーロックイン、これまで企業から聞いていた傾向
十年。 特定のベンダーまたは特定の種類のデータにロックされている
コストが急騰している倉庫は、顧客にとっての悩みの種であると彼は言いました。
「企業としての私たちの焦点は、顧客ができるように革新することでした。
他のコンピューティングエンジンや他のツールをデータとともに使用するため。」

データレイクエンジン

最新のシステムは、データがどこにあるかに関係なく、ユーザーの要求に対して迅速でアクセス可能な回答を提供することにより、データの独立性と革新をサポートできなければなりません。 Dremioは、データレイクストレージと専用のストレージを組み合わせています データレイクエンジン、 シラン氏によると、データアーキテクトに柔軟性と制御を提供し、データ消費者にセルフサービスを提供します。 データレイクエンジンを使用すると、データコンシューマーは、完全なインタラクティブパフォーマンスで、データレイクに対して直接分析を実行します。 データレイクエンジンがデータのコピーと移動を排除するため、すべてのデータはそのまま残ります。

データレイクエンジンは、ユーザーが生成したセマンティックレイヤーに、すべてのメタデータにインデックスを付ける統合された検索可能なカタログを提供するため、ビジネスユーザーはすべてのデータを簡単に理解できます。 BIまたはデータサイエンスツールに接続でき、次のように見えます。 リレーショナルデータベース。 標準のSQL仮想コンテキストでのデータキュレーションにより、ITチームやデータエンジニアリングチームの関与なしに、XNUMXつ以上のソースからのデータの高速、簡単、かつ費用効果の高いフィルタリング、変換、結合、および集約が可能になります。

データアーキテクト 完全な制御を維持する:機密データをマスクし、行および列レベルのアクセス許可を設定でき、役割ベースの制御により、エンドユーザーが必要とするものすべてにスムーズにアクセスできます。 データリネージが組み込まれており、データソース、仮想データセット、クエリ間の関係がDremioのデータグラフで維持され、各データセットがどこから来たのかが正確に示されます。

シランは、ロイヤルカリビアンクルーズラインを、DaaSを使用して顧客にパーソナライズされたエクスペリエンスを提供する会社の例として使用しました。 「彼らはクラウドで非常に近代的なデータアーキテクチャを作成しました。 Azure上、そして彼らはAzure Data Lake Storageにフィードする数十の異なるシステムにデータを持っています」と彼は言った、財産管理から彼らのカジノ、彼らの予約システムに至るまで。

顧客の行動は、クルーズを予約する前の期間と顧客が旅行の買い物をするときにキャプチャされ、これは、クルーズで何をするかに関する情報、および顧客がクルーズ後に提供するフィードバックと組み合わされます。 この包括的なデータ収集プロセスにより、顧客をより深く理解できるようになります。たとえば、ロイヤルカリビアンでは、引退したカップルに、XNUMX人の幼い子供を持つ家族に送るオファーとは異なる対象のクルーズオファーを送ることができます。

大規模な変化は機会を生む

「私たちは大規模な真っ只中にいます
パブリッククラウドの台頭による変化とその結果としての分離
コンピューティングとストレージの過去には、Hadoopクラスターでは、
当時、ネットワーキングが最大だったため、コンピューティングはストレージ上で実行されました
懸念。 「それはシャッフルスピードでした、そして私が十分なネットワークを持っているかどうか疑問に思いました
これらの大きなクエリを実際に機能させるための帯域幅。」 今、クラウドで、
ネットワークはもはや問題ではなく、ストレージはサービスとして提供されるため、
計算は分離されています。 「だから今、あなたは企業が
仕事に最適なツールを選択してください。」

インタビュー Sourceforgeで、Shiran氏は、DaaSは、データが管理されている場所、データの大きさ、分析や視覚化に使用されるツールに関係なく、データの検出、キュレート、共有、分析を容易にするためのパラダイムであると述べました。 DaaSは、いくつかの機能領域を単一のスケーラブルなセルフサービスソリューションに統合します。 DaaSパラダイムを採用することにより、企業はデータコンシューマーをより自給自足で独立させ、同時に データエンジニア より生産的。

「私たちが今住んでいる世界で生き残るためには、企業はデータ駆動型である必要がありますが、それが簡単でない限り、それは実現しません」とシラン氏は述べています。

からのライセンスの下で使用される画像
Shutterstock.com

ソース:https://www.dataversity.net/using-a-data-lake-engine-to-provide-self-service-insights/

スポット画像

最新のインテリジェンス

スポット画像