ゼファーネットのロゴ

2023: データ負債を軽減するには、知っているか推測するか?

日付:

新しいデータのバズワードの 10 つに「データ負債」があります。 実際、それは約 2023 年前のものであり、機敏な人々が、物事を延期すると技術的負債だけでなく、データの負債も確実に生み出すことに気付いて以来、人気を博しています。 XNUMX 年には、それほど多くのデータ負債を生み出さないようにすることができるでしょうか。 知っています より簡単なもの(知識グラフ)またはそれができるためでしょうか 推測 より簡単に、より確実に (ML) または両方?

まず、問題を見るためのフレームワークを設定しましょう。 2021年XNUMX月、私はこれを投稿しました: 革新的なデータ モデリングの XNUMX つの視点.

それ以来、ML と AI を「データ運用」が分析分野で新たな高みに達しました。 XNUMX 年前に私が提案した革新的な視点と比べてどうですか? 

2021 年 XNUMX 月の投稿の XNUMX つのマントラは次のとおりです。

  1. コンテキスト化
  2. 連合セマンティクス
  3. 説明責任

パターンは絡み合っています。

  1. 関連するコンテキスト/セマンティクス/説明責任の要件を確立する必要があります。
  2. 次に、関連するコンポーネント間の依存関係を発見する必要があります。
  3. そして、専門分野に関して持っているものと、ビジネスへの堅牢なソリューションに関して提供しなければならないものを比較する必要があります。

コンテキストについては、コンテキスト内およびコンテキスト間の依存関係の特性などの特殊性について言及できます。

  • カーディナリティ
  • オプション性
  • 継承
  • 協会等

セマンティクスの特殊性は、セマンティクス内およびセマンティクス間の特性である可能性があります。

  • 表現の形態
  • 品質
  • 権威的および立法の側面(コンプライアンスなど)
  • 業界ドメイン内の標準セマンティックなど
  • メタデータの変更

最後に、説明責任の問題は、プロジェクト ボーダー内およびボーダー間で次のとおりです。

  • 権威的で立法者的な側面 (「法廷で成立するか」など)
  • マルチテンポラリティ (および時間の経過に伴うそのようなスキームの変更)
  • 品質(登録と説明責任)
  • リテンション
  • メタデータの変更
  • さまざまなレベルの精度、一時性、さらにはさまざまなデータ型を持つデータの組み合わせ

(非常に)一般的な用語で言えば、懸念事項は次のようにリストできます。

残念ながら、複雑なメッシュでは懸念事項が相互に依存しています。

少し時間を取って、関心間の依存関係 (前提条件と共分散) の性質を推測してください。

XNUMX つの視点のそれぞれで XNUMX つのレベルを掘り下げてみましょう。

フェデレーションセマンティクス

はい、これはデータ モデルのように聞こえますが、ここ 2023 年には、UML をあまり使用していません。 より簡単でセミインテリジェントなソリューションが手元にあります。 だから、まだ恥ずかしがらないでください。

説明責任

話している内容 (セマンティクス) を確立したら、データの信頼性のさまざまな側面を調査します。

コンテキスト化

これらは、提供可能なビジネスへの影響を判断するための最終的な検証です。

データ負債の原因とコスト

上記の小さな分析モデルで注意すべき問題を指摘しようとしました。 他の人々は、データ負債について非常に優れた深い記事を書いています。 例えば:

何かを元に戻す理由 (言い訳) はたくさんあります。

データが業績に与える影響を深く理解している非常に知識豊富な人物である John Ladley は、上記の投稿で最高のアドバイスを提供しています。 投稿で彼の「データ負債象限」をお楽しみください!

しかし、データの負債には代償が伴います。 John Ladley は、データ負債項目の処理に費やされる年間 IT コストに 10% の影響を与える可能性があることに首を突っ込む危険を冒しています。 

それは単なる具体的な開発コストです。 私は、顧客の不満、収益の損失、低すぎる利益など、より悪い副作用もある可能性があると主張しています.

私のお気に入りのホラー ストーリーの 2 つは、新しい売上レポート スキームを実装したいと考えていた多国籍 B50C 企業に関するものです。 彼らは、さまざまな国で稼働している多数の ERP システムからデータを収集して構築しましたが、統合されたデータベースの XNUMX% 以上の売上報告行で、製品カテゴリの階層情報が欠落していることに気付きました! そのため、プロジェクトは数か月遅れ、若くてタフな管理者が交代でさまざまな子会社を訪問しました…彼らが事前にそれを知っていれば、プロジェクトはおそらく違ったものになっていたでしょう。

レスキューへの自動化?

基本的に、XNUMX 種類の自動ヘルプが可能です。

  • 準備されたセマンティクスおよび/または技術またはオープンソースの情報プロバイダーからの API から取得したメタデータに基づく知識、または
  • すべて手元のデータに基づくエンティティ認識で補完された統計的 (推測) 手法 (ML)

ベンダーとオープンソースの機会は急速に発展するため、以下は執筆時点での私の予想です。 私は、0 つのアプローチの魅力 (10 から XNUMX) を懸念事項全体で評価しようとしました。

もちろん、これらの評価は議論の余地があります。 ただし、推奨事項は明確だと思います。可能な限り、セマンティクス ベースの入力を探す必要があります。 ビジネスインパクトが向上し、信頼性が高まります。

チャンスは確かにあります。 ツールは、プラットフォームのカテゴリ (データ ファブリック、データ カタログ、データ メッシュ、ETL、セマンティック メディア、セマンティック レイヤーなど) によって大きく異なります。 そこに注意してください、しかし利用してください セマンティックテクノロジー!

2023機会

2023年にここに出たばかりは、による新しい本です アンドリュー・イリアディス テンプル大学: 「セマンティック メディア – インターネット上の意味のマッピング」。 彼は家の情報科学側から来ており、セマンティックメディアから学べることに対して、素晴らしく実用的で実用的なアプローチをとっています。 

今日では、Google、Wikidata、Amazon、Facebook、IBM、eBay、Apple、Microsoft など (本に登場する順に言及されています) など、たくさんのサイトがあります。 ほとんどすべてがグラフです (セマンティック グラフといくつかのプロパティ グラフ)。 それらの一部は「プレ GA」であり、一部はオープン ソースですが、ほとんどはプロプライエタリです。 Google などで使用されているビッグ ナレッジ グラフは非常に大きなデータセットから構築されていますが、いくつかのキュレーション (自動および手動) が適用されており、検索エンジンの結果が正しくないという話がいくつかあることに注意してください。 実際、検索エンジンはやや昨日のものです。 今日では、情報をワンストップで提供することです。

このスペースには、ナレッジ ベースと同上グラフ、ナレッジ パネル、そして特に API があります。 これらはすべて、構造化された形式 (セマンティック メタデータ) を持つ潜在的な情報源です。 そして、そうです、RDF/OWL および関連するセマンティック技術の影響を強く受けています。 これは、2023年に釣りをするための豊かな池です! 大物が釣れたら更新してね!

Andrew の本はハウツーの教科書ではありません。 しかし、いくつかの有用な指示が見つかると確信しています。 以下の最初の XNUMX つは彼の本に触発されたもので、業界セクターのセマンティック標準の例が付随しており、最後の XNUMX つはセマンティクスをプロパティ グラフに取り込む方法の例です。

つまり、要するに、分析パイプラインなどを開発する際に、データの負債を減らすために何かを行うことが実際に可能であるということです。この新しい考え方のいくつかを取り入れて、より迅速かつ安全に進歩するのに役立てることができます。

  • コンテキスト化、フェデレーテッド セマンティクス、説明責任の組み合わせにより、2023 年にナレッジ グラフを構築する必要がある (そして構築できる) ことが決まります。
  • あなたはそれをすることができます
    • API を Google、Apple、Microsoft などのセマンティック メディアに活用する、および/または次のようなオープン セマンティック ソースを利用する
      • ウィキデータ業界標準オントロジー国際および国内標準オントロジーOpencorporates などの多かれ少なかれ他のオープン ソースなど
    • RDF よりも学習曲線が容易なプロパティ グラフ テクノロジで構築する
  • ビジネスとのデータ契約の重要な部分として、独自のナレッジ グラフを使用できます (要件を機械で読み取り可能にするか、PlantUML 概念構文などの単純なテキスト ファイルを保持できます)。
  • ナレッジ グラフを使用して、完全性テストを行うだけでなく、説明責任機能、不足している情報、一時的な情報などを探すことができます。
  • ビジネスマン向けのテストおよび検証プラットフォームとしてグラフ プロトタイプを使用できます

学習グラフデータベースは本質です。 これで終わりです – 頑張ってください – 2023 年のチャンスのパレットに本当に興奮しています! 混乱? はい、そして良いものです - 実際の問題を解決します。

私をつけてください!

スポット画像

最新のインテリジェンス

スポット画像