ゼファーネットのロゴ

ナレッジグラフ 101: 誇大広告の背後にあるストーリー (およびメリット) – DATAVERSITY

日付:

ナレッジ グラフは、他のデータ管理製品ほど有名ではありませんが、複数の業種にわたるエンタープライズ データ管理要件に対処するための、実証済みの動的でスケーラブルなソリューションです。データ、メタデータ、コンテンツのハブとして、さまざまなシステムに散在するデータの統一された一貫性のある明確なビューを提供します。グローバルな知識を解釈のコンテキストおよび強化のソースとして使用することで、独自の情報も最適化できるため、組織は意思決定を強化し、これまで利用できなかったデータ資産間の相関関係を実現できます。 

組織は、管理する必要があるデータがあまりにも多様で分散しており、ほんの 10 年前には計り知れない量であることをすでに認識しています。そのため、無意味でサイロ化されたデータとコンテンツが複雑に絡み合ってビジネスの洞察や機会が失われることがよくあります。ナレッジ グラフは、データ アクセスを統合し、柔軟なデータ統合を提供し、データ管理を自動化することで、これらの課題を克服するのに役立ちます。ナレッジ グラフの使用は、さまざまなシステムやプロセスに多大な影響を与えます。 ガーナー氏は予測する 2025 年までに、グラフ テクノロジーはデータと分析のイノベーションの 80% で使用され、10 年の 2021% から増加し、企業全体の迅速な意思決定が促進されると予想されています。 

ナレッジ グラフの定義とセマンティクス (およびオントロジー) が重要な理由

による Wikipedia、ナレッジ グラフは、グラフ構造のデータ モデルまたはトポロジを使用してデータを表現し操作する知識ベースです。ナレッジ グラフの中心となるのは、概念、エンティティ、関係、およびイベントの相互リンクされた記述の集合である知識モデルです。

  • 記述には形式的なセマンティクスがあり、人間とコンピュータの両方が効率的かつ明確に処理できるようになります。
  • 記述は相互に寄与してネットワークを形成し、各エンティティはそれに関連するエンティティの記述の一部を表します。
  • 多様なデータは知識モデルに従ってセマンティックメタデータによって接続され、記述されます

ナレッジ グラフは、共通のセマンティック記述を作成することにより、物理的なインフラストラクチャやデータの形式に依存しない、より高いレベルの抽象化を可能にします。と呼ばれることもあります データ ファブリック、内部データと外部データにアクセスして統合するための、統合された、人に優しい、有意義な方法を提供します。ナレッジ グラフは、セマンティック メタデータを使用して、さまざまな企業データの一貫したビューを提供し、さまざまなシステムや関係者に散在する知識を相互にリンクします。 

自然言語処理 (NLP) の助けを借りて、テキスト ドキュメントをナレッジ グラフと統合することもできます。多くの研究者が、組織の知識の 75 ~ 85% が静的な文書に閉じ込められていると述べていることを考えると、多大な価値と知恵が失われつつあります。機械学習とナレッジ グラフを組み合わせるときに高度なテキスト分析手法を使用できるため、NLP パイプラインには大きなメリットがあります。ナレッジ グラフは、セマンティック AI および説明可能な AI 戦略にも不可欠です。

オントロジー これらはナレッジ グラフの形式的セマンティクスのバックボーンを表すため、同様に重要です。グラフのデータ スキーマとして、データの意味に関するナレッジ グラフの開発者とそのユーザーの間の契約として機能します。ユーザーは、信頼性が高く正確な方法でデータを解釈する必要がある別の人間またはソフトウェア アプリケーションである可能性があります。オントロジーは、データとその意味についての共通理解を確保します。形式的セマンティクスを使用してナレッジ グラフのデータを表現および解釈する場合、いくつかの表現およびモデリング手段があります。 

  • クラスの一覧: ほとんどの場合、エンティティの説明には、クラス階層に関するエンティティの分類が含まれます。たとえば、一般的なニュースやビジネス情報を扱う場合、人物、組織、場所を含むクラスが存在する可能性があります。個人と組織は、共通のスーパークラスのエージェントを持つことができます。場所には通常、国、人口の多い場所、都市などの多数のサブクラスがあります。 
  • 関係: エンティティ間の関係は通常、タイプでタグ付けされており、関係の性質 (友人、親戚、競合他社など) に関する情報が提供されます。 
  • カテゴリー: エンティティは、「四大コンサルタント」や「19 世紀の作曲家」など、そのセマンティクスの一部の側面を説明するカテゴリに関連付けることができます。本は、「アフリカに関する本」、「ベストセラー」、「イタリア人著者の本」、「子供向けの本」などのすべてのカテゴリに同時に属することができます。多くの場合、カテゴリは分類法で説明され、順序付けされます。 
  • フリーテキスト: 「人間に優しいテキスト」を追加して、エンティティの設計意図をさらに明確にし、検索を改善することができます。

リソース記述フレームワークのナレッジ グラフ (RDF)

リソース記述フレームワークは、Web リソースとデータ交換を記述するための標準であり、World Wide Web Consortium (W3C) で開発および標準化されています。 RDF とは別に、ラベル付きプロパティ グラフ (LPG) モデルは、グラフ データの管理への軽量な入門機能を提供します。データをアドホックに収集する必要があり、単一プロジェクトの過程でグラフ分析が実行され、その後グラフが破棄される場合、LPG が開発者の心を掴むことがよくあります。残念ながら、LPG を中心とした技術スタックには、標準化されたスキーマまたはモデリング言語、クエリ言語が不足しており、形式的なセマンティクスや相互運用性仕様の規定もありません (たとえば、シリアル化形式、フェデレーション プロトコルなど)。

RDF ではノードに関するステートメントのみを作成できますが、RDF-Star では他のステートメントに関するステートメントを作成でき、この方法でスコア、重み、時間的側面、来歴などのグラフ内のエッジを記述するためのメタデータを添付できます。全体として、RDF で表されるナレッジ グラフは、次の要素を組み合わせているため、データの統合、統合、リンク、再利用に最適なフレームワークを提供します。

  1. 表現力: セマンティック Web スタックの標準である RDF と OWL では、データ スキーマ、分類法、語彙、あらゆる種類のメタデータ、参照データ、マスター データなど、さまざまな種類のデータとコンテンツを滑らかに表現できます。 RDF スター拡張機能を使用すると、来歴やその他の構造化メタデータを簡単にモデル化できます。 
  2. 形式的意味論: セマンティック Web スタックのすべての標準には、明確に指定されたセマンティクスが付属しており、人間とコンピューターがスキーマ、オントロジー、データを明確に解釈できるようになります。 
  3. パフォーマンス: すべての仕様は、数十億の事実とプロパティのグラフを効率的に管理できるように考え抜かれ、証明されています。
  4. 相互運用性 データのシリアル化、アクセス (エンドポイントの SPARQL プロトコル)、管理 (SPARQL グラフ ストア)、およびフェデレーションにはさまざまな仕様があります。グローバルに一意な識別子の使用により、データの統合と公開が容易になります。 
  5. 標準化: 上記のすべては、論理学者から企業データ管理専門家、システム運用チームに至るまで、さまざまな関係者の要件が確実に満たされるように、W3C コミュニティ プロセスを通じて標準化されています。 

ただし、すべての RDF グラフがナレッジ グラフであるわけではないことに注意することが重要です。たとえば、RDF で表現される一連の統計データ (各国の GDP データなど) はナレッジ グラフではありません。データのグラフ表現は多くの場合便利ですが、データの意味論的な知識を取得する必要がない場合もあります。また、アプリケーションでは、国や国内総生産を定義する必要がなく、文字列「GDP」と数値「1.95 兆ドル」に関連付けられた文字列「Italy」だけで十分な場合もあります。 

ナレッジ グラフを作成するのは接続とグラフであり、データを表すために使用される言語ではありません。ナレッジ グラフの重要な特徴は、エンティティの説明が相互にリンクされている必要があることです。 1 つのエンティティの定義には、別のエンティティが含まれます。このリンクにより、グラフがどのように形成されるかが決まります (たとえば、A は B、B は C、C は D、A は D)。形式的な構造とセマンティクスを持たない知識ベース (ソフトウェア製品に関する Q&A「知識ベース」など)も、知識グラフを表しません。グラフではない形式で整理されたデータのコレクションを持ち、分析を容易にする一連の「if-then」ルールなどの自動演繹プロセスを使用するエキスパート システムを使用することも可能です。 

ナレッジグラフもソフトウェアではありません。むしろ、ナレッジ グラフは、基準を満たし、さまざまなソフトウェアで使用される特定の目的を果たすためにデータとメタデータを整理および収集する方法です。 1 つのナレッジ グラフのデータは、さまざまな目的のために複数の独立したシステムで使用できます。

ナレッジグラフとリアルタイムデータ管理

データに対する要求により、データ管理に対する従来のアプローチは限界を超えています。大量のデータが毎日増えており、そのすべてを処理し、理解し、活用する必要があります。内部ソースか外部ソースかに関係なく、信頼性が高く、リアルタイムで実行される必要があります。結局のところ、データの価値はその活用能力に完全に依存します。これは、開発コストと保守コストの削減を目指し、組織データをインテリジェントに管理することで得られる利点と収益を認識するようになった組織が、急速に学んでいる教訓です。今日のデータ エコシステムもグローバルです。 

ナレッジ グラフは、あらゆる組織を含むグローバル データ エコシステムに適したパラダイムであるため、その多様性と集中管理の欠如に対処できます。さらに良いことに、情報とその情報に対する組織の理解とニーズが変化するにつれて、ナレッジ グラフも変化します。ナレッジ グラフで表されるデータには、人間と機械の両方が解釈できる厳密な形式的な意味があります。この意味により、人間が使用できるようになるだけでなく、自動化された推論も可能になり、コンピューターの負担をいくらか軽減できるようになります。ナレッジ グラフを使用すると、組織はデータを同じに保ち、それを再利用してさらに多くの洞察を導き出しながら、スキーマを変更、整理、および適応させることができます。

数年前、私たちはビッグデータという流行語からスマートデータへ移行しました。前例のない量のデータが存在するため、情報に対する私たちの複雑な理解を反映するデータ モデルが必要になりました。データをスマートにするために、マシンは柔軟性が低く脆弱なデータ スキーマに縛られることがなくなりました。彼らは、現実世界とそれに伴う複雑な関係を表現できるデータ リポジトリを必要としていました。人間の専門知識と意思決定を補完し促進する自動推論を可能にするために、これらすべてを形式セマンティクスを使用して機械可読な方法で行う必要がありました。 

RDF で表現されたナレッジ グラフは、これに加えて、データや情報量の多いサービスにおける多数のアプリケーションを提供します。例としては、インテリジェント コンテンツ、パッケージ化、再利用などが挙げられます。レスポンシブでコンテキストを意識したコンテンツの推奨。自動化された知識発見。セマンティック検索。そして知的なエージェント。企業のプロファイリングやランキングなどもサポートできます。規制文書内の情報発見。およびファーマコビジランス文献のモニタリング。 

簡単に言えば、ナレッジ グラフは、企業がサイロ化されたソース システムから得られた調和された知識モデルとデータに基づいて重要な意思決定を行うのに役立ちます。また、ネイティブのスケーラビリティとセマンティクスも提供し、セキュリティとガバナンス、所有権と来歴の管理など、データに対する効率的で具体的かつ応答性の高いアプローチを可能にします。 

スポット画像

最新のインテリジェンス

スポット画像