Zephyrnet-Logo

Knowledge Graphs 101: Die Geschichte (und Vorteile) hinter dem Hype – DATAVERSITY

Datum:

Wissensgraphen sind zwar nicht so bekannt wie andere Datenverwaltungsangebote, stellen jedoch eine bewährte dynamische und skalierbare Lösung zur Erfüllung der Anforderungen der Unternehmensdatenverwaltung in mehreren Branchen dar. Als Drehscheibe für Daten, Metadaten und Inhalte bieten sie eine einheitliche, konsistente und eindeutige Sicht auf Daten, die über verschiedene Systeme verteilt sind. Sie nutzen globales Wissen als Interpretationskontext und Anreicherungsquelle und optimieren auch proprietäre Informationen, damit Unternehmen die Entscheidungsfindung verbessern und bisher nicht verfügbare Korrelationen zwischen ihren Datenbeständen erkennen können. 

Unternehmen wissen bereits, dass die Daten, die sie verwalten müssen, zu vielfältig, verstreut und in einem Umfang sind, der noch vor einem Jahrzehnt unvorstellbar war. Dadurch gehen geschäftliche Erkenntnisse und Chancen oft in der Komplexität bedeutungsloser, isolierter Daten und Inhalte verloren. Wissensgraphen helfen, diese Herausforderungen zu meistern, indem sie den Datenzugriff vereinheitlichen, eine flexible Datenintegration ermöglichen und die Datenverwaltung automatisieren. Der Einsatz von Wissensgraphen hat daher enorme Auswirkungen auf verschiedene Systeme und Prozesse Garner prognostiziert dass bis 2025 Graphtechnologien in 80 % der Daten- und Analyseinnovationen zum Einsatz kommen werden, gegenüber 10 % im Jahr 2021, was eine schnelle Entscheidungsfindung im gesamten Unternehmen erleichtert. 

Definition von Wissensgraphen und warum Semantik (und Ontologien) wichtig sind

Laut Wikipedia Ein Wissensgraph ist eine Wissensdatenbank, die ein graphstrukturiertes Datenmodell oder eine Topologie zur Darstellung und Bearbeitung von Daten verwendet. Das Herzstück des Wissensgraphen ist ein Wissensmodell – eine Sammlung miteinander verbundener Beschreibungen von Konzepten, Entitäten, Beziehungen und Ereignissen, wobei:

  • Beschreibungen verfügen über eine formale Semantik, die es sowohl Menschen als auch Computern ermöglicht, sie effizient und eindeutig zu verarbeiten
  • Beschreibungen tragen zueinander bei und bilden ein Netzwerk, in dem jede Entität einen Teil der Beschreibung der mit ihr verbundenen Entitäten darstellt
  • Vielfältige Daten werden nach dem Wissensmodell durch semantische Metadaten verknüpft und beschrieben

Durch die Erstellung einer gemeinsamen semantischen Beschreibung ermöglicht ein Wissensgraph eine höhere Abstraktionsebene, die nicht von der physischen Infrastruktur oder dem Format der Daten abhängt. Manchmal auch als bezeichnet DatenstrukturEs bietet eine einheitliche, benutzerfreundliche und sinnvolle Möglichkeit, auf interne und externe Daten zuzugreifen und diese zu integrieren. Mithilfe semantischer Metadaten bieten Wissensgraphen eine konsistente Sicht auf verschiedene Unternehmensdaten und verknüpfen Wissen, das über verschiedene Systeme und Stakeholder verstreut ist. 

Mit Hilfe des Natural Language Processing (NLP) können auch Textdokumente mit Wissensgraphen integriert werden. Angesichts der Tatsache, dass viele Forscher sagen, dass zwischen 75 und 85 % des Wissens einer Organisation in statischen Dokumenten gespeichert sind, gehen enorme Werte und Erkenntnisse verloren. NLP-Pipelines profitieren enorm, da bei der Kombination von maschinellem Lernen mit Wissensgraphen ausgefeilte Textanalysemethoden eingesetzt werden können. Wissensgraphen sind auch für jede semantische KI und erklärbare KI-Strategie unerlässlich.

Ontologien sind ebenso wichtig, da sie das Rückgrat der formalen Semantik eines Wissensgraphen darstellen. Als Datenschema des Graphen dienen sie als Vertrag zwischen den Entwicklern des Wissensgraphen und seinen Nutzern über die Bedeutung der Daten. Ein Benutzer kann ein anderer Mensch oder eine Softwareanwendung sein, die die Daten zuverlässig und präzise interpretieren muss. Ontologien sorgen für ein gemeinsames Verständnis der Daten und ihrer Bedeutung. Wenn formale Semantik verwendet wird, um die Daten eines Wissensgraphen auszudrücken und zu interpretieren, gibt es mehrere Darstellungs- und Modellierungsinstrumente: 

  • Klassen: Am häufigsten enthält eine Entitätsbeschreibung eine Klassifizierung der Entität in Bezug auf eine Klassenhierarchie. Wenn es beispielsweise um allgemeine Nachrichten oder Geschäftsinformationen geht, könnte es Klassen geben, die Person, Organisation und Standort umfassen. Personen und Organisationen können einen gemeinsamen Superklasse-Agenten haben. Der Standort verfügt normalerweise über zahlreiche Unterklassen, z. B. Land, besiedelter Ort, Stadt usw. 
  • Beziehungen: Die Beziehungen zwischen Entitäten werden normalerweise mit Typen versehen, die Informationen über die Art der Beziehung liefern, z. B. Freund, Verwandter, Konkurrent usw. 
  • Kategorien: Einer Entität können Kategorien zugeordnet werden, die einen Aspekt ihrer Semantik beschreiben, z. B. „Big Four-Berater“ oder „Komponisten des 19. Jahrhunderts“. Ein Buch kann gleichzeitig zu all diesen Kategorien gehören: „Bücher über Afrika“, „Bestseller“, „Bücher italienischer Autoren“, „Bücher für Kinder“ usw. Oft werden Kategorien beschrieben und in einer Taxonomie geordnet. 
  • Freier Text: Es ist möglich, „menschenfreundlichen Text“ hinzuzufügen, um die Designabsichten für die Entität weiter zu verdeutlichen und die Suche zu verbessern.

Wissensgraphen im Resource Description Framework (RDF)

Das Resource Description Framework ist ein Standard zur Beschreibung von Webressourcen und zum Datenaustausch, der mit dem World Wide Web Consortium (W3C) entwickelt und standardisiert wurde. Neben RDF bietet das Labeled Property Graph (LPG)-Modell eine einfache Einführung in die Verwaltung von Diagrammdaten. LPGs erobern oft die Herzen der Entwickler, wenn Daten ad hoc gesammelt werden müssen und Diagrammanalysen im Verlauf eines einzelnen Projekts durchgeführt werden und das Diagramm anschließend verworfen wird. Leider fehlen dem Technologie-Stack rund um LPGs standardisierte Schema- oder Modellierungssprachen und Abfragesprachen, und es gibt keine Bestimmungen für formale Semantik- und Interoperabilitätsspezifikationen (z. B. keine Serialisierungsformate, Verbundprotokolle usw.).

Während RDF es erlaubt, nur Aussagen über Knoten zu machen, erlaubt RDF-Star, Aussagen über andere Aussagen zu machen und auf diese Weise Metadaten zur Beschreibung einer Kante in einem Diagramm anzuhängen, wie z. B. Scores, Gewichte, zeitliche Aspekte und Herkunft. Alles in allem bieten Wissensgraphen, dargestellt in RDF, den besten Rahmen für die Integration, Vereinheitlichung, Verknüpfung und Wiederverwendung von Daten, da sie Folgendes kombinieren:

  1. Expressivität: Die Standards im Semantic-Web-Stack – RDF(s) und OWL – ermöglichen eine flüssige Darstellung verschiedener Arten von Daten und Inhalten: Datenschemata, Taxonomien, Vokabulare, alle Arten von Metadaten, Referenz- und Stammdaten. Die RDF-Star-Erweiterung erleichtert die Modellierung der Herkunft und anderer strukturierter Metadaten. 
  2. Formale Semantik: Alle Standards im Semantic-Web-Stack verfügen über eine genau spezifizierte Semantik, die es Menschen und Computern ermöglicht, Schemata, Ontologien und Daten eindeutig zu interpretieren. 
  3. Eigenschaften: Alle Spezifikationen wurden so konzipiert und erwiesen, dass sie eine effiziente Verwaltung von Diagrammen mit Milliarden von Fakten und Eigenschaften ermöglichen.
  4. Interoperabilität: Es gibt eine Reihe von Spezifikationen für die Datenserialisierung, den Zugriff (SPARQL-Protokoll für Endpunkte), die Verwaltung (SPARQL Graph Store) und den Verbund. Die Verwendung global eindeutiger Identifikatoren erleichtert die Datenintegration und -veröffentlichung. 
  5. Standardisierung: All dies wird durch den W3C-Community-Prozess standardisiert, um sicherzustellen, dass die Anforderungen verschiedener Akteure erfüllt werden – von Logikern bis hin zu Fachleuten für Unternehmensdatenmanagement und Systembetriebsteams. 

Es ist jedoch wichtig zu beachten, dass nicht jedes RDF-Diagramm ein Wissensdiagramm ist. Beispielsweise ist ein in RDF dargestellter Satz statistischer Daten, z. B. die BIP-Daten für Länder, kein Wissensgraph. Eine grafische Darstellung von Daten ist oft nützlich, kann jedoch unnötig sein, um das semantische Wissen der Daten zu erfassen. Für eine Anwendung kann es auch ausreichen, nur die Zeichenfolge „Italien“ mit der Zeichenfolge „BIP“ und der Zahl „1.95 Billionen US-Dollar“ zu verknüpfen, ohne dass definiert werden muss, um welche Länder es sich handelt oder wie hoch das Bruttoinlandsprodukt eines Landes ist. 

Es sind die Verbindungen und das Diagramm, die das Wissensdiagramm ausmachen, nicht die Sprache, die zur Darstellung der Daten verwendet wird. Ein wesentliches Merkmal eines Wissensgraphen besteht darin, dass Entitätsbeschreibungen miteinander verknüpft sein sollten. Die Definition einer Entität umfasst eine andere Entität. Durch diese Verknüpfung entsteht der Graph (z. B. A ist B; B ist C; C hat D; A hat D). Wissensdatenbanken ohne formale Struktur und Semantik, z. B. Q&A-„Wissensdatenbank“ zu einem Softwareprodukt, stellen ebenfalls keinen Wissensgraphen dar. Es ist möglich, über ein Expertensystem zu verfügen, dessen Datensammlung in einem Format organisiert ist, das kein Diagramm ist, sondern automatisierte deduktive Prozesse wie eine Reihe von „Wenn-Dann“-Regeln verwendet, um die Analyse zu erleichtern. 

Auch Wissensgraphen sind keine Software. Vielmehr ist ein Wissensgraph eine Möglichkeit, Daten und Metadaten zu organisieren und zu sammeln, um Kriterien zu erfüllen und bestimmten Zwecken zu dienen, die wiederum von unterschiedlicher Software verwendet werden. Die Daten eines Wissensgraphen können in mehreren unabhängigen Systemen für unterschiedliche Zwecke verwendet werden.

Wissensgraphen und Echtzeit-Datenmanagement

Die Anforderungen an unsere Daten haben traditionelle Ansätze zur Datenverwaltung an ihre Grenzen gebracht. Es gibt große Datenmengen, jeden Tag mehr, und alle müssen verarbeitet, verstanden und nutzbar gemacht werden. Es muss zuverlässig sein und in Echtzeit erfolgen, unabhängig davon, ob es aus internen oder externen Quellen kommt. Schließlich hängt der Wert von Daten vollständig von der Fähigkeit ab, sie optimal zu nutzen. Dies ist eine Lektion, die Unternehmen schnell lernen, wenn sie versuchen, die Entwicklungs- und Wartungskosten zu senken und die Vorteile und Einnahmen zu schätzen wissen, die durch die intelligente Verwaltung von Unternehmensdaten erzielt werden können. Auch die heutigen Datenökosysteme sind global. 

Wissensgraphen können mit ihrer Vielfalt und dem Mangel an zentraler Kontrolle umgehen, da es sich um ein Paradigma handelt, das für das globale Datenökosystem geeignet ist, das jede Organisation umfasst. Besser noch: Wenn sich die Informationen und das Verständnis und die Bedürfnisse einer Organisation aus diesen Informationen ändern, ändert sich auch der Wissensgraph. Die durch einen Wissensgraphen dargestellten Daten haben eine strenge formale Bedeutung, die sowohl Menschen als auch Maschinen interpretieren können. Diese Bedeutung macht es für den Menschen nutzbar, ermöglicht aber auch automatisiertes Denken, sodass Computer einen Teil der Belastung verringern können. Mit Wissensgraphen können Unternehmen das Schema ändern, bereinigen und anpassen, während die Daten gleich bleiben und sie wiederverwenden, um noch mehr Erkenntnisse zu gewinnen.

Vor Jahren sind wir vom Schlagwort Big Data zu Smart Data übergegangen. Aufgrund der beispiellosen Datenmengen wurde ein Datenmodell erforderlich, das unser komplexes Verständnis von Informationen widerspiegelt. Um Daten intelligent zu machen, könnten Maschinen nicht länger an unflexible und spröde Datenschemata gebunden sein. Sie brauchten Datenrepositorys, die die reale Welt und die damit verbundenen verworrenen Beziehungen abbilden konnten. All dies musste auf maschinenlesbare Weise mit formaler Semantik erfolgen, um automatisiertes Denken zu ermöglichen, das menschliches Fachwissen und Entscheidungsfindung ergänzt und erleichtert. 

In RDF ausgedrückte Wissensgraphen bieten dies sowie zahlreiche Anwendungen in daten- und informationsintensiven Diensten. Beispiele hierfür sind intelligente Inhalte, Verpackung und Wiederverwendung; reaktionsfähige und kontextbezogene Inhaltsempfehlung; automatisierte Wissensentdeckung; semantische Suche; und intelligente Agenten. Es kann auch Dinge wie Unternehmensprofilierung und -ranking unterstützen; Informationsentdeckung in Regulierungsdokumenten; und Überwachung der Pharmakovigilanz-Literatur. 

Einfach ausgedrückt helfen Wissensgraphen Unternehmen dabei, wichtige Entscheidungen auf der Grundlage harmonisierter Wissensmodelle und Daten aus isolierten Quellsystemen zu treffen. Sie bieten außerdem native Skalierbarkeit und Semantik, die einen effizienten, spezifischen und reaktionsschnellen Ansatz für Daten ermöglichen, einschließlich Sicherheit und Governance, Verwaltung von Eigentum und Herkunft. 

spot_img

Neueste Intelligenz

spot_img