Zephyrnet-logo

Knowledge Graphs 101: het verhaal (en de voordelen) achter de hype – DATAVERSITY

Datum:

Hoewel kennisgrafieken niet zo bekend zijn als andere aanbiedingen voor gegevensbeheer, zijn ze een bewezen dynamische en schaalbare oplossing voor het aanpakken van de vereisten voor bedrijfsgegevensbeheer in verschillende branches. Als knooppunt voor gegevens, metadata en inhoud bieden ze een uniform, consistent en ondubbelzinnig beeld van gegevens verspreid over verschillende systemen. Door mondiale kennis te gebruiken als context voor interpretatie en als bron voor verrijking, optimaliseren ze ook bedrijfseigen informatie, zodat organisaties de besluitvorming kunnen verbeteren en voorheen niet beschikbare correlaties tussen hun data-assets kunnen realiseren. 

Organisaties weten al dat de data die ze moeten beheren te divers, verspreid en in volumes zijn die tien jaar geleden nog ondoorgrondelijk waren. Hierdoor gaan vaak zakelijke inzichten en kansen verloren in een ingewikkelde complexiteit van betekenisloze, op zichzelf staande gegevens en inhoud. Kennisgrafieken helpen deze uitdagingen te overwinnen door de toegang tot gegevens te verenigen, flexibele gegevensintegratie te bieden en gegevensbeheer te automatiseren. Het gebruik van kennisgrafieken heeft daarom een ​​enorm effect op verschillende systemen en processen Garner voorspelt dat tegen 2025 grafische technologieën zullen worden gebruikt in 80% van de data- en analyse-innovaties, tegen 10% in 2021, waardoor snelle besluitvorming in de hele onderneming wordt vergemakkelijkt. 

Kennisgrafieken gedefinieerd en waarom semantiek (en ontologieën) ertoe doen

Think Wikipedia, een kennisgrafiek is een kennisbank die een grafiekgestructureerd gegevensmodel of -topologie gebruikt om gegevens weer te geven en ermee te werken. Het hart van de kennisgrafiek is een kennismodel – een verzameling onderling verbonden beschrijvingen van concepten, entiteiten, relaties en gebeurtenissen waarbij:

  • Beschrijvingen hebben een formele semantiek waardoor zowel mensen als computers ze efficiënt en ondubbelzinnig kunnen verwerken
  • Beschrijvingen dragen bij aan elkaar en vormen een netwerk, waarbij elke entiteit een deel vertegenwoordigt van de beschrijving van de daaraan gerelateerde entiteiten
  • Diverse data worden verbonden en beschreven door semantische metadata volgens het kennismodel

Door een gemeenschappelijke semantische beschrijving te creëren, maakt een kennisgrafiek een hoger abstractieniveau mogelijk dat niet afhankelijk is van de fysieke infrastructuur of het formaat van de gegevens. Soms aangeduid als een gegevensstofbiedt het een uniforme, mensvriendelijke en zinvolle manier om toegang te krijgen tot interne en externe gegevens en deze te integreren. Met behulp van semantische metadata bieden kennisgrafieken een consistent beeld van diverse bedrijfsgegevens, waarbij kennis die verspreid is over verschillende systemen en belanghebbenden met elkaar wordt verbonden. 

Met behulp van natuurlijke taalverwerking (NLP) kunnen tekstdocumenten ook worden geïntegreerd met kennisgrafieken. Gegeven het feit dat veel onderzoekers zeggen dat tussen de 75 en 85% van de kennis van een organisatie is opgesloten in statische documenten, wordt enorme waarde en wijsheid gemist. NLP-pijplijnen profiteren enorm, omdat geavanceerde tekstanalysemethoden kunnen worden gebruikt bij het combineren van machinaal leren met kennisgrafieken. Kennisgrafieken zijn ook essentieel voor elke semantische AI ​​en verklaarbare AI-strategie.

Ontologieën zijn even belangrijk, omdat ze de ruggengraat vormen van de formele semantiek van een kennisgrafiek. Als gegevensschema van de grafiek dienen ze als contract tussen de ontwikkelaars van de kennisgrafiek en de gebruikers ervan met betrekking tot de betekenis van de gegevens. Een gebruiker kan een ander mens zijn of een softwaretoepassing die de gegevens op een betrouwbare en nauwkeurige manier moet interpreteren. Ontologieën zorgen voor een gedeeld begrip van de gegevens en de betekenis ervan. Wanneer formele semantiek wordt gebruikt om de gegevens van een kennisgrafiek uit te drukken en te interpreteren, zijn er verschillende representatie- en modelleringsinstrumenten: 

  • Klassen: Meestal bevat een entiteitsbeschrijving een classificatie van de entiteit met betrekking tot een klassenhiërarchie. Als het bijvoorbeeld gaat om algemeen nieuws of zakelijke informatie, kunnen er klassen zijn die Persoon, Organisatie en Locatie omvatten. Personen en organisaties kunnen een gemeenschappelijke superklasse-agent hebben. Locatie heeft meestal talloze subklassen, bijvoorbeeld Land, Bevolkte plaats, Stad, enz. 
  • Relaties: De relaties tussen entiteiten worden meestal gelabeld met typen, die informatie geven over de aard van de relatie, bijvoorbeeld vriend, familielid, concurrent, enz. 
  • Categorieën: Een entiteit kan worden geassocieerd met categorieën die een bepaald aspect van de semantiek ervan beschrijven, bijvoorbeeld ‘Big Four-consultants’ of ‘XIX-eeuwse componisten’. Een boek kan tegelijkertijd tot al deze categorieën behoren: 'Boeken over Afrika', 'Bestseller', 'Boeken van Italiaanse auteurs', 'Boeken voor kinderen', enz. Vaak worden categorieën beschreven en geordend in een taxonomie. 
  • Vrije tekst: Het is mogelijk om “mensvriendelijke tekst” toe te voegen om de ontwerpintenties voor de entiteit verder te verduidelijken en de zoekopdracht te verbeteren.

Kennisgrafieken in het resourcebeschrijvingsframework (RDF)

Resource Description Framework is een standaard voor het beschrijven van webbronnen en gegevensuitwisseling, ontwikkeld en gestandaardiseerd in samenwerking met het World Wide Web Consortium (W3C). Naast RDF biedt het LPG-model (labeled property graph) een lichtgewicht introductie tot het beheer van grafiekgegevens. LPG's winnen vaak de harten van ontwikkelaars als gegevens ad hoc moeten worden verzameld en grafiekanalyses worden uitgevoerd in de loop van een enkel project, waarbij de grafiek daarna wordt weggegooid. Helaas ontbeert de technologie rond LPG's gestandaardiseerde schema- of modelleringstalen en zoektalen, en zijn er geen voorzieningen voor formele semantiek en interoperabiliteitsspecificaties (bijvoorbeeld geen serialisatieformaten, federatieprotocollen, enz.).

Terwijl RDF toestaat dat uitspraken alleen over knooppunten worden gedaan, staat RDF-Star toe dat je uitspraken doet over andere uitspraken en op deze manier metagegevens toevoegt om een ​​rand in een grafiek te beschrijven, zoals scores, gewichten, temporele aspecten en herkomst. Al met al bieden kennisgrafieken, weergegeven in RDF, het beste raamwerk voor data-integratie, unificatie, koppeling en hergebruik, omdat ze het volgende combineren:

  1. Expressiviteit: De standaarden in de Semantic Web-stack – RDF(s) en OWL – zorgen voor een vloeiende weergave van verschillende soorten data en inhoud: dataschema’s, taxonomieën, vocabulaires, allerlei soorten metadata, referentie- en masterdata. De RDF-star-extensie maakt het eenvoudig om de herkomst en andere gestructureerde metadata te modelleren. 
  2. Formele semantiek: Alle standaarden in de Semantic Web-stack worden geleverd met goed gespecificeerde semantiek, waardoor mensen en computers schema's, ontologieën en gegevens ondubbelzinnig kunnen interpreteren. 
  3. prestaties: Alle specificaties zijn doordacht en hebben bewezen een efficiënt beheer van grafieken met miljarden feiten en eigenschappen mogelijk te maken.
  4. interoperabiliteit: Er is een reeks specificaties voor dataserialisatie, toegang (SPARQL Protocol voor eindpunten), beheer (SPARQL Graph Store) en federatie. Het gebruik van wereldwijd unieke identificatiegegevens vergemakkelijkt de integratie en publicatie van gegevens. 
  5. Standaardisatie: Al het bovenstaande is gestandaardiseerd via het W3C-gemeenschapsproces, om ervoor te zorgen dat aan de eisen van verschillende actoren wordt voldaan – van logici tot professionals op het gebied van bedrijfsgegevensbeheer en systeembeheerteams. 

Het is echter belangrijk op te merken dat niet elke RDF-grafiek een kennisgrafiek is. Een reeks statistische gegevens, bijvoorbeeld de bbp-gegevens voor landen, weergegeven in RDF, is bijvoorbeeld geen kennisgrafiek. Een grafische weergave van gegevens is vaak nuttig, maar het kan onnodig zijn om de semantische kennis van de gegevens vast te leggen. Het kan voor een toepassing ook voldoende zijn om alleen de string ‘Italië’ te koppelen aan de string ‘BBP’ en het getal ‘$1.95 biljoen’, zonder te hoeven definiëren wat landen zijn of wat het bruto binnenlands product van een land is. 

Het zijn de verbindingen en de grafiek die de kennisgrafiek maken, niet de taal die wordt gebruikt om de gegevens weer te geven. Een belangrijk kenmerk van een kennisgrafiek is dat entiteitsbeschrijvingen met elkaar verbonden moeten zijn. De definitie van één entiteit omvat een andere entiteit. Door deze koppeling ontstaat de grafiek (bijv. A is B; B is C; C heeft D; A heeft D). Kennisbanken zonder formele structuur en semantiek, bijvoorbeeld een 'kennisbank' met vragen en antwoorden over een softwareproduct, vertegenwoordigen ook geen kennisgrafiek. Het is mogelijk om een ​​expertsysteem te hebben dat een verzameling gegevens heeft, georganiseerd in een formaat dat geen grafiek is, maar gebruikmaakt van geautomatiseerde deductieve processen zoals een reeks ‘als-dan’-regels om de analyse te vergemakkelijken. 

Kennisgrafieken zijn ook geen software. Een kennisgrafiek is eerder een manier om de gegevens en metagegevens te organiseren en te verzamelen om aan criteria te voldoen en specifieke doeleinden te dienen, die op hun beurt door verschillende software worden gebruikt. De gegevens van één kennisgrafiek kunnen in meerdere onafhankelijke systemen voor verschillende doeleinden worden gebruikt.

Kennisgrafieken en realtime gegevensbeheer

De eisen die aan onze data worden gesteld, hebben de traditionele benaderingen van databeheer over hun grenzen heen geduwd. Er zijn grote hoeveelheden gegevens, elke dag meer, en deze moeten allemaal worden verwerkt, begrepen en bruikbaar gemaakt. Het moet betrouwbaar zijn en in realtime worden uitgevoerd, ongeacht of het afkomstig is van interne of externe bronnen. De waarde van data hangt immers volledig af van het vermogen om het gebruik ervan te benutten. Dit is een les die organisaties snel leren als ze de ontwikkelings- en onderhoudskosten willen verlagen en de voordelen en inkomsten gaan waarderen die kunnen worden behaald door het intelligent beheren van organisatiegegevens. De huidige data-ecosystemen zijn ook mondiaal. 

Kennisgrafieken kunnen omgaan met hun diversiteit en het gebrek aan gecentraliseerde controle, omdat het een paradigma is dat geschikt is voor het mondiale data-ecosysteem dat elke organisatie omvat. Beter nog: naarmate de informatie en het begrip en de behoeften van een organisatie op basis van die informatie veranderen, verandert ook de kennisgrafiek. De gegevens die worden weergegeven door een kennisgrafiek hebben een strikt formele betekenis die zowel mensen als machines kunnen interpreteren. Die betekenis maakt het bruikbaar voor een mens, maar maakt ook geautomatiseerd redeneren mogelijk, zodat computers een deel van de last kunnen verlichten. Met kennisgrafieken kunnen organisaties het schema veranderen, opschonen en aanpassen, terwijl de gegevens hetzelfde blijven en opnieuw worden gebruikt om nog meer inzichten te genereren.

Jaren geleden zijn we overgestapt van het modewoord Big Data naar Smart Data. Door de ongekende hoeveelheden data ontstond de behoefte aan een datamodel dat ons complexe begrip van informatie weerspiegelde. Om data slim te maken, kunnen machines niet langer gebonden zijn aan inflexibele en broze dataschema’s. Ze hadden dataopslagplaatsen nodig die de echte wereld en de ingewikkelde relaties die deze met zich meebrengt konden weergeven. Dit alles moest worden gedaan op een machinaal leesbare manier met formele semantiek om geautomatiseerd redeneren mogelijk te maken dat de menselijke expertise en besluitvorming aanvulde en vergemakkelijkte. 

Kennisgrafieken uitgedrukt in RDF bieden dit, evenals talrijke toepassingen in data- en informatie-zware diensten. Voorbeelden zijn onder meer intelligente inhoud, verpakking en hergebruik; responsieve en contextueel bewuste inhoudsaanbeveling; geautomatiseerde kennisontdekking; semantisch zoeken; en intelligente agenten. Het kan ook zaken ondersteunen zoals bedrijfsprofilering en ranking; het ontdekken van informatie in regelgevingsdocumenten; en literatuurmonitoring op het gebied van geneesmiddelenbewaking. 

Simpel gezegd helpen kennisgrafieken bedrijven bij het nemen van cruciale beslissingen op basis van geharmoniseerde kennismodellen en gegevens die zijn afgeleid van geïsoleerde bronsystemen. Ze bieden ook native schaalbaarheid en semantiek die een efficiënte, specifieke en responsieve benadering van gegevens mogelijk maken, inclusief beveiliging en beheer, eigendomsbeheer en herkomst. 

spot_img

Laatste intelligentie

spot_img