Zephyrnet-logo

Knowledge Graphs 101: The Story (and Benefits) Behind the Hype – DATAVERSITY

Dato:

Kunnskapsgrafer, selv om de ikke er like kjente som andre tilbud om dataadministrasjon, er en bevist dynamisk og skalerbar løsning for å imøtekomme krav til bedriftsdataadministrasjon på tvers av flere vertikaler. Som et knutepunkt for data, metadata og innhold gir de et enhetlig, konsistent og entydig syn på data spredt på tvers av forskjellige systemer. Ved å bruke global kunnskap som kontekst for tolkning og en kilde for berikelse, optimaliserer de også proprietær informasjon slik at organisasjoner kan forbedre beslutningstaking og realisere tidligere utilgjengelige korrelasjoner mellom datamidlene deres. 

Organisasjoner vet allerede at dataene de trenger for å administrere er for mangfoldige, spredte og med ufattelige volumer for bare ti år siden. Dette etterlater ofte forretningsinnsikt og muligheter som går tapt blant en sammenfiltret kompleksitet av meningsløse, tilslørte data og innhold. Kunnskapsgrafer hjelper til med å overvinne disse utfordringene ved å forene datatilgang, tilby fleksibel dataintegrasjon og automatisere dataadministrasjon. Bruken av kunnskapsgrafer har en enorm effekt på ulike systemer og prosesser og det er derfor Garner spår at innen 2025 vil grafteknologier bli brukt i 80 % av data- og analyseinnovasjonene, opp fra 10 % i 2021, noe som letter rask beslutningstaking på tvers av bedriften. 

Kunnskapsgrafer definert og hvorfor semantikk (og ontologier) betyr noe

Ifølge Wikipedia, er en kunnskapsgraf en kunnskapsbase som bruker en grafstrukturert datamodell eller topologi for å representere og operere på data. Hjertet i kunnskapsgrafen er en kunnskapsmodell – en samling sammenkoblede beskrivelser av konsepter, enheter, relasjoner og hendelser der:

  • Beskrivelser har formell semantikk som gjør at både mennesker og datamaskiner kan behandle dem effektivt og entydig
  • Beskrivelser bidrar til hverandre og danner et nettverk, der hver enhet representerer en del av beskrivelsen av enhetene knyttet til den
  • Diverse data kobles sammen og beskrives av semantiske metadata i henhold til kunnskapsmodellen

Ved å lage en felles semantisk beskrivelse, muliggjør en kunnskapsgraf et høyere abstraksjonsnivå som ikke er avhengig av den fysiske infrastrukturen eller formatet til dataene. Noen ganger referert til som en datastoff, gir den en enhetlig, menneskevennlig og meningsfull måte å få tilgang til og integrere interne og eksterne data på. Ved å bruke semantiske metadata gir kunnskapsgrafer en konsistent oversikt over ulike bedriftsdata, og kobler sammen kunnskap som har vært spredt på tvers av ulike systemer og interessenter. 

Ved hjelp av naturlig språkbehandling (NLP) kan tekstdokumenter også integreres med kunnskapsgrafer. Gitt at mange forskere sier at mellom 75-85 % av en organisasjons kunnskap er låst i statiske dokumenter, savnes enorm verdi og visdom. NLP-rørledninger har en enorm fordel, ettersom sofistikerte tekstanalysemetoder kan brukes når man kombinerer maskinlæring med kunnskapsgrafer. Kunnskapsgrafer er også avgjørende for enhver semantisk AI og forklarbar AI-strategi.

Ontologier er like viktige, siden de representerer ryggraden i den formelle semantikken til en kunnskapsgraf. Som dataskjemaet til grafen fungerer de som en kontrakt mellom utviklerne av kunnskapsgrafen og dens brukere angående betydningen av dataene. En bruker kan være et annet menneske eller en programvare som trenger å tolke dataene på en pålitelig og presis måte. Ontologier sikrer en felles forståelse av dataene og dens betydning. Når formell semantikk brukes til å uttrykke og tolke dataene til en kunnskapsgraf, er det flere representasjons- og modelleringsinstrumenter: 

  • klasser: Oftest inneholder en enhetsbeskrivelse en klassifisering av enheten angående et klassehierarki. For eksempel, når du arbeider med generelle nyheter eller forretningsinformasjon, kan det være klasser som inkluderer person, organisasjon og plassering. Personer og organisasjoner kan ha en felles superklasseagent. Plassering har vanligvis mange underklasser, for eksempel land, befolket sted, by osv. 
  • Forhold: Forholdet mellom enheter er vanligvis merket med typer, som gir informasjon om relasjonens natur, f.eks. venn, slektning, konkurrent, etc. 
  • Kategorier: En enhet kan assosieres med kategorier som beskriver noen aspekter av dens semantikk, for eksempel "Big Four-konsulenter" eller "XIX århundre komponister." En bok kan tilhøre alle disse kategoriene samtidig: «Bøker om Afrika», «Bestselger», «Bøker av italienske forfattere», «Bøker for barn» osv. Ofte beskrives og sorteres kategorier i en taksonomi. 
  • Fri tekst: Det er mulig å legge til "menneskevennlig tekst" for ytterligere å tydeliggjøre designintensjoner for enheten og forbedre søket.

Kunnskapsgrafer i ressursbeskrivelsesrammeverket (RDF)

Resource Description Framework er en standard for å beskrive nettressurser og datautveksling, utviklet og standardisert med World Wide Web Consortium (W3C). Bortsett fra RDF, gir den merkede egenskapsgrafen (LPG)-modellen en lett introduksjon til administrasjon av grafdata. LPG-er vinner ofte utviklernes hjerter hvis data må samles inn ad hoc og grafanalyse utføres i løpet av et enkelt prosjekt, og grafen blir forkastet etterpå. Dessverre mangler teknologistabelen rundt LPG-er standardiserte skjema- eller modelleringsspråk og spørringsspråk, og det er ingen bestemmelser for formell semantikk og interoperabilitetsspesifikasjoner (f.eks. ingen serialiseringsformater, forbundsprotokoller, etc.).

Mens RDF tillater utsagn bare om noder, lar RDF-Star en komme med utsagn om andre utsagn og på denne måten legge ved metadata for å beskrive en kant i en graf som poeng, vekt, tidsmessige aspekter og herkomst. Alt i alt gir kunnskapsgrafer, representert i RDF, det beste rammeverket for dataintegrasjon, forening, kobling og gjenbruk, fordi de kombinerer følgende:

  1. Ekspressivitet: Standardene i Semantic Web-stabelen – RDF(er) og OWL – tillater en flytende representasjon av ulike typer data og innhold: dataskjema, taksonomier, vokabularer, alle slags metadata, referanser og masterdata. RDF-stjerneutvidelsen gjør det enkelt å modellere herkomst og andre strukturerte metadata. 
  2. Formell semantikk: Alle standarder i Semantic Web-stabelen kommer med velspesifisert semantikk, som lar mennesker og datamaskiner tolke skjema, ontologier og data entydig. 
  3. Ytelse: Alle spesifikasjoner er gjennomtenkt og bevist å tillate effektiv styring av grafer med milliarder av fakta og egenskaper.
  4. Interoperabilitet: Det finnes en rekke spesifikasjoner for dataserialisering, tilgang (SPARQL-protokoll for endepunkter), administrasjon (SPARQL Graph Store) og føderasjon. Bruken av globalt unike identifikatorer letter dataintegrasjon og publisering. 
  5. standardisering: Alt det ovennevnte er standardisert gjennom W3C-fellesskapsprosessen, for å sikre at kravene til ulike aktører blir tilfredsstilt – fra logikere til profesjonelle databehandlingseksperter og systemdriftsteam. 

Det er imidlertid viktig å merke seg at ikke hver RDF-graf er en kunnskapsgraf. For eksempel er et sett med statistiske data, for eksempel BNP-data for land, representert i RDF, ikke en kunnskapsgraf. En grafrepresentasjon av data er ofte nyttig, men det kan være unødvendig å fange den semantiske kunnskapen om dataene. Det kan også være tilstrekkelig for en applikasjon å bare ha strengen "Italia" knyttet til strengen "BNP" og tallet "$1.95 billioner" uten å måtte definere hva land er eller hva bruttonasjonalproduktet til et land er. 

Det er forbindelsene og grafen som lager kunnskapsgrafen, ikke språket som brukes til å representere dataene. Et sentralt trekk ved en kunnskapsgraf er at enhetsbeskrivelser bør være sammenkoblet med hverandre. Definisjonen av en enhet inkluderer en annen enhet. Denne koblingen er hvordan grafen dannes (f.eks. A er B; B er C; C har D; A har D). Kunnskapsbaser uten formell struktur og semantikk, for eksempel "kunnskapsbase" for spørsmål og svar om et programvareprodukt, representerer heller ikke en kunnskapsgraf. Det er mulig å ha et ekspertsystem som har en samling av data organisert i et format som ikke er en graf, men som bruker automatiserte deduktive prosesser som et sett med "hvis-da"-regler for å lette analysen. 

Kunnskapsgrafer er heller ikke programvare. Snarere er en kunnskapsgraf en måte å organisere og samle inn data og metadata for å oppfylle kriterier og tjene spesifikke formål som igjen brukes av annen programvare. Dataene til én kunnskapsgraf kan brukes i flere uavhengige systemer for forskjellige formål.

Kunnskapsgrafer og sanntidsdatahåndtering

Kravene til våre data har presset tradisjonelle tilnærminger til datahåndtering forbi sine grenser. Det er store mengder data, mer hver dag, og det hele må behandles, forstås og gjøres nyttig. Det må være pålitelig og gjøres i sanntid, uansett om det kommer fra interne eller eksterne kilder. Tross alt avhenger verdien av data helt på muligheten til å utnytte bruken. Dette er en leksjon som organisasjoner lærer raskt når de forsøker å redusere utviklings- og vedlikeholdskostnader og forstår fordelene og inntektene som kan oppnås ved intelligent administrasjon av organisasjonsdata. Dagens dataøkosystemer er også globale. 

Kunnskapsgrafer kan håndtere deres mangfold og mangel på sentralisert kontroll fordi det er et paradigme som passer til det globale dataøkosystemet som inkluderer hver organisasjon. Enda bedre, ettersom informasjonen og en organisasjons forståelse og behov fra denne informasjonen endres, endres også kunnskapsgrafen. Dataene representert av en kunnskapsgraf har en streng formell betydning som både mennesker og maskiner kan tolke. Denne betydningen gjør den brukbar for et menneske, men tillater også automatisert resonnement for å gjøre det mulig for datamaskiner å lette noe av byrden. Med kunnskapsgrafer kan organisasjoner endre, beskjære og tilpasse skjemaet samtidig som dataene beholdes og gjenbrukes for å gi enda mer innsikt.

For mange år siden gikk vi bort fra buzzwordet Big Data til Smart Data. Å ha enestående mengder data presset på behovet for å ha en datamodell som speilet vår komplekse forståelse av informasjon. For å gjøre data smart, kunne maskiner ikke lenger være bundet av ufleksible og sprø dataskjemaer. De trengte datalagre som kunne representere den virkelige verden og de sammenfiltrede relasjonene det innebærer. Alt dette måtte gjøres på en maskinlesbar måte med formell semantikk for å muliggjøre automatisert resonnement som komplementerte og forenklet menneskelig ekspertise og beslutningstaking. 

Kunnskapsgrafer uttrykt i RDF gir dette i tillegg til en rekke applikasjoner i data- og informasjonstunge tjenester. Eksempler inkluderer intelligent innhold, emballasje og gjenbruk; responsiv og kontekstuelt bevisst innholdsanbefaling; automatisert kunnskapsoppdagelse; semantisk søk; og intelligente agenter. Det kan også støtte ting som firmaprofilering og rangering; informasjonsoppdagelse i regulatoriske dokumenter; og overvåking av legemiddelovervåkingslitteratur. 

Enkelt sagt hjelper kunnskapsgrafer bedrifter med å ta kritiske beslutninger basert på harmoniserte kunnskapsmodeller og data hentet fra siled kildesystemer. De leverer også naturlig skalerbarhet og semantikk som muliggjør en effektiv, spesifikk og responsiv tilnærming til data, inkludert sikkerhet og styring, administrasjon av eierskap og herkomst. 

spot_img

Siste etterretning

spot_img