Zephyrnet-logo

Grafdatabaser: Fordeler og beste praksis – DATAVERSITET

Dato:

grafdatabasergrafdatabaser
Shutterstock

Grafdatabaser har forbedret seg betydelig siden 1990-tallet, med ny utvikling og en bedre realisering av beste praksis. Grafteknologi har blitt en av de mest populære metodene for å utføre big data-forskning. Dens fokus på å finne relasjoner og dens fleksibilitet gjør den ideell for en rekke forskningsprosjekter. En bevissthet om nye utviklinger og en forståelse av beste praksis vil effektivisere alt arbeid med grafdatabaser.

Grafdatabaser er vanligvis vurdert en NoSQL eller ikke-relasjonell teknologi, som gir dem muligheten til å utvide minne/lagring og forskning i alle retninger, uten å måtte overføre prosjektet til forskjellige strukturer. Selv om SQL-systemer kan støtte grafdatabaser, spesielt med nylige forbedringer, er NoSQL-arkitekturer vanligvis mye mer effektive. Det skal bemerkes at en relasjons-/SQL-database kan fungere sammen med en NoSQL-grafdatabase, hvor de to utfyller hverandre ved å trykke på styrkene til begge systemene.

De grunnleggende prinsippene

En grafdatabase er designet for å tildele lik verdi til både dataene og relasjonene som forbinder dataene. Dataene og relasjonene anses som like viktige. Grafstrukturer (noden og kanten) brukes til å representere og lagre data. En node i grafdatabaser representerer posten/objektet/entiteten, mens kanten representerer forholdet mellom nodene. Spørring av relasjoner er ganske raskt, siden de er lagret i selve databasen.

Noder kan beskrives som enhetene i en graf. Disse nodene kan merkes med etiketter som representerer forskjellige roller i domenet. Nodeetiketter kan også brukes til å feste metadata (indeks eller identifikasjonsinformasjon) til visse noder.

Kantene, eller relasjonene, gir forbindelser mellom to nodeenheter. (For eksempel Frivillig-TIDSPLAN-Ukedager eller Bilveibeskrivelse-Destinasjon.) Relasjoner har alltid en retning, med en startnode, en sluttnode og en type. Relasjoner/kanter kan også ha egenskaper. Generelt er relasjonene basert på kvantitative egenskaper, som avstander, vekter, kostnader, karakterer, styrker eller tidsintervaller. På grunn av måten relasjoner lagres på, kan to noder assosiere hvilken som helst type eller et hvilket som helst antall relasjoner. Selv om relasjoner er lagret med en bestemt retningsorientering, kan disse relasjonene navigeres effektivt i begge retninger.

Bruke grafdatabaser

Grafer kan brukes i en rekke daglige applikasjoner, for eksempel å representere optisk fiberkartlegging, designe et kretskort eller noe så enkelt som veier og gater på et kart. Facebook bruker grafer for å danne et datanettverk, med noder som representerer en person eller et emne, og kanter som representerer prosesser, aktiviteter eller metoder som forbinder nodene.

Lockheed Martin Space bruker grafteknologier for leverandørkrav, noe som gjør det lettere for dem å avdekke potensielle svakheter og øke forsyningskjedens motstandskraft. Deres CDAO, Tobin Thomas, uttalte i en intervju, "Tenk på livssyklusen til hvordan et produkt er skapt. Vi bruker teknologier som grafer for å koble relasjonene sammen, slik at vi kan se livssyklusen basert på bestemte deler eller komponenter og relasjonene mellom hvert element."

Gartner spår at markedet for grafteknologier vil vokse til 3.2 milliarder dollar innen 2025. Den økende populariteten til grafdatabaser er delvis et resultat av godt utformede algoritmer som gjør sortering gjennom dataene mye, mye enklere. Den beryktede Panama Papers-skandale gir et utmerket eksempel på hvordan algoritmer ble brukt til å søke informasjon fra tusenvis av skallselskaper. Disse skjell gitt filmstjerner, kriminelle og politikere, som Islands tidligere statsminister Sigmundur David Gunnlaugsson, et sted å sette inn penger på offshore-kontoer. Grafdatabaser, med sine algoritmer, gjorde forskningen til disse skallselskapene mulig.

Problemer med grafdatabaser

Problemene som kan oppstå når du arbeider med grafdatabaser inkluderer bruk av unøyaktige eller inkonsekvente data og å lære å skrive effektive spørringer. Nøyaktige resultater er avhengige av nøyaktig og konsistent informasjon. Hvis dataene som kommer inn ikke er pålitelige, kan ikke resultatene som kommer ut anses som pålitelige. 

Dette dataspørringsproblemet kan også være et problem hvis de lagrede dataene bruker ikke-generiske termer mens spørringen bruker generisk terminologi. I tillegg må spørringen utformes for å møte systemets krav.

Unøyaktige data er basert på informasjon som rett og slett er feil. Det er tatt med åpenbare feil. Unøyaktige data kan inkludere feil adresse, feil kjønn eller en rekke andre feil. Inkonsistente data, derimot, beskriver en situasjon med flere tabeller i en database som arbeider med de samme dataene, men mottar dem fra forskjellige innganger med litt forskjellige versjoner (feilstavinger, forkortelser, etc.). Inkonsekvenser blir ofte forsterket av dataredundans.

Grafforespørsler spørre grafdatabasen, og disse spørringene må være nøyaktige, presise og utformet for å passe til databasemodellen. Spørsmålene bør også være så enkle som mulig. Jo enklere søket er, desto mer fokusert er resultatene. Jo mer komplisert spørringen er, desto bredere – og kanskje mer forvirrende – blir resultatene.

Beste praksis i starten

For forskningsformål er de fleste gratis eller kjøpte bulkdata rimelig nøyaktige. Unøyaktige og inkonsekvente data har en tendens til å være et resultat av menneskelige feil, for eksempel en selger eller en nettpratperson som fyller ut ulike skjemaer. Å lære opp personalet til å dobbeltsjekke informasjonen deres (og å få arbeidet dobbeltsjekket under opplæringsprosessen) kan oppmuntre til dramatiske forbedringer.

Spørsmål bør starte enkelt, og forbli enkle. Hvis forskningen blir mer kompleks, ikke lag et mer komplekst søk. Lag en ny, enkel spørring for å undersøke separat. CrowdStrike tilbyr en nyttig eksempel om verdien av forenklede spørringer da de utviklet sitt sikkerhetsanalyseverktøy, Threat Strike. CrowdStrike-forfatterne Marcus King og Ralph Caraveo skrev:

"I begynnelsen av dette prosjektet var hovedproblemet vi måtte ta tak i å håndtere et ekstremt stort datavolum med en svært uforutsigbar skrivehastighet. På den tiden trengte vi å analysere noen få millioner hendelser per dag – et tall vi visste ville vokse og nå er på hundrevis av milliarder. Prosjektet var skremmende, og derfor bestemte vi oss for å gå tilbake og ikke tenke på hvordan vi skal skalere, men hvordan vi skal forenkle. Vi bestemte at ved å lage et dataskjema som var usedvanlig enkelt, ville vi være i stand til å lage en sterk og allsidig plattform å bygge fra. Så teamet vårt fokuserte på å iterere og foredle inntil vi fikk arkitekturen ned til noe som var enkelt nok til å skalere nesten uendelig.»

Kunstig intelligens, maskinlæring og grafdatabaser

Grafforbedringer brukt på kunstig intelligens forbedrer nøyaktigheten og modelleringshastighetene.

An AI-plattform slått sammen med en grafdatabase har vist seg å forbedre maskinlæringsmodeller, og fremme potensialet for komplekse beslutningsprosesser. Grafteknologi ser ut til å passe ganske godt sammen med kunstig intelligens og maskinlæring, noe som gjør datarelasjoner enklere, mer utvidbare og mer effektive.

Amazon har rettet oppmerksomheten mot å bruke maskinlæring for klassifisering av noder og kanter basert på deres attributter. Prosessen kan også brukes til å forutsi de mest sannsynlige sammenhengene. Noen versjoner av denne maskinlæring/grafteknologi alternativet inkluderer kart over den fysiske verden, for eksempel å undersøke de beste rutene for å komme seg fra ett sted til et annet. Noen versjoner fokuserer på mer abstrakte oppgaver – for eksempel kunnskapssyntese – og bruker grafmodeller basert på tekst eller konseptuelle nettverk.

De nåværende grafdatabasene har utviklet seg til et punkt hvor de er i stand til å løse noen av de mer kompliserte utfordringene i telekommunikasjonsindustrien. Bekjempelse av svindel er en utfordring som har blitt en høy prioritet, med AI og maskinlæring som førstevalget for å ligge i forkant av trusler. Grafdatabaser brukes til å støtte analyseteknikkene som brukes av AI og maskinlæring for å bekjempe svindel.

spot_img

Siste etterretning

spot_img