Zephyrnet-logo

Grafiekdatabases: voordelen en best practices – DATAVERSITY

Datum:

grafiek databasesgrafiek databases
Shutterstock

Graph-databases zijn sinds de jaren negentig aanzienlijk verbeterd, met nieuwe ontwikkelingen en een betere realisatie van best practices. Graftechnologie is een van de meest populaire methoden geworden voor het uitvoeren van big data-onderzoek. De focus op het vinden van relaties en de flexibiliteit maken het ideaal voor een verscheidenheid aan onderzoeksprojecten. Een bewustzijn van nieuwe ontwikkelingen en een goed begrip van de beste praktijken zullen elk werk met grafische databases stroomlijnen.

Grafiekdatabases zijn dat wel doorgaans beschouwd een NoSQL- of niet-relationele technologie, waardoor ze het geheugen/opslag en het onderzoek in elke richting kunnen uitbreiden, zonder het project naar andere structuren te hoeven overbrengen. Hoewel SQL-systemen grafische databases kunnen ondersteunen, vooral met recente verbeteringen, zijn NoSQL-architecturen doorgaans veel effectiever. Opgemerkt moet worden dat een relationele/SQL-database naast een NoSQL-grafiekdatabase kan werken, waarbij de twee elkaar aanvullen door gebruik te maken van de sterke punten van beide systemen.

De basisprincipes

Een grafiekdatabase is ontworpen om gelijke waarde toe te kennen aan zowel de gegevens als de relaties die de gegevens verbinden. De gegevens en de relaties worden als even belangrijk beschouwd. Grafiekstructuren (het knooppunt en de rand) worden gebruikt om gegevens weer te geven en op te slaan. Een knooppunt in grafiekdatabases vertegenwoordigt het record/object/entiteit, terwijl de rand de relatie tussen de knooppunten vertegenwoordigt. Het opvragen van relaties gaat vrij snel, omdat ze in de database zelf worden opgeslagen.

Knooppunten kunnen worden beschreven als de entiteiten binnen een grafiek. Deze knooppunten kunnen worden getagd met labels die verschillende rollen in het domein vertegenwoordigen. Knooppuntlabels kunnen ook worden gebruikt om metagegevens (index- of identificatie-informatie) aan bepaalde knooppunten te koppelen.

De randen, of relaties, zorgen voor verbindingen tussen twee knooppuntentiteiten. (Bijvoorbeeld Vrijwilliger-SCHEMA-Weekdagen of Auto-ROUTE-Bestemming.) Relaties hebben altijd een richting, met een startknooppunt, een eindknooppunt en een type. Relaties/randen kunnen ook eigenschappen hebben. Over het algemeen zijn de relaties gebaseerd op kwantitatieve eigenschappen, zoals afstanden, gewichten, kosten, beoordelingen, sterke punten of tijdsintervallen. Vanwege de manier waarop relaties worden opgeslagen, kunnen twee knooppunten elk type of een willekeurig aantal relaties associëren. Hoewel relaties met een specifieke richting worden opgeslagen, kunnen deze relaties efficiënt in beide richtingen worden genavigeerd.

Grafiekdatabases gebruiken

Grafieken kunnen worden gebruikt in een verscheidenheid aan dagelijkse toepassingen, zoals het weergeven van optische vezelkartering, het ontwerpen van een printplaat of zoiets eenvoudigs als wegen en straten op een kaart. Facebook gebruikt grafieken om een ​​datanetwerk te vormen, waarbij knooppunten een persoon of een onderwerp vertegenwoordigen, en randen die processen, activiteiten of methoden vertegenwoordigen die de knooppunten met elkaar verbinden.

Lockheed Martin Space gebruikt grafische technologieën voor voorraadketenbeheer, waardoor het voor hen gemakkelijker wordt om potentiële zwakke punten bloot te leggen en de veerkracht van de toeleveringsketen te vergroten. Hun CDAO, Tobin Thomas, verklaarde in een interview , “Denk na over de levenscyclus van hoe een product tot stand komt. We gebruiken technologieën zoals grafieken om de relaties met elkaar te verbinden, zodat we de levenscyclus kunnen zien op basis van bepaalde onderdelen of componenten en de relaties tussen elk element.”

Gartner voorspelt dat de markt voor grafische technologieën zal groeien tot 3.2 miljard dollar in 2025. De groeiende populariteit van grafische databases is gedeeltelijk het resultaat van goed ontworpen algoritmen die het sorteren van de gegevens veel, veel gemakkelijker maken. De beruchte Panama Papers-schandaal biedt een uitstekend voorbeeld van hoe algoritmen werden gebruikt om informatie van duizenden lege bedrijven te achterhalen. Deze schelpen voorzag filmsterren, criminelen en politici, zoals de voormalige premier van IJsland, Sigmundur David Gunnlaugsson, van een plek om geld op buitenlandse rekeningen te storten. Grafiekdatabases, met hun algoritmen, maakte het onderzoek van deze lege vennootschappen mogelijk.

Problemen met grafiekdatabases

De problemen die zich kunnen voordoen bij het werken met grafische databases zijn onder meer het gebruik van onnauwkeurige of inconsistente gegevens en het leren schrijven van efficiënte query's. Nauwkeurige resultaten zijn afhankelijk van nauwkeurige en consistente informatie. Als de gegevens die binnenkomen niet betrouwbaar zijn, kunnen de resultaten die naar buiten komen niet als betrouwbaar worden beschouwd. 

Dit probleem met gegevensquery's kan ook een probleem zijn als de opgeslagen gegevens niet-generieke termen gebruiken, terwijl de query algemene terminologie gebruikt. Bovendien moet de query zo worden ontworpen dat deze aan de systeemvereisten voldoet.

Onnauwkeurige gegevens zijn gebaseerd op informatie die eenvoudigweg verkeerd is. Er zijn flagrante fouten opgenomen. Onnauwkeurige gegevens kunnen een verkeerd adres, een verkeerd geslacht of een aantal andere fouten omvatten. Inconsistente gegevens beschrijven daarentegen een situatie waarbij meerdere tabellen in een database met dezelfde gegevens werken, maar deze ontvangen van verschillende invoer met enigszins verschillende versies (spelfouten, afkortingen, enz.). Inconsistenties worden vaak verergerd door gegevensredundantie.

Grafiekquery's de grafiekdatabase ondervragen, en deze zoekopdrachten moeten accuraat en precies zijn en ontworpen om in het databasemodel te passen. De vragen moeten ook zo eenvoudig mogelijk zijn. Hoe eenvoudiger de zoekopdracht, hoe scherper de resultaten. Hoe ingewikkelder de vraag, hoe breder – en misschien wel verwarrender – de resultaten.

Beste praktijken aan het begin

Voor onderzoeksdoeleinden zijn de meeste gratis of gekochte bulkgegevens redelijk nauwkeurig. Onnauwkeurige en inconsistente gegevens zijn meestal het resultaat van menselijke fouten, zoals een verkoper of een websitechatpersoon die verschillende formulieren invult. Het trainen van personeel om hun informatie regelmatig te controleren (en het dubbel laten controleren van hun werk tijdens het trainingsproces) kan tot dramatische verbeteringen leiden.

Zoekopdrachten moeten eenvoudig beginnen en eenvoudig blijven. Als het onderzoek complexer wordt, maak dan geen complexere zoekopdracht. Maak een nieuwe, eenvoudige query om afzonderlijk te onderzoeken. CrowdStrike biedt een nuttig voorbeeld over de waarde van simplistische vragen bij de ontwikkeling van hun beveiligingsanalysetool Threat Strike. CrowdStrike-auteurs Marcus King en Ralph Caraveo schreven:

“Aan het begin van dit project was het belangrijkste probleem dat we moesten aanpakken het beheer van een extreem grote hoeveelheid gegevens met een zeer onvoorspelbare schrijfsnelheid. Destijds moesten we een paar miljoen gebeurtenissen per dag analyseren – een aantal waarvan we wisten dat het zou groeien en dat nu in de honderden miljarden loopt. Het project was ontmoedigend en daarom besloten we een stap terug te doen en niet na te denken over hoe we konden schalen, maar hoe we het konden vereenvoudigen. We kwamen tot de conclusie dat we, door een dataschema te creëren dat buitengewoon eenvoudig was, een sterk en veelzijdig platform konden creëren van waaruit we verder konden bouwen. Dus concentreerde ons team zich op iteratie en verfijning totdat we de architectuur terugbrachten naar iets dat eenvoudig genoeg was om vrijwel eindeloos te schalen.”

Kunstmatige intelligentie, machinaal leren en grafische databases

Grafiekverbeteringen toegepast op kunstmatige intelligentie verbeteren de nauwkeurigheid en modelleringssnelheden.

An AI-platform Het is aangetoond dat de combinatie met een grafische database met succes machine learning-modellen verbetert, waardoor het potentieel voor complexe besluitvormingsprocessen wordt bevorderd. Grafiektechnologie lijkt goed samen te gaan met kunstmatige intelligentie en machinaal leren, waardoor gegevensrelaties eenvoudiger, uitbreidbaarder en efficiënter worden.

Amazon heeft zijn aandacht op het gebruik gericht machine learning voor het classificeren van knooppunten en randen op basis van hun attributen. Het proces kan ook worden gebruikt om de meest waarschijnlijke verbindingen te voorspellen. Enkele versies hiervan machine learning/grafiektechnologie Deze optie omvat kaarten van de fysieke wereld, zoals het onderzoeken van de beste routes om van de ene plaats naar de andere te komen. Sommige versies richten zich op meer abstracte taken – bijvoorbeeld kennissynthese – en gebruiken op tekst gebaseerde grafische modellen of conceptuele netwerken.

De huidige grafische databases zijn zo geëvolueerd dat ze in staat zijn enkele van de meer gecompliceerde uitdagingen van de telecommunicatie-industrie op te lossen. Het bestrijden van fraude is een uitdaging die hoge prioriteit heeft gekregen, waarbij AI en machinaal leren de eerste keuze zijn geworden om bedreigingen voor te blijven. Grafische databases worden gebruikt ter ondersteuning van de analytische technieken die door AI en machinaal leren worden gebruikt bij de fraudebestrijding.

spot_img

Laatste intelligentie

spot_img