Zephyrnet logo

Kaaviotietokannat: edut ja parhaat käytännöt – DATAVERSITY

Treffi:

kuvaajatietokannatkuvaajatietokannat
Shutterstock

Graafitietokannat ovat parantuneet merkittävästi 1990-luvulta lähtien uusien kehityskulkujen ja parhaiden käytäntöjen paremman toteuttamisen myötä. Graafiteknologiasta on tullut yksi suosituimmista big data -tutkimuksen menetelmistä. Sen keskittyminen suhteiden löytämiseen ja joustavuus tekevät siitä ihanteellisen erilaisiin tutkimusprojekteihin. Tietoisuus uusista kehityssuunnista ja parhaiden käytäntöjen ymmärtäminen virtaviivaistaa kaikkea graafitietokantojen kanssa tehtävää työtä.

Graafitietokannat ovat yleensä harkitaan NoSQL tai ei-relaatioteknologia, joka tarjoaa heille mahdollisuuden laajentaa muistia/tallennustilaa ja tutkimusta mihin tahansa suuntaan ilman, että projektia tarvitsee siirtää eri rakenteisiin. Vaikka SQL-järjestelmät voivat tukea graafitietokantoja, erityisesti viimeaikaisten parannusten ansiosta, NoSQL-arkkitehtuurit ovat yleensä paljon tehokkaampia. On huomattava, että relaatio-/SQL-tietokanta voi toimia NoSQL-graafitietokannan rinnalla, ja nämä kaksi täydentävät toisiaan hyödyntämällä molempien järjestelmien vahvuuksia.

Perusperiaatteet

Graafitietokanta on suunniteltu antamaan sama arvo sekä datalle että dataa yhdistäville suhteille. Tietoja ja suhteita pidetään yhtä tärkeinä. Graafirakenteet (solmu ja reuna) käytetään tietojen esittämiseen ja tallentamiseen. Graafitietokannassa oleva solmu edustaa tietuetta/objektia/kokonaisuutta, kun taas reuna edustaa solmujen välistä suhdetta. Suhteiden kysely on melko nopeaa, koska ne tallennetaan itse tietokantaan.

Solmut voidaan kuvata graafin kokonaisuuksiksi. Nämä solmut voidaan merkitä tunnisteilla, jotka edustavat toimialueen eri rooleja. Solmutunnisteita voidaan käyttää myös metatietojen (indeksi- tai tunnistetietojen) liittämiseen tiettyihin solmuihin.

Reunat tai suhteet tarjoavat yhteyksiä kahden solmuolion välillä. (Esimerkiksi Volunteer-SCHEDULE-Weekdays tai Car-DIRECTIONS-Destination.) Suhteilla on aina suunta, jossa on aloitussolmu, loppusolmu ja tyyppi. Suhteet/reunat voivat myös olla ominaisuuksia. Yleensä suhteet perustuvat kvantitatiivisiin ominaisuuksiin, kuten etäisyyksiin, painoihin, kustannuksiin, arvioihin, vahvuuksiin tai aikaväleihin. Suhteiden tallennustavasta johtuen kaksi solmua voi liittää minkä tahansa tyypin tai minkä tahansa määrän suhteita. Vaikka suhteet tallennetaan tiettyyn suuntaan, näitä suhteita voidaan navigoida tehokkaasti kumpaankin suuntaan.

Graph-tietokantojen käyttö

Graafeja voidaan käyttää erilaisissa päivittäisissä sovelluksissa, kuten optisen kuidun kartoituksessa, piirilevyn suunnittelussa tai niinkin yksinkertaisessa kuin teitä ja katuja kartalla. Facebook muodostaa graafien avulla tietoverkon, jossa solmut edustavat henkilöä tai aihetta ja reunat edustavat prosesseja, toimintoja tai menetelmiä, jotka yhdistävät solmut.

Lockheed Martin Space käyttää kuvaajatekniikoita toimitusketjun hallinta, mikä helpottaa mahdollisten heikkouksien paljastamista ja toimitusketjun sietokykyä. Heidän CDAO, Tobin Thomas, totesi an haastattelu, "Ajattele tuotteen luomisen elinkaaria. Käytämme tekniikoita, kuten kaavioita, yhdistääksemme suhteet yhteen, jotta voimme nähdä elinkaaren tiettyjen osien tai komponenttien perusteella ja jokaisen elementin väliset suhteet.

Gartner ennustaa, että graafiteknologian markkinat kasvaa 3.2 miljardiin dollariin vuoteen 2025 mennessä. Graafitietokantojen kasvava suosio on osittain seurausta hyvin suunnitelluista algoritmeista, jotka tekevät tietojen lajittelusta paljon, paljon helpompaa. Pahamaineinen Panama Papers -skandaali on erinomainen esimerkki siitä, kuinka algoritmeja käytettiin etsimään tietoa tuhansilta shell-yhtiöiltä. Nämä kuoret tarjosi elokuvatähdille, rikollisille ja poliitikoille, kuten Islannin entiselle pääministerille Sigmundur David Gunnlaugssonille, paikan tallettaa rahaa offshore-tileille. Graafitietokannat niiden kanssa algoritmit, teki näiden shell-yritysten tutkimuksen mahdolliseksi.

Ongelmia Graph-tietokantojen kanssa

Ongelmia, joita voi syntyä käytettäessä graafitietokantoja, ovat epätarkkojen tai epäjohdonmukaisten tietojen käyttö ja tehokkaiden kyselyjen kirjoittamisen oppiminen. Tarkat tulokset perustuvat täsmällisiin ja johdonmukaisiin tietoihin. Jos saapuvat tiedot eivät ole luotettavia, ulos tulevia tuloksia ei voida pitää luotettavina. 

Tämä tietokyselyongelma voi myös olla ongelma, jos tallennetuissa tiedoissa käytetään ei-yleisiä termejä, kun taas kyselyssä käytetään yleistä terminologiaa. Lisäksi kyselyn tulee olla suunniteltu vastaamaan järjestelmän vaatimuksia.

Epätarkat tiedot perustuvat tietoihin, jotka ovat yksinkertaisesti vääriä. Ilmeisiä virheitä on sisällytetty. Epätarkat tiedot voivat sisältää väärän osoitteen, väärän sukupuolen tai monia muita virheitä. Epäjohdonmukainen data puolestaan ​​kuvaa tilannetta, jossa tietokannassa on useita taulukoita, jotka työskentelevät samoilla tiedoilla, mutta saavat sen eri syötteistä hieman eri versioilla (kirjoitusvirheet, lyhenteet jne.). Epäjohdonmukaisuuksia pahentaa usein tietojen redundanssi.

Kaaviokyselyt tutkia kaaviotietokantaa, ja näiden kyselyiden on oltava tarkkoja, tarkkoja ja suunniteltu sopimaan tietokantamalliin. Myös kyselyiden tulee olla mahdollisimman yksinkertaisia. Mitä yksinkertaisempi kysely, sitä tiukemmin sen tulokset kohdistetaan. Mitä monimutkaisempi kysely on, sitä laajemmat – ja ehkä hämmentävämpiä – tulokset.

Parhaat käytännöt alussa

Tutkimustarkoituksiin useimmat ilmaiset tai ostetut joukkotiedot ovat kohtuullisen tarkkoja. Epätarkat ja epäjohdonmukaiset tiedot johtuvat yleensä inhimillisistä virheistä, kuten myyjän tai verkkosivuston chat-henkilön eri lomakkeiden täyttämisestä. Henkilökunnan kouluttaminen säännöllisesti tarkistamaan tietonsa (ja työn tarkistaminen koulutusprosessin aikana) voi kannustaa dramaattisiin parannuksiin.

Kyselyjen tulee alkaa yksinkertaisista ja pysyä yksinkertaisina. Jos tutkimuksesta tulee monimutkaisempaa, älä luo monimutkaisempaa kyselyä. Luo uusi, yksinkertainen kysely tutkiaksesi erikseen. CrowdStrike tarjoaa a hyödyllinen esimerkki yksinkertaistettujen kyselyjen arvosta, kun he kehittivät tietoturva-analytiikkatyökaluaan, Threat Strikea. CrowdStrike-kirjoittajat Marcus King ja Ralph Caraveo kirjoittivat:

"Tämän projektin alussa tärkein ongelma, johon meidän piti puuttua, oli erittäin suuren tietomäärän hallinta erittäin arvaamattomalla kirjoitusnopeudella. Tuolloin meidän täytyi analysoida muutama miljoonaa tapahtumaa päivässä – määrä, jonka tiesimme kasvavan ja on nyt satoja miljardeja. Projekti oli pelottava, minkä vuoksi päätimme vetäytyä taaksepäin ja ajatella, ettei skaalausta, vaan kuinka yksinkertaistaa. Päätimme, että luomalla äärimmäisen yksinkertaisen dataskeeman pystyisimme luomaan vahvan ja monipuolisen alustan rakentamiseen. Joten tiimimme keskittyi iterointiin ja jalostukseen, kunnes saimme arkkitehtuurin alas joksikin, joka oli tarpeeksi yksinkertainen skaalautumaan lähes loputtomiin."

Tekoäly-, koneoppimis- ja graafitietokannat

Tekoälyyn sovelletut graafiset parannukset parantavat tarkkuutta ja mallinnusnopeuksia.

An Tekoälyalusta Yhdistettynä kaaviotietokantaan on osoitettu onnistuneesti parantavan koneoppimismalleja ja edistävän monimutkaisten päätöksentekoprosessien mahdollisuuksia. Graafiteknologia näyttää sopivan varsin hyvin tekoälyyn ja koneoppimiseen, mikä tekee tietosuhteista yksinkertaisempia, laajennettavissa olevia ja tehokkaampia.

Amazon on kiinnittänyt huomionsa käyttöön koneoppiminen solmujen ja reunojen luokitteluun niiden ominaisuuksien perusteella. Prosessia voidaan käyttää myös todennäköisimpien yhteyksien ennustamiseen. Jotkut versiot tästä koneoppimis-/kaaviotekniikka vaihtoehto sisältää fyysisen maailman karttoja, kuten parhaiden reittien tutkimista paikasta toiseen pääsemiseen. Jotkut versiot keskittyvät abstraktimpiin tehtäviin – esimerkiksi tiedon synteesiin – ja käyttävät tekstiin tai käsitteellisiin verkostoihin perustuvia graafimalleja.

Nykyiset graafitietokannat ovat kehittyneet niin pitkälle, että ne pystyvät ratkaisemaan joitain televiestintäalan monimutkaisempia haasteita. Petosten torjunta on yksi haaste, josta on tullut korkea prioriteetti, ja tekoäly ja koneoppiminen ovat ensimmäinen vaihtoehto pysyä uhkien edellä. Graafitietokantoja käytetään tukemaan tekoälyn ja koneoppimisen käyttämiä analyyttisiä tekniikoita petosten torjunnassa.

spot_img

Uusin älykkyys

spot_img