和風網標誌

圖資料庫:優點和最佳實踐 – DATAVERSITY

日期:

圖形數據庫圖形數據庫
SHUTTERSTOCK

自 1990 年代以來,圖數據庫有了新的發展和最佳實踐的更好實現,有了顯著的改進。圖技術已成為進行大數據研究最受歡迎的方法之一。它對尋找關係的關注及其靈活性使其成為各種研究項目的理想選擇。對新發展的認識和對最佳實踐的理解將簡化圖形資料庫的任何工作。

圖資料庫是 通常認為 NoSQL 或非關係型技術,使他們能夠在任何方向上擴展記憶體/儲存和研究,而無需將專案轉移到不同的結構。儘管 SQL 系統可以支援圖形資料庫,尤其是最近的改進,但 NoSQL 架構通常更有效。應該指出的是,關係/SQL 資料庫可以與 NoSQL 圖形資料庫一起工作,兩者可以透過利用兩個系統的優勢來相互補充。

基本原則

圖形資料庫旨在為資料和連接資料的關係分配相同的值。數據和關係被認為同樣重要。 圖結構 (節點和邊)用於表示和儲存資料。圖資料庫中的節點代表記錄/物件/實體,而邊代表節點之間的關係。查詢關係非常快,因為它們儲存在資料庫本身內部。

節點可以描述為圖中的實體。這些節點可以用代表域中不同角色的標籤來標記。節點標籤也可用於將元資料(索引或識別資訊)附加到某些節點。

邊或關係提供兩個節點實體之間的連結。 (例如,Volunteer-SCHEDULE-Weekdays 或 Car-DIRECTIONS-Destination。)關係始終具有方向、起始節點、結束節點和類型。關係/邊緣也可以具有屬性。一般來說,這些關係是基於定量屬性,例如距離、權重、成本、評級、強度或時間間隔。由於保存關係的方式,兩個節點可以關聯任何類型或任意數量的關係。儘管關係是以特定方向定向儲存的,但可以在任一方向上有效地導航這些關係。

使用圖資料庫

圖形可用於各種日常應用,例如表示光纖映射、設計電路板或像地圖上的道路和街道這樣簡單的東西。 Facebook 使用圖來形成資料網絡,其中節點代表人或主題,邊代表連接節點的流程、活動或方法。

洛克希德馬丁航太公司使用圖形技術 供應鏈管理,使他們更容易發現潛在的弱點並提高供應鏈的彈性。他們的 CDAO,托賓·托馬斯 (Tobin Thomas) 在一份聲明中表示 訪問,「考慮一下產品是如何創建的生命週期。我們使用圖表等技術將關係連接在一起,這樣我們就可以看到基於特定部件或組件的生命週期以及每個元素之間的關係。”

Gartner 預測 圖技術市場 到 3.2 年,這一數字將增加至 2025 億美元。圖資料庫的日益普及在一定程度上是由於精心設計的演算法使資料排序變得更加容易。臭名昭著的 巴拿馬文件醜聞 提供了一個很好的例子,說明如何使用演算法從數千家空殼公司中尋找資訊。這些 砲彈 為電影明星、罪犯和政治家(如冰島前總理西格蒙杜爾·大衛·岡勞格森)提供了在離岸帳戶存錢的地方。圖資料庫及其 算法,使得對這些空殼公司的研究成為可能。

圖資料庫的問題

使用圖形資料庫時可能出現的問題包括使用不準確或不一致的資料以及學習編寫有效的查詢。準確的結果依賴於準確且一致的資訊。如果輸入的資料不可靠,那麼所得的結果就不能被認為是可信的。 

如果儲存的資料使用非通用術語而查詢使用通用術語,則該資料查詢問題也可能成為問題。此外,查詢的設計必須滿足系統的要求。

不準確的數據是基於完全錯誤的資訊。其中包含了明顯的錯誤。不準確的數據可能包括錯誤的地址、錯誤的性別或任何其他錯誤。另一方面,不一致的資料描述了資料庫中的多個表處理相同資料的情況,但從版本略有不同(拼字錯誤、縮寫等)的不同輸入接收資料。數據冗餘常常會加劇不一致。

圖片查詢 查詢圖資料庫,這些查詢需要準確、精確,並且設計得適合資料庫模型。查詢也應該盡量簡單。查詢越簡單,其結果就越集中。查詢越複雜,結果就越廣泛,而且可能更令人困惑。

一開始的最佳實踐

出於研究目的,大多數免費或購買的大量資料都相當準確。不準確和不一致的數據往往是人為錯誤造成的,例如銷售人員或網站聊天人員填寫各種表格。培訓員工習慣性地仔細檢查他們的資訊(並在培訓過程中仔細檢查他們的工作)可以鼓勵顯著的改進。

查詢應該從簡單開始,並保持簡單。如果研究變得更加複雜,請勿建立更複雜的查詢。建立一個新的簡單查詢來單獨研究。 CrowdStrike 提供了 有用的例子 他們在開發安全分析工具 Threat Strike 時了解了簡單查詢的價值。 CrowdStrike 的作者 Marcus King 和 Ralph Caraveo 寫道:

「在這個專案開始時,我們需要解決的主要問題是管理具有高度不可預測的寫入速率的極大量資料。當時,我們每天需要分析數百萬個事件——我們知道這個數字還會成長,現在已經達到數千億個事件。這個項目令人望而生畏,這就是為什麼我們決定退後一步,考慮如何簡化而不是如何擴展。我們確定,透過創建一個非常簡單的資料模式,我們將能夠創建一個強大且多功能的平台來建構。因此,我們的團隊專注於迭代和完善,直到我們將架構簡化為足夠簡單,可以幾乎無限擴展。”

人工智慧、機器學習和圖資料庫

應用於人工智慧的圖形增強功能正在提高準確性和建模速度。

An 人工智能平台 與圖資料庫合併已被證明可以成功增強機器學習模型,提升複雜決策過程的潛力。圖技術似乎與人工智慧和機器學習非常契合,使資料關係更簡單、更可擴展、更有效率。

亞馬遜已將注意力轉向使用 機器學習 用於根據節點和邊的屬性對節點和邊進行分類。該過程還可用於預測最可能的連接。這個的一些版本 機器學習/圖技術 選項包括物理世界的地圖,例如研究從一個地方到另一個地方的最佳路線。一些版本專注於更抽象的任務 - 例如知識合成 - 並使用基於文字或概念網路的圖形模型。

目前的圖數據庫已經發展到能夠解決電信業一些更複雜的挑戰的程度。打擊詐欺是一項已成為高度優先事項的挑戰,人工智慧和機器學習成為領先於威脅的首選。圖數據庫被用來支援人工智慧和機器學習在打擊詐欺方面使用的分析技術。

現貨圖片

VC咖啡館

VC咖啡館

最新情報

現貨圖片