和风网标志

图数据库:优点和最佳实践 – DATAVERSITY

日期:

图数据库图数据库
存在Shutterstock

自 1990 世纪 XNUMX 年代以来,图数据库有了新的发展和最佳实践的更好实现,有了显着的改进。图技术已成为进行大数据研究最流行的方法之一。它对寻找关系的关注及其灵活性使其成为各种研究项目的理想选择。对新发展的认识和对最佳实践的理解将简化图形数据库的任何工作。

图数据库是 通常认为 NoSQL 或非关系型技术,使他们能够在任何方向上扩展内存/存储和研究,而无需将项目转移到不同的结构。尽管 SQL 系统可以支持图形数据库,尤其是最近的改进,但 NoSQL 架构通常更有效。应该指出的是,关系/SQL 数据库可以与 NoSQL 图形数据库一起工作,两者可以通过利用两个系统的优势来相互补充。

基本原则

图形数据库旨在为数据和连接数据的关系分配相同的值。数据和关系被认为同样重要。 图结构 (节点和边)用于表示和存储数据。图数据库中的节点代表记录/对象/实体,而边代表节点之间的关系。查询关系非常快,因为它们存储在数据库本身内部。

节点可以描述为图中的实体。这些节点可以用代表域中不同角色的标签来标记。节点标签还可用于将元数据(索引或标识信息)附加到某些节点。

边或关系提供两个节点实体之间的连接。 (例如,Volunteer-SCHEDULE-Weekdays 或 Car-DIRECTIONS-Destination。)关系始终具有方向、起始节点、结束节点和类型。关系/边缘也可以具有属性。一般来说,这些关系基于定量属性,例如距离、权重、成本、评级、强度或时间间隔。由于保存关系的方式,两个节点可以关联任何类型或任意数量的关系。尽管关系是以特定方向定向存储的,但可以在任一方向上有效地导航这些关系。

使用图数据库

图形可用于各种日常应用,例如表示光纤映射、设计电路板或像地图上的道路和街道这样简单的东西。 Facebook 使用图来形成数据网络,其中节点代表人或主题,边代表连接节点的流程、活动或方法。

洛克希德马丁航天公司使用图形技术 供应链管理,使他们更容易发现潜在的弱点并提高供应链的弹性。他们的 CDAO,托宾·托马斯 (Tobin Thomas) 在一份声明中表示 访问,“考虑一下产品是如何创建的生命周期。我们使用图表等技术将关系连接在一起,这样我们就可以看到基于特定部件或组件的生命周期以及每个元素之间的关系。”

Gartner 预测 图技术市场 到 3.2 年,这一数字将增至 2025 亿美元。图数据库的日益普及在一定程度上是由于精心设计的算法使数据排序变得更加容易。臭名昭著的 巴拿马文件丑闻 提供了一个很好的例子,说明如何使用算法从数千家空壳公司中寻找信息。这些 炮弹 为电影明星、罪犯和政治家(如冰岛前总理西格蒙杜尔·大卫·冈劳格森)提供了在离岸账户存钱的地方。图数据库及其 算法,使得对这些空壳公司的研究成为可能。

图数据库的问题

使用图形数据库时可能出现的问题包括使用不准确或不一致的数据以及学习编写有效的查询。准确的结果依赖于准确且一致的信息。如果输入的数据不可靠,那么得出的结果就不能被认为是可信的。 

如果存储的数据使用非通用术语而查询使用通用术语,则该数据查询问题也可能成为问题。此外,查询的设计必须满足系统的要求。

不准确的数据是基于完全错误的信息。其中包含了明显的错误。不准确的数据可能包括错误的地址、错误的性别或任何其他错误。另一方面,不一致的数据描述了数据库中的多个表处理相同数据的情况,但从版本略有不同(拼写错误、缩写等)的不同输入接收数据。数据冗余常常会加剧不一致。

图查询 查询图数据库,这些查询需要准确、精确,并且设计得适合数据库模型。查询也应该尽可能简单。查询越简单,其结果就越集中。查询越复杂,结果就越广泛,而且可能更令人困惑。

一开始的最佳实践

出于研究目的,大多数免费或购买的批量数据都相当准确。不准确和不一致的数据往往是人为错误造成的,例如销售人员或网站聊天人员填写各种表格。培训员工习惯性地仔细检查他们的信息(并在培训过程中仔细检查他们的工作)可以鼓励显着的改进。

查询应该从简单开始,并保持简单。如果研究变得更加复杂,请勿创建更复杂的查询。创建一个新的简单查询来单独研究。 CrowdStrike 提供了 有用的例子 他们在开发安全分析工具 Threat Strike 时了解了简单查询的价值。 CrowdStrike 的作者 Marcus King 和 Ralph Caraveo 写道:

“在这个项目开始时,我们需要解决的主要问题是管理具有高度不可预测的写入速率的极大量数据。当时,我们每天需要分析几百万个事件——我们知道这个数字还会增长,现在已经达到数千亿个。该项目令人望而生畏,这就是为什么我们决定退后一步,考虑如何简化而不是如何扩展。我们确定,通过创建一个非常简单的数据模式,我们将能够创建一个强大且多功能的平台来构建。因此,我们的团队专注于迭代和完善,直到我们将架构简化为足够简单,可以几乎无限扩展。”

人工智能、机器学习和图数据库

应用于人工智能的图形增强功能正在提高准确性和建模速度。

An 人工智能平台 与图数据库合并已被证明可以成功增强机器学习模型,提升复杂决策过程的潜力。图技术似乎与人工智能和机器学习非常契合,使数据关系更简单、更可扩展、更高效。

亚马逊已将注意力转向使用 机器学习 用于根据节点和边的属性对节点和边进行分类。该过程还可用于预测最可能的连接。这个的一些版本 机器学习/图技术 选项包括物理世界的地图,例如研究从一个地方到另一个地方的最佳路线。一些版本专注于更抽象的任务 - 例如知识合成 - 并使用基于文本或概念网络的图形模型。

当前的图数据库已经发展到能够解决电信行业一些更复杂的挑战的程度。打击欺诈是一项已成为高度优先事项的挑战,人工智能和机器学习成为领先于威胁的首选。图数据库被用来支持人工智能和机器学习在打击欺诈方面使用的分析技术。

现货图片

最新情报

现货图片