Logotipo de Zephyrnet

Bases de datos gráficas: beneficios y mejores prácticas – DATAVERSITY

Fecha:

bases de datos gráficasbases de datos gráficas
Shutterstock

Las bases de datos de gráficos han mejorado significativamente desde la década de 1990, con nuevos desarrollos y una mejor realización de las mejores prácticas. La tecnología de gráficos se ha convertido en uno de los métodos más populares para realizar investigaciones de big data. Su enfoque en encontrar relaciones y su flexibilidad lo hacen ideal para una variedad de proyectos de investigación. El conocimiento de los nuevos desarrollos y la comprensión de las mejores prácticas optimizarán cualquier trabajo con bases de datos gráficas.

Las bases de datos de gráficos son típicamente considerado una tecnología NoSQL o no relacional, brindándoles la capacidad de extender la memoria/almacenamiento y la investigación en cualquier dirección, sin necesidad de transferir el proyecto a diferentes estructuras. Aunque los sistemas SQL pueden admitir bases de datos de gráficos, especialmente con mejoras recientes, las arquitecturas NoSQL suelen ser mucho más efectivas. Cabe señalar que una base de datos relacional/SQL puede funcionar junto con una base de datos de gráficos NoSQL, y las dos se complementan aprovechando las fortalezas de ambos sistemas.

Los principios básicos

Una base de datos de gráficos está diseñada para asignar el mismo valor tanto a los datos como a las relaciones que los conectan. Los datos y las relaciones se consideran igualmente importantes. Estructuras gráficas (el nodo y el borde) se utilizan para representar y almacenar datos. Un nodo en las bases de datos de gráficos representa el registro/objeto/entidad, mientras que el borde representa la relación entre los nodos. Consultar relaciones es bastante rápido, ya que se almacenan dentro de la propia base de datos.

Los nodos pueden describirse como entidades dentro de un gráfico. Estos nodos se pueden etiquetar con etiquetas que representan diferentes roles en el dominio. Las etiquetas de nodo también se pueden utilizar para adjuntar metadatos (índice o información de identificación) a ciertos nodos.

Los bordes, o relaciones, proporcionan conexiones entre dos entidades de nodos. (Por ejemplo, Voluntario-HORARIO-Días laborables o Coche-DIRECCIONES-Destino). Las relaciones siempre tienen una dirección, con un nodo inicial, un nodo final y un tipo. Las relaciones/aristas también pueden tener propiedades. Generalmente, las relaciones se basan en propiedades cuantitativas, como distancias, pesos, costos, calificaciones, fortalezas o intervalos de tiempo. Debido a la forma en que se guardan las relaciones, dos nodos pueden asociar cualquier tipo o cantidad de relaciones. Aunque las relaciones se almacenan con una orientación de dirección específica, estas relaciones se pueden navegar de manera eficiente en cualquier dirección.

Uso de bases de datos de gráficos

Los gráficos se pueden utilizar en una variedad de aplicaciones cotidianas, como representar mapeo de fibra óptica, diseñar una placa de circuito o algo tan simple como carreteras y calles en un mapa. Facebook utiliza gráficos para formar una red de datos, con nodos que representan a una persona o un tema, y ​​bordes que representan procesos, actividades o métodos que conectan los nodos.

Lockheed Martin Space utiliza tecnologías gráficas para gestión de la cadena de suministro, lo que les facilita descubrir posibles debilidades y aumentar la resiliencia de la cadena de suministro. Su CDAO, Tobin Thomas, declaró en un entrevista, “Piense en el ciclo de vida de cómo se crea un producto. Estamos utilizando tecnologías como gráficos para conectar las relaciones, de modo que podamos ver el ciclo de vida en función de piezas o componentes particulares y las relaciones entre cada elemento”.

Gartner predice que el mercado de tecnologías gráficas crecerá a 3.2 millones de dólares en 2025. La creciente popularidad de las bases de datos gráficas es, en parte, el resultado de algoritmos bien diseñados que hacen que la clasificación de los datos sea mucho, mucho más fácil. El infame Escándalo de los Papeles de Panamá proporciona un excelente ejemplo de cómo se utilizaron algoritmos para buscar información de miles de empresas fantasma. Estos conchas proporcionó a estrellas de cine, criminales y políticos, como el ex primer ministro de Islandia, Sigmundur David Gunnlaugsson, un lugar para depositar dinero en cuentas extraterritoriales. Bases de datos gráficas, con sus algoritmos, hizo posible la investigación de estas empresas fantasma.

Problemas con las bases de datos de gráficos

Los problemas que pueden surgir al trabajar con bases de datos gráficas incluyen el uso de datos inexactos o inconsistentes y aprender a escribir consultas eficientes. Los resultados precisos dependen de información precisa y consistente. Si los datos que ingresan no son confiables, los resultados que salen no pueden considerarse confiables. 

Este problema de consulta de datos también puede ser un problema si los datos almacenados usan términos no genéricos mientras que la consulta usa terminología genérica. Además, la consulta debe diseñarse para cumplir con los requisitos del sistema.

Los datos inexactos se basan en información que simplemente es incorrecta. Se han incluido errores flagrantes. Los datos inexactos pueden incluir una dirección incorrecta, un género incorrecto o cualquier otro tipo de errores. Los datos inconsistentes, por otro lado, describen una situación en la que varias tablas en una base de datos trabajan con los mismos datos, pero los reciben de diferentes entradas con versiones ligeramente diferentes (errores ortográficos, abreviaturas, etc.). Las inconsistencias a menudo se ven agravadas por la redundancia de datos.

Consultas de gráficos interrogar la base de datos de gráficos, y estas consultas deben ser exactas, precisas y diseñadas para ajustarse al modelo de base de datos. Las consultas también deben ser lo más sencillas posible. Cuanto más simple sea la consulta, más enfocados serán sus resultados. Cuanto más complicada sea la consulta, más amplios (y quizás más confusos) serán los resultados.

Mejores prácticas al principio

Para fines de investigación, la mayoría de los datos masivos gratuitos o comprados son razonablemente precisos. Los datos inexactos e inconsistentes tienden a ser el resultado de un error humano, como cuando un vendedor o una persona del chat de un sitio web completan varios formularios. Capacitar al personal para que verifique dos veces su información habitualmente (y hacer que su trabajo sea verificado dos veces durante el proceso de capacitación) puede fomentar mejoras dramáticas.

Las consultas deben empezar de forma sencilla y seguir siendo sencillas. Si la investigación se vuelve más compleja, no cree una consulta más compleja. Cree una consulta nueva y sencilla para investigar por separado. CrowdStrike ofrece una ejemplo útil sobre el valor de las consultas simplistas mientras desarrollaban su herramienta de análisis de seguridad, Threat Strike. Los autores de CrowdStrike, Marcus King y Ralph Caraveo, escribieron:

“Al principio de este proyecto, el principal problema que necesitábamos abordar era la gestión de un volumen extremadamente grande de datos con una velocidad de escritura muy impredecible. En ese momento, necesitábamos analizar unos pocos millones de eventos por día, un número que sabíamos que crecería y que ahora asciende a cientos de miles de millones. El proyecto era desalentador, por eso decidimos dar un paso atrás y pensar no en cómo escalar, sino en cómo simplificarlo. Determinamos que al crear un esquema de datos que fuera extraordinariamente simple, podríamos crear una plataforma sólida y versátil a partir de la cual construir. Así que nuestro equipo se centró en iterar y perfeccionar hasta que conseguimos que la arquitectura fuera algo lo suficientemente simple como para escalar casi infinitamente”.

Inteligencia artificial, aprendizaje automático y bases de datos de gráficos

Las mejoras gráficas aplicadas a la inteligencia artificial están mejorando la precisión y la velocidad de modelado.

An Plataforma de IA Se ha demostrado que fusionado con una base de datos gráfica mejora con éxito los modelos de aprendizaje automático, promoviendo el potencial para procesos complejos de toma de decisiones. La tecnología de gráficos parece encajar bastante bien con la inteligencia artificial y el aprendizaje automático, lo que hace que las relaciones de datos sean más simples, más ampliables y más eficientes.

Amazon ha centrado su atención en el uso máquina de aprendizaje para clasificar nodos y aristas según sus atributos. El proceso también se puede utilizar para predecir las conexiones más probables. Algunas versiones de esto aprendizaje automático/tecnología de gráficos La opción incluye mapas del mundo físico, como investigar las mejores rutas para ir de un lugar a otro. Algunas versiones se centran en tareas más abstractas (por ejemplo, síntesis de conocimiento) y utilizan modelos gráficos basados ​​en texto o redes conceptuales.

Las bases de datos de gráficos actuales han evolucionado hasta el punto de que son capaces de resolver algunos de los desafíos más complicados de la industria de las telecomunicaciones. La lucha contra el fraude es un desafío que se ha convertido en una alta prioridad, y la inteligencia artificial y el aprendizaje automático se han convertido en la primera opción para adelantarse a las amenazas. Las bases de datos de gráficos se utilizan para respaldar las técnicas analíticas utilizadas por la inteligencia artificial y el aprendizaje automático en la lucha contra el fraude.

punto_img

Información más reciente

punto_img