Логотип Zephyrnet

Графічні бази даних: переваги та передовий досвід – DATAVERSITY

Дата:

графіки баз данихграфіки баз даних
Shutterstock

Бази даних графів значно покращилися з 1990-х років завдяки новим розробкам і кращому використанню найкращих практик. Технологія графів стала одним із найпопулярніших методів дослідження великих даних. Його орієнтація на пошук взаємозв’язків і його гнучкість роблять його ідеальним для різноманітних дослідницьких проектів. Обізнаність про нові розробки та розуміння найкращих практик спростять будь-яку роботу з графовими базами даних.

Графові бази даних є зазвичай розглядається NoSQL або нереляційна технологія, яка надає їм можливість розширювати пам’ять/сховище та дослідження в будь-якому напрямку, без необхідності переносити проект до інших структур. Хоча системи SQL можуть підтримувати бази даних графів, особливо з останніми вдосконаленнями, архітектури NoSQL зазвичай набагато ефективніші. Слід зазначити, що реляційна/SQL база даних може працювати разом із графовою базою даних NoSQL, при цьому обидві доповнюють одна одну, використовуючи сильні сторони обох систем.

Основні принципи

База даних графів розроблена для надання однакової цінності як даним, так і зв’язкам, що з’єднують дані. Дані та зв’язки вважаються однаково важливими. Графові структури (вузол і ребро) використовуються для представлення та зберігання даних. Вузол у графових базах даних представляє запис/об’єкт/сутність, тоді як ребро представляє зв’язок між вузлами. Зв’язки запитів досить швидкі, оскільки вони зберігаються в самій базі даних.

Вузли можна описати як сутності в межах графа. Ці вузли можна позначати мітками, які представляють різні ролі в домені. Мітки вузлів також можна використовувати для додавання метаданих (індекс або ідентифікаційна інформація) до певних вузлів.

Ребра, або зв'язки, забезпечують зв'язки між двома сутностями вузла. (Наприклад, Volunteer-SCHEDULE-Weekdays або Car DIRECTIONS-Destination.) Зв’язки завжди мають напрямок із початковим вузлом, кінцевим вузлом і типом. Відносини/ребра також можуть мати властивості. Як правило, зв’язки базуються на кількісних властивостях, таких як відстані, ваги, витрати, рейтинги, сильні сторони або часові інтервали. Через те, як зберігаються зв’язки, два вузли можуть зв’язати будь-який тип або будь-яку кількість зв’язків. Хоча зв’язки зберігаються з орієнтацією певного напрямку, ці зв’язки можна ефективно переміщати в будь-якому напрямку.

Використання графових баз даних

Графіки можна використовувати в різноманітних повсякденних програмах, таких як відображення оптичних волокон, проектування друкованої плати або щось таке просте, як дороги та вулиці на карті. Facebook використовує графіки для формування мережі даних, де вузли представляють людину або тему, а ребра представляють процеси, дії або методи, які з’єднують вузли.

Lockheed Martin Space використовує графові технології для робота з постачальниками, полегшуючи їм виявлення потенційних слабких місць і підвищення стійкості ланцюга поставок. Їх CDAO, Тобін Томас, заявив у an інтерв'ю, «Подумайте про життєвий цикл того, як створюється продукт. Ми використовуємо такі технології, як графіки, щоб з’єднати зв’язки між собою, щоб ми могли бачити життєвий цикл на основі окремих частин або компонентів і зв’язки між кожним елементом».

Gartner прогнозує, що ринок графових технологій зросте до 3.2 мільярда доларів США до 2025 року. Зростаюча популярність графічних баз даних частково є результатом добре розроблених алгоритмів, які значно полегшують сортування даних. Сумно відомий Скандал "Панамські документи" надає чудовий приклад того, як алгоритми використовувалися для пошуку інформації від тисяч підставних компаній. Ці оболонок надав кінозіркам, злочинцям і політикам, таким як колишній прем’єр-міністр Ісландії Сігмундур Давид Гуннлаугссон, місце для розміщення грошей на офшорних рахунках. Графові бази даних, з їх алгоритми, зробили можливим дослідження цих підставних компаній.

Проблеми з графовими базами даних

Проблеми, які можуть виникнути під час роботи з графовими базами даних, включають використання неточних або суперечливих даних і навчання написанню ефективних запитів. Точні результати залежать від точної та послідовної інформації. Якщо дані, що надходять, є недостовірними, отримані результати не можна вважати достовірними. 

Ця проблема із запитом даних також може бути проблемою, якщо збережені дані використовують незагальні терміни, тоді як у запиті використовується загальна термінологія. Крім того, запит має відповідати вимогам системи.

Неточні дані ґрунтуються на просто неправильній інформації. Були включені грубі помилки. Неточні дані можуть включати неправильну адресу, неправильну стать або будь-яку кількість інших помилок. З іншого боку, неузгоджені дані описують ситуацію з кількома таблицями в базі даних, які працюють з однаковими даними, але отримують їх із різних вхідних даних із дещо різними версіями (орфографічні помилки, абревіатури тощо). Невідповідності часто ускладнюються надлишковістю даних.

Графічні запити опитувати базу даних графів, і ці запити мають бути точними, точними та розробленими відповідно до моделі бази даних. Запити також мають бути максимально простими. Чим простіший запит, тим точніше його результати. Чим складніший запит, тим ширші – і, можливо, більш заплутані – результати.

Найкращі практики на початку

Для дослідницьких цілей більшість безкоштовних або куплених масових даних є достатньо точними. Неточні та суперечливі дані, як правило, є результатом людської помилки, як-от продавець або особа в чаті на веб-сайті, яка заповнює різні форми. Навчання персоналу регулярно перевіряти свою інформацію (і повторна перевірка їхньої роботи під час процесу навчання) може сприяти значним покращенням.

Запити повинні починатися з простих і залишатися простими. Якщо дослідження стає складнішим, не створюйте складніший запит. Створіть новий простий запит для окремого дослідження. CrowdStrike пропонує a корисний приклад про цінність спрощених запитів, коли вони розробляли свій інструмент аналітики безпеки Threat Strike. Автори CrowdStrike Маркус Кінг і Ральф Каравео написали:

«На початку цього проекту головною проблемою, яку нам потрібно було вирішити, було керування надзвичайно великим обсягом даних із дуже непередбачуваною швидкістю запису. У той час нам потрібно було аналізувати кілька мільйонів подій на день – число, яке, як ми знали, зростатиме, і зараз обчислюється сотнями мільярдів. Проект був складним, тому ми вирішили відступити й думати не про масштабування, а про те, як спростити. Ми визначили, що, створивши надзвичайно просту схему даних, ми зможемо створити потужну та універсальну платформу для створення. Тож наша команда зосередилася на ітераціях і вдосконаленні, доки ми не перетворили архітектуру на щось досить просте, щоб масштабувати її майже нескінченно».

Штучний інтелект, машинне навчання та бази даних графів

Покращення графіків, застосовані до штучного інтелекту, підвищують точність і швидкість моделювання.

An Платформа AI було показано, що об’єднання з графовою базою даних успішно покращує моделі машинного навчання, сприяючи розвитку складних процесів прийняття рішень. Здається, що технологія Graph досить добре поєднується зі штучним інтелектом і машинним навчанням, роблячи зв’язки даних простішими, розширюваними та ефективнішими.

Amazon звернув увагу на використання навчання за допомогою машини для класифікації вузлів і ребер на основі їхніх атрибутів. Процес також можна використовувати для прогнозування найімовірніших зв'язків. Деякі версії цього машинне навчання/технологія графів опція включає карти фізичного світу, наприклад дослідження найкращих маршрутів для пересування з одного місця в інше. Деякі версії зосереджені на більш абстрактних завданнях – наприклад, синтезі знань – і використовують моделі графів на основі тексту або концептуальні мережі.

Сучасні графові бази даних розвинулися до такого рівня, коли вони здатні вирішувати деякі складніші проблеми телекомунікаційної галузі. Боротьба з шахрайством є однією з проблем, яка стала пріоритетною, а ШІ та машинне навчання стали першим вибором, щоб випередити загрози. Графічні бази даних використовуються для підтримки аналітичних методів, які використовуються ШІ та машинним навчанням у боротьбі з шахрайством.

spot_img

Остання розвідка

spot_img