Logo Zephyrnet

Cơ sở dữ liệu đồ thị: Lợi ích và phương pháp hay nhất – DATAVERSITY

Ngày:

cơ sở dữ liệu đồ thịcơ sở dữ liệu đồ thị
Shutterstock

Cơ sở dữ liệu đồ thị đã được cải thiện đáng kể kể từ những năm 1990, với những phát triển mới và khả năng hiện thực hóa tốt hơn các phương pháp hay nhất. Công nghệ đồ thị đã trở thành một trong những phương pháp phổ biến nhất để thực hiện nghiên cứu dữ liệu lớn. Nó tập trung vào việc tìm kiếm các mối quan hệ và tính linh hoạt của nó khiến nó trở nên lý tưởng cho nhiều dự án nghiên cứu khác nhau. Nhận thức về những phát triển mới và hiểu biết về các phương pháp hay nhất sẽ hợp lý hóa mọi công việc với cơ sở dữ liệu đồ thị.

Cơ sở dữ liệu đồ thị được thường được coi là một công nghệ NoSQL hoặc phi quan hệ, cung cấp cho họ khả năng mở rộng bộ nhớ/lưu trữ và nghiên cứu theo bất kỳ hướng nào mà không cần chuyển dự án sang các cấu trúc khác nhau. Mặc dù các hệ thống SQL có thể hỗ trợ cơ sở dữ liệu đồ thị, đặc biệt là với những cải tiến gần đây, nhưng kiến ​​trúc NoSQL thường hiệu quả hơn nhiều. Cần lưu ý rằng cơ sở dữ liệu quan hệ/SQL có thể hoạt động cùng với cơ sở dữ liệu đồ thị NoSQL, cả hai bổ sung cho nhau bằng cách khai thác điểm mạnh của cả hai hệ thống.

Các nguyên tắc cơ bản

Cơ sở dữ liệu đồ thị được thiết kế để gán giá trị bằng nhau cho cả dữ liệu và các mối quan hệ kết nối dữ liệu. Dữ liệu và các mối quan hệ được coi là quan trọng như nhau. Cấu trúc đồ thị (nút và cạnh) được sử dụng để biểu diễn và lưu trữ dữ liệu. Một nút trong cơ sở dữ liệu đồ thị biểu thị bản ghi/đối tượng/thực thể, trong khi cạnh biểu thị mối quan hệ giữa các nút. Truy vấn các mối quan hệ khá nhanh vì chúng được lưu trữ bên trong cơ sở dữ liệu.

Các nút có thể được mô tả như các thực thể trong biểu đồ. Các nút này có thể được gắn thẻ bằng nhãn đại diện cho các vai trò khác nhau trong miền. Nhãn nút cũng có thể được sử dụng để đính kèm siêu dữ liệu (thông tin chỉ mục hoặc nhận dạng) vào một số nút nhất định.

Các cạnh hoặc mối quan hệ cung cấp các kết nối giữa hai thực thể nút. (Ví dụ: Tình nguyện-LỊCH TRÌNH-Ngày trong tuần hoặc Ô tô-CHỈ ĐƯỜNG-Điểm đến.) Các mối quan hệ luôn có một hướng, với nút bắt đầu, nút kết thúc và một loại. Mối quan hệ/cạnh cũng có thể có thuộc tính. Nói chung, các mối quan hệ dựa trên các đặc tính định lượng, chẳng hạn như khoảng cách, trọng lượng, chi phí, xếp hạng, điểm mạnh hoặc khoảng thời gian. Do cách lưu các mối quan hệ, hai nút có thể liên kết bất kỳ loại hoặc số lượng mối quan hệ nào. Mặc dù các mối quan hệ được lưu trữ theo hướng cụ thể nhưng các mối quan hệ này có thể được điều hướng một cách hiệu quả theo một trong hai hướng.

Sử dụng cơ sở dữ liệu đồ thị

Đồ thị có thể được sử dụng trong nhiều ứng dụng hàng ngày, chẳng hạn như biểu diễn bản đồ sợi quang, thiết kế bảng mạch hoặc những thứ đơn giản như đường và phố trên bản đồ. Facebook sử dụng biểu đồ để tạo thành mạng dữ liệu, với các nút đại diện cho một người hoặc một chủ đề và các cạnh đại diện cho các quy trình, hoạt động hoặc phương pháp kết nối các nút.

Lockheed Martin Space sử dụng công nghệ đồ thị để quản lý chuỗi cung ứng, giúp họ dễ dàng phát hiện ra những điểm yếu tiềm ẩn và tăng cường khả năng phục hồi của chuỗi cung ứng. CDAO của họ, Tobin Thomas, đã nêu trong một cuộc phỏng vấn“Hãy nghĩ về vòng đời của cách tạo ra một sản phẩm. Chúng tôi đang sử dụng các công nghệ như biểu đồ để kết nối các mối quan hệ với nhau, nhờ đó chúng tôi có thể thấy vòng đời dựa trên các bộ phận hoặc thành phần cụ thể cũng như mối quan hệ giữa mọi yếu tố.”

Gartner dự đoán rằng thị trường công nghệ đồ thị sẽ tăng lên 3.2 tỷ USD vào năm 2025. Sự phổ biến ngày càng tăng của cơ sở dữ liệu đồ thị một phần là kết quả của các thuật toán được thiết kế tốt giúp việc sắp xếp dữ liệu trở nên dễ dàng hơn nhiều. Khét tiếng Vụ bê bối hồ sơ Panama cung cấp một ví dụ tuyệt vời về cách các thuật toán được sử dụng để tìm kiếm thông tin từ hàng nghìn công ty vỏ bọc. Những cái này vỏ đã cung cấp cho các ngôi sao điện ảnh, tội phạm và chính trị gia, chẳng hạn như cựu thủ tướng Iceland Sigmundur David Gunnlaugsson, một nơi để gửi tiền vào tài khoản ở nước ngoài. Cơ sở dữ liệu đồ thị, với thuật toán, khiến cho việc nghiên cứu các công ty vỏ bọc này trở nên khả thi.

Sự cố với cơ sở dữ liệu đồ thị

Các vấn đề có thể phát sinh khi làm việc với cơ sở dữ liệu đồ thị bao gồm việc sử dụng dữ liệu không chính xác hoặc không nhất quán và học cách viết các truy vấn hiệu quả. Kết quả chính xác dựa trên thông tin chính xác và nhất quán. Nếu dữ liệu đưa vào không đáng tin cậy thì kết quả đưa ra không thể được coi là đáng tin cậy. 

Vấn đề truy vấn dữ liệu này cũng có thể là một vấn đề nếu dữ liệu được lưu trữ sử dụng thuật ngữ không chung chung trong khi truy vấn sử dụng thuật ngữ chung. Ngoài ra, truy vấn phải được thiết kế để đáp ứng yêu cầu của hệ thống.

Dữ liệu không chính xác dựa trên thông tin sai. Lỗi trắng trợn đã được bao gồm. Dữ liệu không chính xác có thể bao gồm sai địa chỉ, sai giới tính hoặc bất kỳ lỗi nào khác. Mặt khác, dữ liệu không nhất quán mô tả tình huống có nhiều bảng trong cơ sở dữ liệu làm việc với cùng một dữ liệu nhưng nhận dữ liệu đó từ các đầu vào khác nhau với các phiên bản hơi khác nhau (lỗi chính tả, chữ viết tắt, v.v.). Sự không nhất quán thường được kết hợp bởi sự dư thừa dữ liệu.

Truy vấn đồ thị thẩm vấn cơ sở dữ liệu đồ thị và các truy vấn này cần phải chính xác, chính xác và được thiết kế để phù hợp với mô hình cơ sở dữ liệu. Các truy vấn cũng nên đơn giản nhất có thể. Truy vấn càng đơn giản thì kết quả của nó càng tập trung chặt chẽ hơn. Truy vấn càng phức tạp thì kết quả càng rộng - và có lẽ càng khó hiểu.

Thực tiễn tốt nhất khi bắt đầu

Vì mục đích nghiên cứu, hầu hết dữ liệu số lượng lớn miễn phí hoặc được mua đều có độ chính xác hợp lý. Dữ liệu không chính xác và không nhất quán có xu hướng là kết quả của lỗi của con người, chẳng hạn như nhân viên bán hàng hoặc người trò chuyện trên trang web hoàn thành các biểu mẫu khác nhau. Đào tạo nhân viên thường xuyên kiểm tra kỹ thông tin của họ (và kiểm tra kỹ công việc của họ trong quá trình đào tạo) có thể khuyến khích những cải tiến đáng kể.

Các truy vấn nên bắt đầu đơn giản và vẫn đơn giản. Nếu nghiên cứu trở nên phức tạp hơn, đừng tạo truy vấn phức tạp hơn. Tạo một truy vấn mới, đơn giản để nghiên cứu riêng biệt. CrowdStrike cung cấp một ví dụ hữu ích về giá trị của các truy vấn đơn giản khi họ phát triển công cụ phân tích bảo mật, Threat Strike. Tác giả CrowdStrike Marcus King và Ralph Caraveo đã viết:

“Khi bắt đầu dự án này, vấn đề chính mà chúng tôi cần giải quyết là quản lý một khối lượng dữ liệu cực lớn với tốc độ ghi rất khó dự đoán. Vào thời điểm đó, chúng tôi cần phân tích vài triệu sự kiện mỗi ngày – một con số mà chúng tôi biết sẽ tăng lên và hiện đã lên tới hàng trăm tỷ. Dự án rất khó khăn, đó là lý do tại sao chúng tôi quyết định lùi lại và không nghĩ đến cách mở rộng quy mô mà là cách đơn giản hóa. Chúng tôi xác định rằng bằng cách tạo một lược đồ dữ liệu cực kỳ đơn giản, chúng tôi sẽ có thể tạo ra một nền tảng mạnh mẽ và linh hoạt để xây dựng. Vì vậy, nhóm của chúng tôi tập trung vào việc lặp lại và tinh chỉnh cho đến khi chúng tôi thu gọn kiến ​​trúc thành một thứ đủ đơn giản để có thể mở rộng quy mô gần như vô tận.”

Trí tuệ nhân tạo, học máy và cơ sở dữ liệu đồ thị

Những cải tiến về đồ thị được áp dụng cho trí tuệ nhân tạo đang cải thiện độ chính xác và tốc độ mô hình hóa.

An Nền tảng AI việc hợp nhất với cơ sở dữ liệu đồ thị đã được chứng minh là có thể nâng cao thành công các mô hình học máy, phát huy tiềm năng cho các quy trình ra quyết định phức tạp. Công nghệ đồ thị dường như kết hợp khá tốt với trí tuệ nhân tạo và học máy, giúp mối quan hệ dữ liệu trở nên đơn giản hơn, có thể mở rộng hơn và hiệu quả hơn.

Amazon đã chuyển sự chú ý của mình sang việc sử dụng học máy để phân loại các nút và cạnh dựa trên thuộc tính của chúng. Quá trình này cũng có thể được sử dụng để dự đoán các kết nối có thể xảy ra nhất. Một số phiên bản này công nghệ học máy/đồ thị tùy chọn bao gồm bản đồ của thế giới vật chất, chẳng hạn như nghiên cứu các tuyến đường tốt nhất để đi từ nơi này đến nơi khác. Một số phiên bản tập trung vào các nhiệm vụ trừu tượng hơn – ví dụ: tổng hợp kiến ​​thức – và sử dụng các mô hình đồ thị dựa trên văn bản hoặc mạng khái niệm.

Cơ sở dữ liệu đồ thị hiện tại đã phát triển đến mức chúng có khả năng giải quyết một số thách thức phức tạp hơn của ngành viễn thông. Chống gian lận là một thách thức đã trở thành ưu tiên hàng đầu, trong đó AI và học máy trở thành lựa chọn hàng đầu để vượt qua các mối đe dọa. Cơ sở dữ liệu đồ thị đang được sử dụng để hỗ trợ các kỹ thuật phân tích được AI và máy học sử dụng trong việc chống gian lận.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img