Logo Zephyrnet

Sơ đồ tri thức 101: Câu chuyện (và lợi ích) đằng sau sự cường điệu – DATAVERSITY

Ngày:

Sơ đồ tri thức, mặc dù không nổi tiếng như các dịch vụ quản lý dữ liệu khác, nhưng là một giải pháp năng động và có thể mở rộng đã được chứng minh để giải quyết các yêu cầu quản lý dữ liệu của doanh nghiệp trên một số ngành dọc. Là trung tâm dữ liệu, siêu dữ liệu và nội dung, chúng cung cấp cái nhìn thống nhất, nhất quán và rõ ràng về dữ liệu nằm rải rác trên các hệ thống khác nhau. Sử dụng kiến ​​thức toàn cầu làm bối cảnh để diễn giải và làm nguồn để làm giàu, họ cũng tối ưu hóa thông tin độc quyền để các tổ chức có thể nâng cao khả năng ra quyết định và nhận ra mối tương quan chưa có trước đây giữa các tài sản dữ liệu của họ. 

Các tổ chức đã biết dữ liệu họ cần quản lý quá đa dạng, phân tán và với khối lượng không thể đo đếm được chỉ một thập kỷ trước. Điều này thường khiến những hiểu biết sâu sắc về kinh doanh và các cơ hội bị mất đi giữa sự phức tạp rối rắm của dữ liệu và nội dung vô nghĩa, bị che giấu. Sơ đồ tri thức giúp khắc phục những thách thức này bằng cách thống nhất quyền truy cập dữ liệu, cung cấp khả năng tích hợp dữ liệu linh hoạt và tự động hóa việc quản lý dữ liệu. Việc sử dụng biểu đồ tri thức có tác động to lớn đến các hệ thống và quy trình khác nhau, đó là lý do tại sao Garner dự đoán rằng đến năm 2025, công nghệ đồ thị sẽ được sử dụng trong 80% đổi mới về dữ liệu và phân tích, tăng từ 10% vào năm 2021, tạo điều kiện thuận lợi cho việc ra quyết định nhanh chóng trên toàn doanh nghiệp. 

Sơ đồ tri thức được xác định và tại sao ngữ nghĩa (và bản thể học) lại quan trọng

Theo Wikipedia, biểu đồ tri thức là một cơ sở tri thức sử dụng mô hình dữ liệu hoặc cấu trúc liên kết có cấu trúc biểu đồ để biểu diễn và vận hành trên dữ liệu. Trung tâm của biểu đồ tri thức là một mô hình tri thức – một tập hợp các mô tả được liên kết với nhau về các khái niệm, thực thể, mối quan hệ và sự kiện trong đó:

  • Mô tả có ngữ nghĩa chính thức cho phép cả con người và máy tính xử lý chúng một cách hiệu quả và rõ ràng
  • Các mô tả đóng góp lẫn nhau, tạo thành một mạng lưới, trong đó mỗi thực thể đại diện cho một phần mô tả của các thực thể liên quan đến nó
  • Dữ liệu đa dạng được kết nối và mô tả bằng siêu dữ liệu ngữ nghĩa theo mô hình tri thức

Bằng cách tạo ra một mô tả ngữ nghĩa chung, biểu đồ tri thức cho phép mức độ trừu tượng cao hơn mà không phụ thuộc vào cơ sở hạ tầng vật lý hoặc định dạng của dữ liệu. Đôi khi được gọi là kết cấu dữ liệu, nó cung cấp một cách thống nhất, thân thiện với con người và có ý nghĩa để truy cập và tích hợp dữ liệu bên trong và bên ngoài. Bằng cách sử dụng siêu dữ liệu ngữ nghĩa, biểu đồ tri thức cung cấp cái nhìn nhất quán về dữ liệu doanh nghiệp đa dạng, liên kết kiến ​​thức rải rác trên các hệ thống và các bên liên quan khác nhau. 

Với sự trợ giúp của xử lý ngôn ngữ tự nhiên (NLP), tài liệu văn bản cũng có thể được tích hợp với biểu đồ tri thức. Vì nhiều nhà nghiên cứu cho rằng khoảng 75-85% kiến ​​thức của một tổ chức bị khóa trong các tài liệu tĩnh, giá trị to lớn và trí tuệ đang bị bỏ lỡ. Đường dẫn NLP được hưởng lợi rất nhiều vì các phương pháp phân tích văn bản phức tạp có thể được sử dụng khi kết hợp học máy với biểu đồ tri thức. Sơ đồ tri thức cũng rất cần thiết cho bất kỳ AI ngữ nghĩa nào và chiến lược AI có thể giải thích được.

Bản thể học đều quan trọng như nhau vì chúng đại diện cho xương sống của ngữ nghĩa hình thức của biểu đồ tri thức. Là lược đồ dữ liệu của biểu đồ, chúng đóng vai trò như một hợp đồng giữa các nhà phát triển biểu đồ tri thức và người dùng về ý nghĩa của dữ liệu. Người dùng có thể là một người khác hoặc một ứng dụng phần mềm cần diễn giải dữ liệu một cách đáng tin cậy và chính xác. Các ontology đảm bảo sự hiểu biết chung về dữ liệu và ý nghĩa của nó. Khi ngữ nghĩa hình thức được sử dụng để thể hiện và diễn giải dữ liệu của biểu đồ tri thức, có một số công cụ biểu diễn và mô hình hóa: 

  • Các lớp học: Thông thường, một mô tả thực thể chứa phân loại thực thể liên quan đến hệ thống phân cấp lớp. Ví dụ: khi xử lý tin tức chung hoặc thông tin kinh doanh, có thể có các lớp bao gồm Người, Tổ chức và Địa điểm. Các cá nhân, tổ chức có thể có một đại lý cấp trên chung. Vị trí thường có nhiều lớp con, ví dụ: Quốc gia, Nơi đông dân cư, Thành phố, v.v. 
  • Các mối quan hệ: Các mối quan hệ giữa các thực thể thường được gắn thẻ với các loại, cung cấp thông tin về bản chất của mối quan hệ, ví dụ: bạn bè, người thân, đối thủ cạnh tranh, v.v. 
  • DANH MỤC: Một thực thể có thể được liên kết với các danh mục mô tả một số khía cạnh ngữ nghĩa của nó, ví dụ: “Nhà tư vấn lớn” hoặc “Nhà soạn nhạc thế kỷ 19”. Một cuốn sách có thể đồng thời thuộc tất cả các danh mục sau: “Sách về Châu Phi”, “Sách bán chạy nhất”, “Sách của tác giả Ý”, “Sách dành cho trẻ em”, v.v. Thông thường các danh mục được mô tả và sắp xếp theo phân loại. 
  • Văn bản miễn phí: Có thể thêm “văn bản thân thiện với con người” để làm rõ hơn ý định thiết kế cho thực thể và cải thiện khả năng tìm kiếm.

Sơ đồ tri thức trong Khung mô tả tài nguyên (RDF)

Khung mô tả tài nguyên là một tiêu chuẩn để mô tả các tài nguyên web và trao đổi dữ liệu, được phát triển và tiêu chuẩn hóa bởi World Wide Web Consortium (W3C). Ngoài RDF, mô hình biểu đồ thuộc tính được gắn nhãn (LPG) cung cấp phần giới thiệu ngắn gọn về việc quản lý dữ liệu biểu đồ. LPG thường chiếm được cảm tình của các nhà phát triển nếu dữ liệu cần được thu thập đặc biệt và phân tích biểu đồ được thực hiện trong quá trình của một dự án duy nhất và sau đó biểu đồ sẽ bị loại bỏ. Thật không may, nền tảng công nghệ xung quanh LPG thiếu lược đồ tiêu chuẩn hoặc ngôn ngữ mô hình hóa và ngôn ngữ truy vấn, đồng thời không có quy định nào về ngữ nghĩa chính thức và thông số kỹ thuật tương tác (ví dụ: không có định dạng tuần tự hóa, giao thức liên kết, v.v.).

Trong khi RDF chỉ cho phép đưa ra các tuyên bố về các nút, RDF-Star cho phép một người đưa ra các tuyên bố về các tuyên bố khác và theo cách này đính kèm siêu dữ liệu để mô tả một cạnh trong biểu đồ như điểm số, trọng số, khía cạnh thời gian và xuất xứ. Nhìn chung, biểu đồ tri thức, được biểu thị bằng RDF, cung cấp khuôn khổ tốt nhất để tích hợp, thống nhất, liên kết và tái sử dụng dữ liệu vì chúng kết hợp những điều sau:

  1. Tính biểu cảm: Các tiêu chuẩn trong ngăn xếp Web ngữ nghĩa – RDF(s) và OWL – cho phép trình bày trôi chảy nhiều loại dữ liệu và nội dung khác nhau: lược đồ dữ liệu, phân loại, từ vựng, tất cả các loại siêu dữ liệu, tham chiếu và dữ liệu chính. Tiện ích mở rộng RDF-star giúp dễ dàng lập mô hình xuất xứ và siêu dữ liệu có cấu trúc khác. 
  2. Ngữ nghĩa hình thức: Tất cả các tiêu chuẩn trong ngăn xếp Web ngữ nghĩa đều đi kèm với ngữ nghĩa được xác định rõ ràng, cho phép con người và máy tính diễn giải lược đồ, bản thể luận và dữ liệu một cách rõ ràng. 
  3. Hiệu suất: Tất cả các thông số kỹ thuật đã được nghĩ ra và chứng minh là cho phép quản lý hiệu quả đồ thị của hàng tỷ sự kiện và thuộc tính.
  4. Khả năng tương tác: Có một loạt các thông số kỹ thuật cho việc tuần tự hóa, truy cập dữ liệu (Giao thức SPARQL cho điểm cuối), quản lý (Cửa hàng đồ thị SPARQL) và liên kết. Việc sử dụng mã định danh duy nhất trên toàn cầu tạo điều kiện thuận lợi cho việc tích hợp và xuất bản dữ liệu. 
  5. Tiêu chuẩn hóa: Tất cả những điều trên được tiêu chuẩn hóa thông qua quy trình của cộng đồng W3C, để đảm bảo đáp ứng yêu cầu của các tác nhân khác nhau – từ các nhà logic học đến các chuyên gia quản lý dữ liệu doanh nghiệp và các nhóm vận hành hệ thống. 

Tuy nhiên, điều quan trọng cần lưu ý là không phải mọi biểu đồ RDF đều là biểu đồ tri thức. Ví dụ: một tập hợp dữ liệu thống kê, ví dụ: dữ liệu GDP của các quốc gia, được biểu thị trong RDF không phải là biểu đồ tri thức. Việc biểu diễn dữ liệu bằng biểu đồ thường hữu ích nhưng có thể không cần thiết phải nắm bắt được kiến ​​thức ngữ nghĩa của dữ liệu. Cũng có thể là đủ nếu một ứng dụng chỉ cần có chuỗi “Ý” được liên kết với chuỗi “GDP” và số “1.95 nghìn tỷ USD” mà không cần xác định quốc gia là gì hoặc Tổng sản phẩm quốc nội của một quốc gia là gì. 

Chính các kết nối và biểu đồ tạo nên biểu đồ tri thức chứ không phải ngôn ngữ được sử dụng để biểu diễn dữ liệu. Đặc điểm chính của biểu đồ tri thức là các mô tả thực thể phải được liên kết với nhau. Định nghĩa của một thực thể bao gồm một thực thể khác. Liên kết này là cách biểu đồ hình thành (ví dụ: A là B; B là C; C có D; A có D). Cơ sở tri thức không có cấu trúc chính thức và ngữ nghĩa, ví dụ: “cơ sở tri thức” Hỏi & Đáp về một sản phẩm phần mềm, cũng không thể hiện biểu đồ tri thức. Có thể có một hệ thống chuyên gia có tập hợp dữ liệu được tổ chức theo định dạng không phải là biểu đồ mà sử dụng các quy trình suy luận tự động như một bộ quy tắc “nếu-thì” để tạo điều kiện cho việc phân tích. 

Sơ đồ tri thức cũng không phải là phần mềm. Đúng hơn, biểu đồ tri thức là một cách để tổ chức và thu thập dữ liệu cũng như siêu dữ liệu nhằm đáp ứng các tiêu chí và phục vụ các mục đích cụ thể, do đó được các phần mềm khác nhau sử dụng. Dữ liệu của một biểu đồ tri thức có thể được sử dụng trong nhiều hệ thống độc lập cho các mục đích khác nhau.

Sơ đồ tri thức và quản lý dữ liệu thời gian thực

Nhu cầu về dữ liệu của chúng tôi đã đẩy các phương pháp quản lý dữ liệu truyền thống vượt quá giới hạn của chúng. Có rất nhiều lượng dữ liệu, nhiều hơn mỗi ngày và tất cả dữ liệu đó cần được xử lý, hiểu và làm cho hữu ích. Nó cần phải đáng tin cậy và được thực hiện trong thời gian thực bất kể nó đến từ nguồn bên trong hay bên ngoài. Xét cho cùng, giá trị của dữ liệu phụ thuộc hoàn toàn vào khả năng tận dụng việc sử dụng nó. Đây là bài học mà các tổ chức đang nhanh chóng học hỏi khi họ tìm cách giảm chi phí phát triển và bảo trì, đồng thời đánh giá cao những lợi thế và doanh thu thu được bằng cách quản lý dữ liệu tổ chức một cách thông minh. Hệ sinh thái dữ liệu ngày nay cũng mang tính toàn cầu. 

Sơ đồ tri thức có thể giải quyết sự đa dạng của chúng và sự thiếu kiểm soát tập trung vì đây là mô hình phù hợp với hệ sinh thái dữ liệu toàn cầu bao gồm mọi tổ chức. Tốt hơn nữa, khi thông tin, sự hiểu biết và nhu cầu của tổ chức từ thông tin đó thay đổi thì biểu đồ tri thức cũng thay đổi. Dữ liệu được biểu thị bằng biểu đồ tri thức có ý nghĩa hình thức nghiêm ngặt mà cả con người và máy móc đều có thể giải thích được. Ý nghĩa đó giúp con người có thể sử dụng nó nhưng cũng cho phép suy luận tự động để giúp máy tính giảm bớt một số gánh nặng. Với biểu đồ tri thức, các tổ chức có thể thay đổi, cắt bớt và điều chỉnh lược đồ trong khi vẫn giữ nguyên dữ liệu và sử dụng lại dữ liệu đó để thu được nhiều thông tin chi tiết hơn.

Nhiều năm trước, chúng tôi đã chuyển từ thuật ngữ thông dụng Dữ liệu lớn sang Dữ liệu thông minh. Việc có lượng dữ liệu chưa từng có đã thúc đẩy nhu cầu có một mô hình dữ liệu phản ánh sự hiểu biết phức tạp của chúng ta về thông tin. Để làm cho dữ liệu trở nên thông minh hơn, máy móc không còn bị ràng buộc bởi các lược đồ dữ liệu thiếu linh hoạt và dễ vỡ. Họ cần những kho dữ liệu có thể đại diện cho thế giới thực và những mối quan hệ rối rắm mà nó đòi hỏi. Tất cả điều này cần phải được thực hiện theo cách máy có thể đọc được với ngữ nghĩa chính thức để cho phép lập luận tự động nhằm bổ sung và tạo điều kiện thuận lợi cho chuyên môn và việc ra quyết định của con người. 

Các biểu đồ tri thức được thể hiện trong RDF cung cấp điều này cũng như nhiều ứng dụng trong các dịch vụ nặng về dữ liệu và thông tin. Ví dụ bao gồm nội dung thông minh, cách đóng gói và tái sử dụng; đề xuất nội dung đáp ứng và nhận biết theo ngữ cảnh; khám phá kiến ​​thức tự động; tìm kiếm ngữ nghĩa; và các tác nhân thông minh. Nó cũng có thể hỗ trợ những việc như lập hồ sơ và xếp hạng công ty; khám phá thông tin trong các văn bản quy định; và giám sát tài liệu cảnh giác dược. 

Nói một cách đơn giản, biểu đồ tri thức giúp doanh nghiệp đưa ra các quyết định quan trọng dựa trên các mô hình tri thức hài hòa và dữ liệu thu được từ các hệ thống nguồn riêng biệt. Chúng cũng cung cấp khả năng mở rộng và ngữ nghĩa riêng cho phép tiếp cận dữ liệu hiệu quả, cụ thể và đáp ứng, bao gồm bảo mật và quản trị, quản lý quyền sở hữu và xuất xứ. 

tại chỗ_img

Tin tức mới nhất

tại chỗ_img