Logo Zephyrnet

Wykresy wiedzy 101: Historia (i korzyści) kryjąca się za szumem – DATAVERSITY

Data:

Wykresy wiedzy, choć nie są tak dobrze znane jak inne produkty do zarządzania danymi, są sprawdzonym, dynamicznym i skalowalnym rozwiązaniem spełniającym wymagania dotyczące zarządzania danymi w przedsiębiorstwach w kilku branżach. Jako centrum danych, metadanych i treści zapewniają ujednolicony, spójny i jednoznaczny widok danych rozproszonych w różnych systemach. Wykorzystując wiedzę globalną jako kontekst do interpretacji i źródło wzbogacenia, optymalizują także zastrzeżone informacje, dzięki czemu organizacje mogą usprawnić proces podejmowania decyzji i uświadomić sobie niedostępne wcześniej korelacje między swoimi zasobami danych. 

Organizacje już wiedzą, że dane, którymi muszą zarządzać, są zbyt zróżnicowane, rozproszone i w ilościach niewyobrażalnych jeszcze dziesięć lat temu. Często powoduje to utratę wiedzy i możliwości biznesowych w splątanej złożoności bezsensownych, izolowanych danych i treści. Wykresy wiedzy pomagają pokonać te wyzwania, ujednolicając dostęp do danych, zapewniając elastyczną integrację danych i automatyzując zarządzanie danymi. Wykorzystanie grafów wiedzy ma ogromny wpływ na różne systemy i procesy i dlatego Garner przewiduje że do 2025 r. technologie graficzne będą wykorzystywane w 80% innowacji w zakresie danych i analityki, w porównaniu z 10% w 2021 r., co ułatwi szybkie podejmowanie decyzji w całym przedsiębiorstwie. 

Definicja wykresów wiedzy i znaczenie semantyki (i ontologii).

Zgodnie z Wikipediagraf wiedzy to baza wiedzy, która wykorzystuje model danych lub topologię o strukturze grafowej do reprezentowania danych i operowania na nich. Sercem wykresu wiedzy jest model wiedzy – zbiór powiązanych ze sobą opisów pojęć, bytów, relacji i zdarzeń, gdzie:

  • Opisy mają formalną semantykę, która pozwala zarówno ludziom, jak i komputerom przetwarzać je efektywnie i jednoznacznie
  • Opisy uzupełniają się wzajemnie, tworząc sieć, w której każdy byt reprezentuje część opisu bytów z nim powiązanych
  • Zróżnicowane dane są łączone i opisywane za pomocą metadanych semantycznych zgodnie z modelem wiedzy

Tworząc wspólny opis semantyczny, wykres wiedzy umożliwia wyższy poziom abstrakcji, który nie opiera się na infrastrukturze fizycznej ani formacie danych. Czasami określany jako struktura danychzapewnia ujednolicony, przyjazny dla człowieka i znaczący sposób dostępu do danych wewnętrznych i zewnętrznych oraz ich integrowania. Wykorzystując metadane semantyczne, wykresy wiedzy zapewniają spójny obraz różnorodnych danych przedsiębiorstwa, łącząc wiedzę rozproszoną w różnych systemach i interesariuszach. 

Za pomocą przetwarzania języka naturalnego (NLP) dokumenty tekstowe można również integrować z wykresami wiedzy. Biorąc pod uwagę, że wielu badaczy twierdzi, że 75–85% wiedzy organizacji jest zamknięte w statycznych dokumentach, traci się ogromną wartość i mądrość. Potoki NLP przynoszą ogromne korzyści, ponieważ można zastosować wyrafinowane metody analizy tekstu, łącząc uczenie maszynowe z wykresami wiedzy. Wykresy wiedzy są również niezbędne w przypadku każdej semantycznej sztucznej inteligencji i dającej się wyjaśnić strategii sztucznej inteligencji.

Ontologie są równie ważne, ponieważ stanowią podstawę formalnej semantyki wykresu wiedzy. Jako schemat danych grafu służą one jako umowa pomiędzy twórcami grafu wiedzy a jego użytkownikami dotycząca znaczenia danych. Użytkownikiem może być inny człowiek lub aplikacja, która musi interpretować dane w sposób rzetelny i precyzyjny. Ontologie zapewniają wspólne zrozumienie danych i ich znaczeń. Kiedy do wyrażania i interpretowania danych na wykresie wiedzy używana jest semantyka formalna, istnieje kilka instrumentów do reprezentacji i modelowania: 

  • Zajęcia: Najczęściej opis encji zawiera klasyfikację encji dotyczącą hierarchii klas. Na przykład w przypadku wiadomości ogólnych lub informacji biznesowych mogą istnieć klasy obejmujące osobę, organizację i lokalizację. Osoby i organizacje mogą mieć wspólnego agenta superklasy. Lokalizacja zwykle ma wiele podklas, np. Kraj, Miejsce zaludnione, Miasto itp. 
  • Relacje: Relacje między podmiotami są zwykle oznaczane typami, które dostarczają informacji o charakterze relacji, np. znajomy, krewny, konkurent itp. 
  • Kategorie: Podmiot można powiązać z kategoriami opisującymi jakiś aspekt jego semantyki, np. „konsultanci Wielkiej Czwórki” lub „kompozytorzy XIX wieku”. Książka może należeć jednocześnie do wszystkich kategorii: „Książki o Afryce”, „Bestseller”, „Książki autorów włoskich”, „Książki dla dzieci” itp. Często kategorie są opisywane i porządkowane w taksonomię. 
  • Dowolny tekst: Możliwe jest dodanie „tekstu przyjaznego dla człowieka”, aby jeszcze bardziej wyjaśnić zamierzenia projektowe podmiotu i usprawnić wyszukiwanie.

Grafy wiedzy w ramach opisu zasobów (RDF)

Resource Opis Framework to standard opisu zasobów internetowych i wymiany danych, opracowany i ustandaryzowany przez konsorcjum World Wide Web Consortium (W3C). Oprócz RDF, model wykresu właściwości etykietowanych (LPG) zapewnia lekkie wprowadzenie do zarządzania danymi grafowymi. LPG często zdobywają serca programistów, jeśli dane muszą być zbierane ad hoc, a analiza wykresów jest przeprowadzana w trakcie jednego projektu, a wykres jest później odrzucany. Niestety, w stosie technologicznym dotyczącym LPG brakuje znormalizowanych schematów lub języków modelowania i języków zapytań, a także nie ma przepisów dotyczących formalnej semantyki i specyfikacji interoperacyjności (np. żadnych formatów serializacji, protokołów federacyjnych itp.).

Podczas gdy RDF pozwala na formułowanie stwierdzeń tylko o węzłach, RDF-Star pozwala na formułowanie stwierdzeń na temat innych stwierdzeń i w ten sposób dołączanie metadanych opisujących krawędź na wykresie, takich jak wyniki, wagi, aspekty czasowe i pochodzenie. Podsumowując, wykresy wiedzy reprezentowane w formacie RDF zapewniają najlepsze ramy dla integracji, unifikacji, łączenia i ponownego wykorzystania danych, ponieważ łączą w sobie następujące elementy:

  1. Ekspresyjność: Standardy stosu Semantic Web – RDF(s) i OWL – pozwalają na płynną reprezentację różnych typów danych i treści: schematów danych, taksonomii, słowników, wszelkiego rodzaju metadanych, referencji i danych podstawowych. Rozszerzenie RDF-star ułatwia modelowanie pochodzenia i innych ustrukturyzowanych metadanych. 
  2. Semantyka formalna: Wszystkie standardy w stosie Semantic Web mają dobrze określoną semantykę, która umożliwia ludziom i komputerom jednoznaczną interpretację schematów, ontologii i danych. 
  3. Wydajność:  Wszystkie specyfikacje zostały przemyślane i sprawdzone, aby umożliwić efektywne zarządzanie wykresami miliardów faktów i właściwości.
  4. Interoperacyjność: Istnieje szereg specyfikacji dotyczących serializacji danych, dostępu (protokół SPARQL dla punktów końcowych), zarządzania (SPARQL Graph Store) i federacji. Stosowanie unikalnych w skali globalnej identyfikatorów ułatwia integrację i publikację danych. 
  5. Normalizacja: Wszystko powyższe jest standaryzowane poprzez proces społeczności W3C, aby mieć pewność, że wymagania różnych aktorów zostaną spełnione – od logików po specjalistów ds. zarządzania danymi w przedsiębiorstwie i zespoły operacyjne systemu. 

Należy jednak pamiętać, że nie każdy wykres RDF jest wykresem wiedzy. Na przykład zbiór danych statystycznych, np. dane dotyczące PKB krajów, reprezentowany w RDF, nie jest wykresem wiedzy. Grafowa reprezentacja danych jest często przydatna, ale uchwycenie wiedzy semantycznej o danych może nie być konieczne. Może również wystarczyć, aby aplikacja zawierała ciąg „Włochy” powiązany z ciągiem „PKB” i liczbą „1.95 biliona dolarów” bez konieczności definiowania, jakie to kraje lub jaki jest produkt krajowy brutto danego kraju. 

To powiązania i wykres tworzą wykres wiedzy, a nie język używany do reprezentacji danych. Kluczową cechą grafu wiedzy jest to, że opisy jednostek powinny być ze sobą powiązane. Definicja jednego podmiotu obejmuje inny podmiot. Dzięki temu powiązaniu powstaje graf (np. A to B, B to C, C ma D, A ma D). Bazy wiedzy bez formalnej struktury i semantyki, np. „baza wiedzy” pytań i odpowiedzi na temat oprogramowania, również nie stanowią grafu wiedzy. Możliwe jest posiadanie systemu eksperckiego, którego zbiór danych jest zorganizowany w formacie innym niż wykres, ale wykorzystuje zautomatyzowane procesy dedukcyjne, takie jak zestaw reguł „jeśli-to” w celu ułatwienia analizy. 

Wykresy wiedzy również nie są oprogramowaniem. Wykres wiedzy to raczej sposób organizowania i gromadzenia danych i metadanych w celu spełnienia kryteriów i służenia określonym celom, który z kolei jest używany przez różne oprogramowanie. Dane jednego wykresu wiedzy można wykorzystać w wielu niezależnych systemach do różnych celów.

Grafy wiedzy i zarządzanie danymi w czasie rzeczywistym

Wymagania stawiane naszym danym sprawiły, że tradycyjne podejścia do zarządzania danymi przekroczyły swoje granice. Dane są ogromne, każdego dnia coraz więcej, a wszystkie wymagają przetworzenia, zrozumienia i uczynienia ich użytecznymi. Musi być niezawodny i realizowany w czasie rzeczywistym, niezależnie od tego, czy pochodzi ze źródeł wewnętrznych, czy zewnętrznych. W końcu wartość danych zależy całkowicie od umiejętności ich wykorzystania. Jest to lekcja, której organizacje szybko się uczą, starając się obniżyć koszty rozwoju i utrzymania oraz doceniając korzyści i przychody, jakie można uzyskać dzięki inteligentnemu zarządzaniu danymi organizacyjnymi. Dzisiejsze ekosystemy danych mają również charakter globalny. 

Wykresy wiedzy radzą sobie z ich różnorodnością i brakiem scentralizowanej kontroli, ponieważ jest to paradygmat dostosowany do globalnego ekosystemu danych, który obejmuje każdą organizację. Co więcej, w miarę jak zmieniają się informacje oraz zrozumienie i potrzeby organizacji wynikające z tych informacji, zmienia się także wykres wiedzy. Dane reprezentowane przez wykres wiedzy mają ściśle formalne znaczenie, które mogą zinterpretować zarówno ludzie, jak i maszyny. Znaczenie to sprawia, że ​​jest on użyteczny dla człowieka, ale także umożliwia zautomatyzowane rozumowanie, dzięki któremu komputery mogą zmniejszyć część obciążeń. Dzięki wykresom wiedzy organizacje mogą zmieniać, oczyszczać i dostosowywać schemat, zachowując dane w niezmienionym stanie i ponownie wykorzystując je do uzyskiwania jeszcze większej liczby spostrzeżeń.

Wiele lat temu odeszliśmy od modnego hasła Big Data na rzecz inteligentnych danych. Posiadanie bezprecedensowych ilości danych spowodowało potrzebę posiadania modelu danych, który odzwierciedlałby nasze złożone rozumienie informacji. Aby dane stały się inteligentne, maszyny nie mogły być już ograniczone sztywnymi i kruchymi schematami danych. Potrzebowali repozytoriów danych, które mogłyby reprezentować rzeczywisty świat i splątane relacje z nim związane. Wszystko to należało wykonać w sposób nadający się do odczytu maszynowego, z formalną semantyką, aby umożliwić zautomatyzowane rozumowanie, które uzupełniało i ułatwiało ludzką wiedzę specjalistyczną i podejmowanie decyzji. 

Wykresy wiedzy wyrażone w formacie RDF zapewniają to, a także liczne zastosowania w usługach wymagających dużej ilości danych i informacji. Przykłady obejmują inteligentne treści, opakowania i ponowne wykorzystanie; responsywne i świadome kontekstowo rekomendowanie treści; zautomatyzowane odkrywanie wiedzy; wyszukiwanie semantyczne; i inteligentnych agentów. Może również wspierać takie rzeczy, jak profilowanie i ranking firm; odkrywanie informacji w dokumentach regulacyjnych; oraz monitorowanie literatury dotyczącej nadzoru nad bezpieczeństwem farmakoterapii. 

Mówiąc prościej, wykresy wiedzy pomagają firmom podejmować krytyczne decyzje w oparciu o zharmonizowane modele wiedzy i dane pochodzące z izolowanych systemów źródłowych. Zapewniają również natywną skalowalność i semantykę, które umożliwiają wydajne, specyficzne i responsywne podejście do danych, w tym bezpieczeństwo i zarządzanie, zarządzanie własnością i pochodzeniem. 

spot_img

Najnowsza inteligencja

spot_img