제퍼넷 로고

지식 그래프 101: 과대광고 뒤에 숨겨진 이야기(및 이점) – DATAVERSITY

시간

지식 그래프는 다른 데이터 관리 제품만큼 잘 알려져 있지는 않지만 여러 업종에 걸쳐 기업 데이터 관리 요구 사항을 해결하기 위한 입증된 동적이며 확장 가능한 솔루션입니다. 데이터, 메타데이터 및 콘텐츠의 허브로서 다양한 시스템에 분산된 데이터에 대한 통합되고 일관되며 명확한 보기를 제공합니다. 해석을 위한 맥락과 강화를 위한 소스로 글로벌 지식을 사용하여 독점 정보를 최적화하므로 조직은 의사 결정을 강화하고 이전에는 불가능했던 데이터 자산 간의 상관 관계를 실현할 수 있습니다. 

불과 10년 전만 해도 조직에서는 관리해야 하는 데이터가 너무 다양하고 분산되어 있으며 그 규모가 가늠할 수 없을 만큼 크다는 것을 이미 알고 있습니다. 이로 인해 무의미하고 고립된 데이터와 콘텐츠가 복잡하게 얽혀 비즈니스 통찰력과 기회를 놓치는 경우가 많습니다. 지식 그래프는 데이터 액세스 통합, 유연한 데이터 통합 ​​제공, 데이터 관리 자동화를 통해 이러한 과제를 극복하는 데 도움이 됩니다. 지식 그래프의 사용은 다양한 시스템과 프로세스에 막대한 영향을 미칩니다. 가너는 예측한다 2025년까지 그래프 기술은 데이터 및 분석 혁신의 80%에 사용될 것이며 이는 10년의 2021%에서 증가하여 기업 전반에 걸쳐 신속한 의사 결정을 촉진할 것입니다. 

지식 그래프 정의 및 의미론(및 온톨로지)이 중요한 이유

에 따르면 위키 백과에서 지식 그래프는 그래프 구조의 데이터 모델이나 토폴로지를 사용하여 데이터를 표현하고 조작하는 지식 기반입니다. 지식 그래프의 핵심은 지식 모델입니다. 이는 개념, 엔터티, 관계 및 이벤트에 대한 상호 연결된 설명 모음입니다.

  • 설명에는 사람과 컴퓨터 모두가 설명을 효율적이고 명확하게 처리할 수 있도록 하는 공식적인 의미가 있습니다.
  • 설명은 서로 기여하여 네트워크를 형성합니다. 여기서 각 엔터티는 관련 엔터티 설명의 일부를 나타냅니다.
  • 지식 모델에 따라 다양한 데이터를 의미 메타데이터로 연결하고 기술합니다.

공통 의미론적 설명을 생성함으로써 지식 그래프는 물리적 인프라나 데이터 형식에 의존하지 않는 더 높은 수준의 추상화를 가능하게 합니다. 때로는 데이터 패브릭, 이는 내부 및 외부 데이터에 액세스하고 통합하는 통합되고 인간 친화적이며 의미 있는 방법을 제공합니다. 의미론적 메타데이터를 사용하는 지식 그래프는 다양한 기업 데이터에 대한 일관된 보기를 제공하고 다양한 시스템과 이해관계자에 분산되어 있는 지식을 상호 연결합니다. 

자연어 처리(NLP)의 도움으로 텍스트 문서를 지식 그래프와 통합할 수도 있습니다. 많은 연구자들이 조직 지식의 75~85%가 정적인 문서에 갇혀 있다고 말한다는 점을 고려하면 엄청난 가치와 지혜가 간과되고 있는 것입니다. 기계 학습과 지식 그래프를 결합할 때 정교한 텍스트 분석 방법을 사용할 수 있으므로 NLP 파이프라인은 엄청난 이점을 제공합니다. 지식 그래프는 의미론적 AI와 설명 가능한 AI 전략에도 필수적입니다.

온톨로지 지식 그래프의 형식적 의미의 중추를 나타내기 때문에 똑같이 중요합니다. 그래프의 데이터 스키마로서 데이터의 의미에 관해 지식 그래프 개발자와 사용자 간의 계약 역할을 합니다. 사용자는 신뢰할 수 있고 정확한 방식으로 데이터를 해석해야 하는 다른 사람일 수도 있고 소프트웨어 애플리케이션일 수도 있습니다. 온톨로지는 데이터와 그 의미에 대한 공유된 이해를 보장합니다. 형식적 의미론을 사용하여 지식 그래프의 데이터를 표현하고 해석하는 경우 몇 가지 표현 및 모델링 도구가 있습니다. 

  • 클래스 : 대부분의 경우 엔터티 설명에는 클래스 계층 구조와 관련된 엔터티 분류가 포함됩니다. 예를 들어 일반적인 뉴스나 비즈니스 정보를 다룰 때 Person, Organization, Location을 포함하는 클래스가 있을 수 있습니다. 개인과 조직은 공통의 슈퍼클래스 에이전트를 가질 수 있습니다. 위치에는 일반적으로 국가, 인구 거주지, 도시 등 다양한 하위 클래스가 있습니다. 
  • 관계 : 엔터티 간의 관계에는 일반적으로 친구, 친척, 경쟁자 등 관계의 성격에 대한 정보를 제공하는 유형으로 태그가 지정됩니다. 
  • 카테고리 : 엔터티는 의미론의 일부 측면을 설명하는 카테고리(예: "4대 컨설턴트" 또는 "19세기 작곡가")와 연관될 수 있습니다. 책은 "아프리카에 관한 책", "베스트셀러", "이탈리아 작가의 책", "어린이를 위한 책" 등 모든 범주에 동시에 속할 수 있습니다. 종종 범주가 설명되고 분류 체계로 정렬됩니다. 
  • 무료 문자: 엔터티에 대한 디자인 의도를 더욱 명확하게 하고 검색 기능을 향상시키기 위해 "인간 친화적인 텍스트"를 추가할 수 있습니다.

자원 설명 프레임워크의 지식 그래프 (RDF)

Resource Description Framework는 W3C(World Wide Web Consortium)에서 개발하고 표준화한 웹 리소스 및 데이터 교환을 설명하기 위한 표준입니다. RDF 외에도 LPG(레이블 속성 그래프) 모델은 그래프 데이터 관리에 대한 간단한 소개를 제공합니다. 데이터를 임시로 수집해야 하고 단일 프로젝트 과정에서 그래프 분석을 수행하며 나중에 그래프를 삭제해야 하는 경우 LPG가 개발자의 마음을 사로잡는 경우가 많습니다. 불행하게도 LPG 주변의 기술 스택에는 표준화된 스키마나 모델링 언어, 쿼리 언어가 부족하고 공식적인 의미 체계 및 상호 운용성 사양에 대한 조항이 없습니다(예: 직렬화 형식, 연합 프로토콜 등 없음).

RDF는 노드에 대해서만 진술을 허용하는 반면, RDF-Star를 사용하면 다른 진술에 대해 진술을 할 수 있으며 이러한 방식으로 메타데이터를 첨부하여 점수, 가중치, 시간적 측면 및 출처와 같은 그래프의 에지를 설명할 수 있습니다. 전체적으로 RDF로 표현된 지식 그래프는 다음을 결합하므로 데이터 통합, 단일화, 연결 및 재사용을 위한 최상의 프레임워크를 제공합니다.

  1. 표현력: 시맨틱 웹 스택의 표준(RDF 및 OWL)은 데이터 스키마, 분류, 어휘, 모든 종류의 메타데이터, 참조 및 마스터 데이터 등 다양한 유형의 데이터 및 콘텐츠를 유창하게 표현할 수 있도록 해줍니다. RDF-star 확장을 사용하면 출처 및 기타 구조화된 메타데이터를 쉽게 모델링할 수 있습니다. 
  2. 형식적 의미: 시맨틱 웹 스택의 모든 표준은 인간과 컴퓨터가 스키마, 온톨로지 및 데이터를 명확하게 해석할 수 있도록 잘 지정된 의미 체계와 함께 제공됩니다. 
  3. 성능 : 모든 사양은 수십억 개의 사실과 속성에 대한 그래프를 효율적으로 관리할 수 있도록 고려되었으며 입증되었습니다.
  4. 상호 운용성 : 데이터 직렬화, 액세스(엔드포인트용 SPARQL 프로토콜), 관리(SPARQL 그래프 저장소) 및 연합에 대한 다양한 사양이 있습니다. 전역적으로 고유한 식별자를 사용하면 데이터 통합 ​​및 게시가 용이해집니다. 
  5. 표준화: 위의 모든 사항은 W3C 커뮤니티 프로세스를 통해 표준화되어 논리학자부터 엔터프라이즈 데이터 관리 전문가 및 시스템 운영 팀에 이르기까지 다양한 행위자의 요구 사항이 충족되도록 합니다. 

그러나 모든 RDF 그래프가 지식 그래프는 아니라는 점에 유의하는 것이 중요합니다. 예를 들어, RDF에 표현된 국가의 GDP 데이터와 같은 통계 데이터 세트는 지식 그래프가 아닙니다. 데이터를 그래프로 표현하는 것이 유용한 경우가 많지만 데이터의 의미론적 지식을 포착하는 데는 불필요할 수도 있습니다. 어떤 국가인지 또는 해당 국가의 국내총생산(GDP)이 무엇인지 정의할 필요 없이 애플리케이션이 "GDP" 문자열과 "1.95조 XNUMX억 달러"라는 숫자와 연결된 "이탈리아" 문자열만 갖는 것만으로도 충분할 수 있습니다. 

지식 그래프를 만드는 것은 데이터를 표현하는 데 사용되는 언어가 아니라 연결과 그래프입니다. 지식 그래프의 주요 특징은 개체 설명이 서로 연결되어야 한다는 것입니다. 한 엔터티의 정의에는 다른 엔터티가 포함됩니다. 이러한 연결은 그래프가 형성되는 방식입니다(예: A는 B, B는 C, C는 D, A는 D). 공식적인 구조와 의미가 없는 지식 기반(예: 소프트웨어 제품에 대한 Q&A "지식 기반")도 지식 그래프를 나타내지 않습니다. 그래프가 아닌 형식으로 구성된 데이터 모음을 가지고 있지만 분석을 용이하게 하기 위해 일련의 "if-then" 규칙과 같은 자동화된 연역 프로세스를 사용하는 전문가 시스템을 갖는 것이 가능합니다. 

지식 그래프도 소프트웨어가 아닙니다. 오히려 지식 그래프는 기준을 충족하고 특정 목적을 달성하기 위해 데이터와 메타데이터를 구성하고 수집하여 다른 소프트웨어에서 사용하는 방법입니다. 하나의 지식 그래프 데이터는 여러 독립 시스템에서 다양한 목적으로 사용될 수 있습니다.

지식 그래프 및 실시간 데이터 관리

데이터에 대한 요구로 인해 데이터 관리에 대한 기존 접근 방식이 한계를 넘어섰습니다. 날마다 더 많은 양의 데이터가 존재하며, 이 모든 데이터를 처리하고 이해하고 유용하게 만들어야 합니다. 내부 소스에서 나오든 외부 소스에서 나오든 관계없이 신뢰할 수 있고 실시간으로 수행되어야 합니다. 결국 데이터의 가치는 전적으로 데이터 활용 능력에 달려 있습니다. 이는 조직이 개발 및 유지 관리 비용을 절감하고 조직 데이터를 지능적으로 관리함으로써 얻을 수 있는 이점과 수익을 인식하게 되면서 빠르게 배우고 있는 교훈입니다. 오늘날의 데이터 생태계 역시 글로벌합니다. 

지식 그래프는 모든 조직을 포함하는 글로벌 데이터 생태계에 적합한 패러다임이기 때문에 다양성과 중앙 집중식 제어 부족을 처리할 수 있습니다. 더 좋은 점은 정보와 해당 정보에 대한 조직의 이해 및 요구 사항이 변경됨에 따라 지식 그래프도 변경된다는 것입니다. 지식 그래프로 표현되는 데이터는 인간과 기계 모두가 해석할 수 있는 엄격한 형식적 의미를 갖습니다. 그 의미는 인간이 사용할 수 있게 하지만 자동화된 추론을 통해 컴퓨터가 부담을 어느 정도 완화할 수 있게 해준다는 의미입니다. 지식 그래프를 통해 조직은 데이터를 동일하게 유지하고 재사용하여 더 많은 통찰력을 얻으면서 스키마를 변경, 정리 및 조정할 수 있습니다.

몇 년 전, 우리는 빅 데이터라는 전문 용어에서 스마트 데이터로 옮겨갔습니다. 전례 없는 양의 데이터로 인해 정보에 대한 우리의 복잡한 이해를 반영하는 데이터 모델이 필요하게 되었습니다. 데이터를 스마트하게 만들기 위해 기계는 더 이상 유연하지 않고 부서지기 쉬운 데이터 스키마에 얽매일 수 없습니다. 그들은 현실 세계와 그에 수반되는 복잡한 관계를 표현할 수 있는 데이터 저장소가 필요했습니다. 이 모든 작업은 인간의 전문 지식과 의사 결정을 보완하고 촉진하는 자동화된 추론을 가능하게 하기 위해 공식적인 의미론을 사용하여 기계가 읽을 수 있는 방식으로 수행되어야 했습니다. 

RDF로 표현된 지식 그래프는 이를 제공할 뿐만 아니라 데이터 및 정보 집약적인 서비스에 다양한 애플리케이션을 제공합니다. 그 예로는 지능형 콘텐츠, 패키징, 재사용 등이 있습니다. 반응적이고 상황에 맞는 콘텐츠 추천; 자동화된 지식 발견; 의미 검색; 지능형 에이전트. 또한 회사 프로파일링 및 순위 지정과 같은 기능도 지원할 수 있습니다. 규제 문서의 정보 검색; 및 약물감시 문헌 모니터링. 

간단히 말해서, 지식 그래프는 기업이 조화된 지식 모델과 사일로화된 소스 시스템에서 파생된 데이터를 기반으로 중요한 결정을 내리는 데 도움이 됩니다. 또한 보안 및 거버넌스, 소유권 관리, 출처 관리 등 데이터에 대한 효율적이고 구체적이며 대응적인 접근 방식을 가능하게 하는 기본 확장성과 의미 체계를 제공합니다. 

spot_img

최신 인텔리전스

spot_img