Zephyrnet Logo

Gráficos de conhecimento 101: A história (e benefícios) por trás do hype – DATAVERSITY

Data:

Os gráficos de conhecimento, embora não sejam tão conhecidos quanto outras ofertas de gerenciamento de dados, são uma solução comprovadamente dinâmica e escalonável para atender aos requisitos de gerenciamento de dados corporativos em vários setores verticais. Como um centro de dados, metadados e conteúdo, eles fornecem uma visão unificada, consistente e inequívoca dos dados espalhados por diferentes sistemas. Utilizando o conhecimento global como contexto para interpretação e fonte de enriquecimento, eles também otimizam informações proprietárias para que as organizações possam melhorar a tomada de decisões e realizar correlações anteriormente indisponíveis entre seus ativos de dados. 

As organizações já sabem que os dados que precisam de gerir são demasiado diversos, dispersos e em volumes incompreensíveis há apenas uma década. Isso muitas vezes deixa insights e oportunidades de negócios perdidos em meio a uma complexidade emaranhada de dados e conteúdos isolados e sem sentido. Os gráficos de conhecimento ajudam a superar esses desafios, unificando o acesso aos dados, fornecendo integração flexível de dados e automatizando o gerenciamento de dados. O uso de gráficos de conhecimento tem um efeito enorme em vários sistemas e processos, e é por isso que Garner prevê que até 2025, as tecnologias gráficas serão utilizadas em 80% das inovações de dados e análises, contra 10% em 2021, facilitando a rápida tomada de decisões em toda a empresa. 

Gráficos de conhecimento definidos e por que a semântica (e as ontologias) são importantes

De acordo com o Wikipedia, um gráfico de conhecimento é uma base de conhecimento que usa um modelo de dados estruturado em gráfico ou topologia para representar e operar em dados. O coração do gráfico de conhecimento é um modelo de conhecimento – uma coleção de descrições interligadas de conceitos, entidades, relacionamentos e eventos onde:

  • As descrições têm semântica formal que permite que pessoas e computadores as processem de forma eficiente e inequívoca.
  • As descrições contribuem entre si, formando uma rede, onde cada entidade representa parte da descrição das entidades a ela relacionadas.
  • Dados diversos são conectados e descritos por metadados semânticos de acordo com o modelo de conhecimento

Ao criar uma descrição semântica comum, um gráfico de conhecimento permite um nível mais alto de abstração que não depende da infraestrutura física ou do formato dos dados. Às vezes chamado de tecido de dados, ele oferece uma maneira unificada, amigável e significativa de acessar e integrar dados internos e externos. Usando metadados semânticos, os gráficos de conhecimento fornecem uma visão consistente de diversos dados empresariais, interligando o conhecimento que foi espalhado por diferentes sistemas e partes interessadas. 

Com a ajuda do processamento de linguagem natural (PNL), documentos de texto também podem ser integrados a gráficos de conhecimento. Dado que muitos investigadores afirmam que entre 75-85% do conhecimento de uma organização está bloqueado em documentos estáticos, está a perder-se um enorme valor e sabedoria. Os pipelines de PNL se beneficiam enormemente, pois métodos sofisticados de análise de texto podem ser usados ​​ao combinar aprendizado de máquina com gráficos de conhecimento. Os gráficos de conhecimento também são essenciais para qualquer IA semântica e estratégia de IA explicável.

Ontologias são igualmente importantes, pois representam a espinha dorsal da semântica formal de um gráfico de conhecimento. Como esquema de dados do gráfico, eles servem como um contrato entre os desenvolvedores do gráfico de conhecimento e seus usuários em relação ao significado dos dados. Um usuário pode ser outro ser humano ou um aplicativo de software que precisa interpretar os dados de maneira confiável e precisa. As ontologias garantem uma compreensão compartilhada dos dados e seus significados. Quando a semântica formal é usada para expressar e interpretar os dados de um gráfico de conhecimento, existem vários instrumentos de representação e modelagem: 

  • Classes: Na maioria das vezes, uma descrição de entidade contém uma classificação da entidade em relação a uma hierarquia de classes. Por exemplo, ao lidar com notícias gerais ou informações comerciais, pode haver classes que incluem Pessoa, Organização e Local. Pessoas e organizações podem ter um agente comum de superclasse. A localização geralmente possui inúmeras subclasses, por exemplo, País, Local povoado, Cidade, etc. 
  • Relacionamentos: Os relacionamentos entre entidades geralmente são marcados com tipos, que fornecem informações sobre a natureza do relacionamento, por exemplo, amigo, parente, concorrente, etc. 
  • Categorias: Uma entidade pode ser associada a categorias que descrevem algum aspecto de sua semântica, por exemplo, “Quatro Grandes consultores” ou “compositores do século XIX”. Um livro pode pertencer simultaneamente a todas estas categorias: “Livros sobre África”, “Best-sellers”, “Livros de autores italianos”, “Livros para crianças”, etc. 
  • Texto livre: É possível adicionar “texto amigável” para esclarecer ainda mais as intenções de design da entidade e melhorar a pesquisa.

Gráficos de conhecimento na estrutura de descrição de recursos (RDF)

Resource Description Framework é um padrão para descrever recursos da web e intercâmbio de dados, desenvolvido e padronizado com o World Wide Web Consortium (W3C). Além do RDF, o modelo de gráfico de propriedades rotuladas (LPG) fornece uma introdução leve ao gerenciamento de dados gráficos. Os GLPs geralmente conquistam os corações dos desenvolvedores se os dados precisarem ser coletados ad hoc e a análise gráfica for realizada no decorrer de um único projeto, com o gráfico sendo descartado posteriormente. Infelizmente, a pilha de tecnologia em torno dos GLPs carece de esquemas padronizados ou linguagens de modelagem e linguagens de consulta, e não há provisões para semântica formal e especificações de interoperabilidade (por exemplo, nenhum formato de serialização, protocolos de federação, etc.).

Enquanto o RDF permite que declarações sejam feitas apenas sobre nós, o RDF-Star permite fazer declarações sobre outras declarações e, dessa forma, anexar metadados para descrever uma aresta em um gráfico, como pontuações, pesos, aspectos temporais e proveniência. Em suma, os gráficos de conhecimento, representados em RDF, fornecem a melhor estrutura para integração, unificação, vinculação e reutilização de dados, porque combinam o seguinte:

  1. Expressividade: Os padrões da pilha da Web Semântica – RDF(s) e OWL – permitem uma representação fluente de vários tipos de dados e conteúdo: esquema de dados, taxonomias, vocabulários, todos os tipos de metadados, referência e dados mestres. A extensão RDF-star facilita a modelagem de proveniência e outros metadados estruturados. 
  2. Semântica formal: Todos os padrões da pilha da Web Semântica vêm com semântica bem especificada, que permite que humanos e computadores interpretem esquemas, ontologias e dados de forma inequívoca. 
  3. Atuação: Todas as especificações foram pensadas e comprovadas para permitir o gerenciamento eficiente de gráficos de bilhões de fatos e propriedades.
  4. Interoperabilidade: Há uma variedade de especificações para serialização de dados, acesso (protocolo SPARQL para endpoints), gerenciamento (SPARQL Graph Store) e federação. O uso de identificadores exclusivos globalmente facilita a integração e publicação de dados. 
  5. Estandardização: Tudo o que foi dito acima é padronizado através do processo da comunidade W3C, para garantir que os requisitos dos diferentes intervenientes sejam satisfeitos – desde lógicos a profissionais de gestão de dados empresariais e equipas de operações de sistemas. 

No entanto, é importante observar que nem todo gráfico RDF é um gráfico de conhecimento. Por exemplo, um conjunto de dados estatísticos, por exemplo, os dados do PIB dos países, representados em RDF não é um gráfico de conhecimento. Uma representação gráfica dos dados costuma ser útil, mas pode ser desnecessária para capturar o conhecimento semântico dos dados. Também pode ser suficiente para uma aplicação ter apenas a cadeia “Itália” associada à cadeia “PIB” e ao número “1.95 biliões de dólares” sem necessidade de definir o que são países ou qual é o Produto Interno Bruto de um país. 

São as conexões e o gráfico que formam o gráfico do conhecimento, não a linguagem usada para representar os dados. Uma característica importante de um gráfico de conhecimento é que as descrições das entidades devem estar interligadas. A definição de uma entidade inclui outra entidade. Essa ligação é a forma como o gráfico se forma (por exemplo, A é B; B é C; C tem D; A tem D). Bases de conhecimento sem estrutura formal e semântica, por exemplo, “base de conhecimento” de perguntas e respostas sobre um produto de software, também não representam um gráfico de conhecimento. É possível ter um sistema especialista que possua uma coleção de dados organizada em um formato que não seja um gráfico, mas que utilize processos dedutivos automatizados, como um conjunto de regras “se-então” para facilitar a análise. 

Os gráficos de conhecimento também não são software. Em vez disso, um gráfico de conhecimento é uma forma de organizar e coletar dados e metadados para atender a critérios e servir a propósitos específicos que, por sua vez, são usados ​​por diferentes softwares. Os dados de um gráfico de conhecimento podem ser usados ​​em vários sistemas independentes para diferentes finalidades.

Gráficos de conhecimento e gerenciamento de dados em tempo real

As exigências sobre os nossos dados levaram as abordagens tradicionais à gestão de dados para além dos seus limites. Existem grandes quantidades de dados, cada vez mais, e todos precisam ser processados, compreendidos e tornados úteis. Precisa ser confiável e feito em tempo real, independentemente de vir de fontes internas ou externas. Afinal, o valor dos dados depende inteiramente da capacidade de alavancar a sua utilização. Esta é uma lição que as organizações estão a aprender rapidamente à medida que procuram reduzir os custos de desenvolvimento e manutenção e passam a apreciar as vantagens e receitas que podem ser obtidas através da gestão inteligente dos dados organizacionais. Os ecossistemas de dados atuais também são globais. 

Os gráficos de conhecimento podem lidar com a sua diversidade e a falta de controle centralizado porque são um paradigma adequado ao ecossistema global de dados que inclui todas as organizações. Melhor ainda, à medida que as informações e a compreensão e as necessidades de uma organização a partir dessas informações mudam, o mesmo acontece com o gráfico de conhecimento. Os dados representados por um gráfico de conhecimento têm um significado formal estrito que tanto humanos quanto máquinas podem interpretar. Esse significado o torna utilizável por um ser humano, mas também permite o raciocínio automatizado para permitir que os computadores aliviem parte da carga. Com os gráficos de conhecimento, as organizações podem alterar, podar e adaptar o esquema, mantendo os dados iguais e reutilizando-os para gerar ainda mais insights.

Anos atrás, mudamos da palavra da moda Big Data para Smart Data. Ter quantidades de dados sem precedentes impulsionou a necessidade de um modelo de dados que refletisse nossa compreensão complexa das informações. Para tornar os dados inteligentes, as máquinas não poderiam mais estar vinculadas a esquemas de dados inflexíveis e frágeis. Eles precisavam de repositórios de dados que pudessem representar o mundo real e os relacionamentos emaranhados que ele acarreta. Tudo isto precisava de ser feito de uma forma legível por máquinas com semântica formal para permitir um raciocínio automatizado que complementasse e facilitasse a experiência humana e a tomada de decisões. 

Os gráficos de conhecimento expressos em RDF fornecem isso, bem como inúmeras aplicações em serviços com muitos dados e informações. Os exemplos incluem conteúdo inteligente, embalagem e reutilização; recomendação de conteúdo responsivo e contextualmente consciente; descoberta automatizada de conhecimento; pesquisa semântica; e agentes inteligentes. Ele também pode oferecer suporte a itens como perfil e classificação da empresa; descoberta de informações em documentos regulatórios; e monitoramento da literatura de farmacovigilância. 

Simplificando, os gráficos de conhecimento ajudam as empresas a tomar decisões críticas com base em modelos de conhecimento harmonizados e dados derivados de sistemas de origem isolados. Eles também oferecem escalabilidade e semântica nativas que permitem uma abordagem eficiente, específica e responsiva aos dados, incluindo segurança e governança, gerenciamento de propriedade e proveniência. 

local_img

Inteligência mais recente

local_img