Logo Zéphyrnet

Knowledge Graphs 101 : L'histoire (et les avantages) derrière le battage médiatique – DATAVERSITY

Date :

Les graphes de connaissances, bien qu'ils ne soient pas aussi connus que d'autres offres de gestion de données, constituent une solution dynamique et évolutive éprouvée pour répondre aux exigences de gestion des données d'entreprise dans plusieurs secteurs verticaux. En tant que plateforme de données, de métadonnées et de contenu, ils offrent une vue unifiée, cohérente et sans ambiguïté des données dispersées sur différents systèmes. En utilisant les connaissances globales comme contexte d'interprétation et source d'enrichissement, ils optimisent également les informations propriétaires afin que les organisations puissent améliorer la prise de décision et réaliser des corrélations auparavant indisponibles entre leurs actifs de données. 

Les organisations savent déjà que les données qu’elles doivent gérer sont trop diverses, dispersées et dans des volumes inimaginables il y a seulement dix ans. Cela laisse souvent des informations et des opportunités commerciales perdues dans une complexité enchevêtrée de données et de contenus dénués de sens et cloisonnés. Les graphiques de connaissances aident à surmonter ces défis en unifiant l'accès aux données, en offrant une intégration flexible des données et en automatisant la gestion des données. L'utilisation de graphiques de connaissances a un effet énorme sur divers systèmes et processus, c'est pourquoi Garner prédit que d'ici 2025, les technologies graphiques seront utilisées dans 80 % des innovations en matière de données et d'analyse, contre 10 % en 2021, facilitant ainsi une prise de décision rapide dans l'ensemble de l'entreprise. 

Définition des graphes de connaissances et pourquoi la sémantique (et les ontologies) sont importantes

Selon Wikipédia, un graphe de connaissances est une base de connaissances qui utilise un modèle de données ou une topologie structurée par graphe pour représenter et exploiter les données. Le cœur du graphe de connaissances est un modèle de connaissances : un ensemble de descriptions interconnectées de concepts, d'entités, de relations et d'événements dans lesquels :

  • Les descriptions ont une sémantique formelle qui permet aux personnes et aux ordinateurs de les traiter efficacement et sans ambiguïté.
  • Les descriptions s'alimentent les unes les autres, formant un réseau où chaque entité représente une partie de la description des entités qui lui sont liées.
  • Diverses données sont connectées et décrites par des métadonnées sémantiques selon le modèle de connaissances

En créant une description sémantique commune, un graphe de connaissances permet un niveau d'abstraction plus élevé qui ne dépend pas de l'infrastructure physique ou du format des données. Parfois appelé un tissu de données, il offre un moyen unifié, convivial et significatif d'accéder et d'intégrer les données internes et externes. Grâce à des métadonnées sémantiques, les graphiques de connaissances fournissent une vue cohérente de diverses données d'entreprise, reliant les connaissances dispersées entre différents systèmes et parties prenantes. 

Grâce au traitement du langage naturel (NLP), les documents texte peuvent également être intégrés à des graphiques de connaissances. Étant donné que de nombreux chercheurs affirment qu'entre 75 et 85 % des connaissances d'une organisation sont enfermées dans des documents statiques, une valeur et une sagesse considérables passent à côté. Les pipelines NLP en bénéficient énormément, car des méthodes sophistiquées d'analyse de texte peuvent être utilisées pour combiner l'apprentissage automatique avec des graphiques de connaissances. Les graphes de connaissances sont également essentiels pour toute stratégie d’IA sémantique et d’IA explicable.

Les ontologies sont tout aussi importants, car ils représentent l’épine dorsale de la sémantique formelle d’un graphe de connaissances. En tant que schéma de données du graphe, ils servent de contrat entre les développeurs du graphe de connaissances et ses utilisateurs concernant la signification des données. Un utilisateur peut être un autre être humain ou une application logicielle devant interpréter les données de manière fiable et précise. Les ontologies assurent une compréhension partagée des données et de leurs significations. Lorsque la sémantique formelle est utilisée pour exprimer et interpréter les données d’un knowledge graph, il existe plusieurs instruments de représentation et de modélisation : 

  • Des cours: Le plus souvent, une description d'entité contient une classification de l'entité concernant une hiérarchie de classes. Par exemple, lorsqu'il s'agit d'actualités générales ou d'informations commerciales, certaines classes peuvent inclure Personne, Organisation et Emplacement. Les personnes et les organisations peuvent avoir un agent commun de super-classe. L'emplacement comporte généralement de nombreuses sous-classes, par exemple Pays, Lieu habité, Ville, etc. 
  • Relations: Les relations entre entités sont généralement étiquetées avec des types qui fournissent des informations sur la nature de la relation, par exemple ami, parent, concurrent, etc. 
  • Catégories: Une entité peut être associée à des catégories qui décrivent certains aspects de sa sémantique, par exemple « consultants des quatre grands » ou « compositeurs du XIXe siècle ». Un livre peut appartenir simultanément à toutes ces catégories : « Livres sur l’Afrique », « Best-seller », « Livres d’auteurs italiens », « Livres pour enfants », etc. Souvent, les catégories sont décrites et classées dans une taxonomie. 
  • Texte libre: Il est possible d'ajouter un « texte convivial » pour clarifier davantage les intentions de conception de l'entité et améliorer la recherche.

Graphiques de connaissances dans le cadre de description des ressources (RDF)

Resource Description Framework est une norme de description des ressources Web et de l'échange de données, développée et standardisée avec le World Wide Web Consortium (W3C). Outre RDF, le modèle de graphe de propriétés étiquetées (LPG) fournit une introduction légère à la gestion des données graphiques. Les GPL gagnent souvent le cœur des développeurs si les données doivent être collectées de manière ponctuelle et si des analyses de graphiques sont effectuées au cours d'un seul projet, le graphique étant ensuite supprimé. Malheureusement, la pile technologique autour des LPG manque de schémas ou de langages de modélisation et de langages de requête standardisés, et il n'existe aucune disposition relative à la sémantique formelle et aux spécifications d'interopérabilité (par exemple, pas de formats de sérialisation, de protocoles de fédération, etc.).

Alors que RDF permet de faire des déclarations uniquement sur les nœuds, RDF-Star permet de faire des déclarations sur d'autres déclarations et ainsi d'attacher des métadonnées pour décrire un bord dans un graphique tel que les scores, les poids, les aspects temporels et la provenance. Dans l'ensemble, les graphes de connaissances, représentés en RDF, fournissent le meilleur cadre pour l'intégration, l'unification, la liaison et la réutilisation des données, car ils combinent les éléments suivants :

  1. Expressivité : Les standards de la pile du Web sémantique – RDF(s) et OWL – permettent une représentation fluide de différents types de données et de contenus : schémas de données, taxonomies, vocabulaires, toutes sortes de métadonnées, références et données de base. L'extension RDF-star facilite la modélisation de la provenance et d'autres métadonnées structurées. 
  2. Sémantique formelle : Toutes les normes de la pile du Web sémantique sont accompagnées d'une sémantique bien spécifiée, qui permet aux humains et aux ordinateurs d'interpréter sans ambiguïté les schémas, les ontologies et les données. 
  3. Performance : Toutes les spécifications ont été pensées et éprouvées pour permettre une gestion efficace de graphiques de milliards de faits et de propriétés.
  4. Interopérabilité: Il existe une gamme de spécifications pour la sérialisation des données, l'accès (protocole SPARQL pour les points finaux), la gestion (SPARQL Graph Store) et la fédération. L'utilisation d'identifiants uniques au monde facilite l'intégration et la publication des données. 
  5. Standardisation: Tout ce qui précède est standardisé par le processus communautaire du W3C, pour garantir que les exigences des différents acteurs sont satisfaites – des logiciens aux professionnels de la gestion des données d'entreprise et aux équipes d'exploitation système. 

Cependant, il est important de noter que tous les graphes RDF ne sont pas des graphes de connaissances. Par exemple, un ensemble de données statistiques, par exemple les données sur le PIB des pays, représenté en RDF n'est pas un graphe de connaissances. Une représentation graphique des données est souvent utile, mais il peut s'avérer inutile de capturer la connaissance sémantique des données. Il peut également suffire qu'une application ait simplement la chaîne « Italie » associée à la chaîne « PIB » et au chiffre « 1.95 XNUMX milliards de dollars » sans avoir besoin de définir ce que sont les pays ou quel est le produit intérieur brut d'un pays. 

Ce sont les connexions et le graphique qui constituent le graphe de connaissances, et non le langage utilisé pour représenter les données. Une caractéristique clé d’un graphe de connaissances est que les descriptions d’entités doivent être liées les unes aux autres. La définition d'une entité inclut une autre entité. Cette liaison est la façon dont le graphique se forme (par exemple, A est B ; B est C ; C a D ; A a D). Les bases de connaissances sans structure ni sémantique formelles, par exemple la « base de connaissances » questions-réponses sur un produit logiciel, ne représentent pas non plus un graphe de connaissances. Il est possible d'avoir un système expert comportant une collection de données organisées dans un format qui n'est pas un graphique mais qui utilise des processus déductifs automatisés tels qu'un ensemble de règles « si-alors » pour faciliter l'analyse. 

Les graphes de connaissances ne sont pas non plus des logiciels. Un graphe de connaissances est plutôt un moyen d'organiser et de collecter les données et les métadonnées pour répondre à des critères et servir à des fins spécifiques qui, à leur tour, sont utilisées par différents logiciels. Les données d'un graphe de connaissances peuvent être utilisées dans plusieurs systèmes indépendants à des fins différentes.

Graphiques de connaissances et gestion des données en temps réel

Les exigences en matière de données ont poussé les approches traditionnelles de gestion des données au-delà de leurs limites. Il existe de grandes quantités de données, chaque jour davantage, et elles doivent toutes être traitées, comprises et rendues utiles. Cela doit être fiable et effectué en temps réel, qu'il provienne de sources internes ou externes. Après tout, la valeur des données dépend entièrement de la capacité à en tirer parti. Il s’agit d’une leçon que les organisations apprennent rapidement lorsqu’elles cherchent à réduire les coûts de développement et de maintenance et à apprécier les avantages et les revenus générés par une gestion intelligente des données organisationnelles. Les écosystèmes de données d’aujourd’hui sont également mondiaux. 

Les graphes de connaissances peuvent gérer leur diversité et le manque de contrôle centralisé, car il s'agit d'un paradigme adapté à l'écosystème mondial des données qui inclut chaque organisation. Mieux encore, à mesure que les informations, la compréhension et les besoins d'une organisation à partir de ces informations changent, le graphique des connaissances évolue également. Les données représentées par un graphe de connaissances ont une signification formelle stricte que les humains et les machines peuvent interpréter. Cette signification le rend utilisable par un humain, mais permet également un raisonnement automatisé permettant aux ordinateurs d’alléger une partie du fardeau. Grâce aux graphiques de connaissances, les organisations peuvent modifier, élaguer et adapter le schéma tout en conservant les mêmes données et en les réutilisant pour générer encore plus d'informations.

Il y a des années, nous sommes passés du mot à la mode du Big Data au Smart Data. Le fait de disposer de quantités de données sans précédent a rendu nécessaire un modèle de données qui reflète notre compréhension complexe de l’information. Pour rendre les données intelligentes, les machines ne peuvent plus être liées par des schémas de données rigides et fragiles. Ils avaient besoin de référentiels de données capables de représenter le monde réel et les relations complexes qu’il implique. Tout cela devait être fait d'une manière lisible par machine avec une sémantique formelle pour permettre un raisonnement automatisé qui complète et facilite l'expertise humaine et la prise de décision. 

Les graphes de connaissances exprimés en RDF fournissent cela ainsi que de nombreuses applications dans les services gourmands en données et en informations. Les exemples incluent le contenu intelligent, l'emballage et la réutilisation ; recommandation de contenu réactif et contextuel ; découverte automatisée des connaissances ; recherche sémantique ; et des agents intelligents. Il peut également prendre en charge des éléments tels que le profilage et le classement des entreprises ; découverte d'informations dans les documents réglementaires ; et surveillance de la littérature en matière de pharmacovigilance. 

En termes simples, les graphiques de connaissances aident les entreprises à prendre des décisions critiques basées sur des modèles de connaissances harmonisés et des données dérivées de systèmes sources cloisonnés. Ils offrent également une évolutivité et une sémantique natives qui permettent une approche efficace, spécifique et réactive des données, y compris la sécurité et la gouvernance, la gestion de la propriété et de la provenance. 

spot_img

Dernières informations

spot_img