Logo Zéphyrnet

IA générative et conformité sémantique – DATAVERSITY

Date :

Seuls CPT et ses pairs savent combien de déclarations ont été faites sur la base des résultats de l'IA générative. Mais il y en a des tas.

Mon parcours en tant que modeleur de données pendant de nombreuses années me fait un peu frissonner, car ce que les assistants amicaux de l'IA nous aident à produire est soumis à des processus cognitifs, où nous, les lecteurs, traitons l'entrée, les résultats de l'IA, en ce qui concerne la sémantique appréhendée (par nous-mêmes), spécifique connaissances que chacun de nous a construites au fil du temps. Et nous nous attendons à ce que les résultats de l'IA suivent des schémas similaires (c'est-à-dire correspondants). 

En d'autres termes, je m'attendrais à ce que "ChatSome" soit implicitement conforme à une sémantique spécifique, intégrée aux ensembles de formation :

Schéma réalisé à l'aide de WebWOWL – allez-y pour lire le schéma

Le réseau sémantique dans l'exemple ci-dessus est l'ontologie bien connue FOAF (Friend of a Friend), issue de la communauté du World Wide Web. Donc, si ChatSome discute de problèmes liés aux amis, il semblerait naturel de s'attendre à des structures sémantiques pas trop différentes de la norme ci-dessus (FOAF).

La sémantique partagée est une nécessité dans la communication humaine.

Ingénierie rapide à la rescousse ?

Il semble que la réponse, pour l'instant, des spécialistes du marketing de l'IA, est une "ingénierie rapide" prudente et organisée - parce que si vous ne pouvez pas définir ce que vous demandez, comment une IA (ou un humain) devrait-il être capable de répondre intelligemment ?

Voir, par exemple, cet excellent article récent de Harvard Business Review par Oguz A. Acar, «L'IA Prompt Engineering n'est pas l'avenir"

Je vous encourage à lire l'article, mais vous en comprendrez l'essentiel dans cette citation : 

"Cependant, malgré le buzz qui l'entoure, l'importance de l'ingénierie rapide peut être éphémère pour plusieurs raisons. Premièrement, les futures générations de systèmes d'IA deviendront plus intuitives et aptes à comprendre le langage naturel, réduisant ainsi le besoin d'invites méticuleusement conçues. Deuxièmement, les nouveaux modèles de langage d'IA comme GPT4 sont déjà très prometteurs dans la création d'invites - l'IA elle-même est sur le point de rendre l'ingénierie des invites obsolète. Enfin, l'efficacité des invites dépend de l'algorithme spécifique, ce qui limite leur utilité dans divers modèles et versions d'IA.

Alors, quelle est la compétence la plus durable et la plus adaptable qui nous permettra de continuer à exploiter le potentiel de l'IA générative ? C'est formulation du problème – la capacité d'identifier, d'analyser et de délimiter les problèmes.

Je suis assez d'accord avec ça. Cela signifie qu'il y a plus de travail à faire. En fait, il me semble que ce que nous entendons de certains des décideurs du marché de l'IA générative les plus optimistes et les plus optimistes est à égalité avec cette célèbre citation (présumée) de l'auteur suédoise Astrid Lindgren, qui, soi-disant, laisse son personnage principal, Pippi Brindacier dit : "Je n'ai jamais essayé cela auparavant, donc je pense que je devrais certainement être capable de le faire."

Voici une couverture de livre de l'univers Fifi Brindacier :

Source de l'image: Rakuten Kobo

Rien n'était trop difficile pour Fifi, même soulever son cheval ! Il y a au moins 14 livres et un certain nombre de films documentant cela. Les enfants et leurs parents sont fascinés par ces histoires jusqu'à l'âge adulte. Pourquoi cela me rappelle-t-il certains des récits qui sortent de certaines parties de la Californie ?

Cependant, des points de vue plus équilibrés sont disponibles : Dans son excellent nouveau livre, «Les DataPreneurs – La promesse de l'IA et les créateurs construisant notre avenir », Bob Muglia souligne comment Yann LeCun de l'Université de New York et Meta souligne quelques fondamentaux sur l'apprentissage et l'appréhension dans "A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022-06-27":

"Les animaux humains et non humains semblent capables d'acquérir d'énormes quantités de connaissances de base sur la façon dont le monde fonctionne grâce à l'observation et à travers une quantité incompréhensible d'interactions d'une manière indépendante des tâches et non supervisée. On peut émettre l'hypothèse que ces connaissances accumulées peuvent constituer la base de ce que l'on appelle souvent le bon sens. Le sens commun peut être vu comme une collection de modèles du monde qui peuvent indiquer à un agent ce qui est probable, ce qui est plausible et ce qui est impossible. En utilisant de tels modèles mondiaux, les animaux peuvent acquérir de nouvelles compétences avec très peu d'essais. Ils peuvent prédire les conséquences de leurs actions, ils peuvent raisonner, planifier, explorer et imaginer de nouvelles solutions aux problèmes. Surtout, ils peuvent également éviter de commettre des erreurs dangereuses face à une situation inconnue.

Le bon sens vaut certainement la peine d'être examiné, comme le montre le petit chat suivant.

Une conversation récente

Récemment, j'ai discuté avec GPT 4 à propos de la modélisation des données. J'ai posé des questions sur les "25 types de modèles de données les plus importants".

Lorsque le résultat est revenu, j'ai immédiatement remarqué que Fact Modeling ne figurait pas sur la liste. Dès que j'ai remarqué cela, le résultat a été modifié, et maintenant il ressemblait à ceci :

 "Je m'excuse pour l'omission. Le Fact Model est en effet une technique de modélisation de données importante, utilisée pour modéliser des systèmes complexes et capturer des règles métier. Il se concentre sur l'identification et la définition des faits qui décrivent les opérations d'un système, ainsi que les relations entre ces faits.

Par conséquent, le modèle factuel doit également être inclus dans la liste des modèles de données importants. Voici une liste mise à jour des 25 modèles de données les plus importants, y compris le Fact Model :

    Modèle de données relationnelles

    Modèle de données Entité-Relation (ER)

    Modèle de données orienté objet

    Modèle de données relationnel objet

    Modèle de données hiérarchique

    Modèle de données réseau

    Modèle de données dimensionnel

    Modèle de données de fichier plat

    Modèle de données sémantique

    Modèle de données conceptuel

    Modèle de données logique

    Modèle de données physique

    Modèle de données de l'entrepôt de données

    Modèle de données du magasin de données

    Modèle de données XML

    Modèle de données NoSQL

    Modèle de données orienté document

    Modèle de données de famille de colonnes

    Modèle de données clé-valeur

    Modèle de données graphique

    Modèle de données RDF

    Modèle de données OWL

    Modèle de données UML

    Modèle de données EAV

    Modèle de données OLAP

    Modèle factuel

Merci de l'avoir porté à mon attention.

Moi : Les modèles de coffre-fort de données et d'ancrage sont-ils également des types de modèles de données importants ?

"Oui, les modèles de coffre-fort de données et d'ancrage sont des types importants de modèles de données qui ont gagné en popularité ces dernières années.

Aperçu de recherche gratuit. ChatGPT peut produire des informations inexactes sur des personnes, des lieux ou des faits. 

***Fin du chat avec ChatGPT Version du 23 mars.

Oui, il a produit des informations inexactes. Et il a ajouté du contenu au résultat dans une étape supplémentaire d'« ingénierie rapide ».

Je suis tenté de dire : Fifi, fais tes devoirs !

La vie ne peut être comprise qu'à l'envers, mais elle doit être vécue en avant

Le sous-titre ci-dessus est une citation du philosophe danois Soren Kierkegaard:

Source de l'image : La Bibliothèque royale, Danemark, 1923, domaine public, via Wikimedia Commons

Les grands modèles de langage (LLM) sont, par nécessité, des produits de faits passés sur des événements passés. Mais nous, en tant que consommateurs génératifs d'IA, avons besoin de prévisions fiables. Même étant donné que tous les "transformateurs" sont de vieilles nouvelles. 

Comprendre les contextes passés et futurs est essentiel. En fait, l'IA générative et ses résultats sont un exercice de sensibilité au contexte - en d'autres termes, la sémantique, le sens, la structure, les relations, dans le temps.

C'est le vrai schisme.

Exécuter des prédictions génératives basées sur un contenu LLM légèrement obsolète, c'est comme exécuter sur un entrepôt de données de l'année dernière.

L'ajout de prédictions au-dessus des LLM est également connu sous le nom de statistiques. C'est très bien, surtout si vous disposez d'indicateurs de qualité et de confiance.

Besoins de Standards Sémantiques Normatifs ?

Nous, en tant que professionnels (modélisateurs de données et scientifiques de l'information), devons prendre des mesures responsables pour forcer les outils d'IA générative à pouvoir se contraindre à un contexte et à une sémantique donnés. 

Il peut s'agir des modèles de données et du glossaire d'une organisation, mais il peut également s'agir d'ontologies et de vocabulaires officiels de l'industrie, du pays ou de l'UE, ainsi que schema.org et Wikidata et ainsi de suite.
Nous avons besoin que les résultats de l'IA présentent des contextes clairement définis et montrent la conformité avec la sémantique définie.

Il existe de nombreuses possibilités dans cet espace.

Avant tout, j'aimerais savoir :

Ce résultat est-il basé sur des faits entièrement documentés et établis? Ou une sémantique et des assertions fictives peuvent-elles se produire ? En d'autres termes, est-ce un fait ou une fiction ? C'est presque insister sur une étiquette générale signifiant « Contient uniquement des faits certifiés » !

Si j'étais dans un secteur fortement réglementé comme le gouvernement, la finance ou l'industrie pharmaceutique, j'aimerais connaître la confiance avec laquelle je peux me fier aux résultats. Vont-ils tenir devant le tribunal, Par exemple? Sont-ils multi-temporels (ou du moins bi-temporels) ?

En regardant gestion de la qualité en général (voir par exemple le référentiel ISO 9000 SMQ Normes), il existe de nombreux aspects d'ISO 9000 dont la gestion des données pourrait s'inspirer. Ainsi, un système d'IA générative pourrait être étiqueté selon la perspective de qualité à laquelle il se conforme. Cela pourrait conduire à une Norme ISO de gestion de la conformité sémantique? Semblable à la famille ISO 9000.

Un autre aspect important est spécificité. Pensez à l'ontologie FOAF avec laquelle nous avons commencé. En fait, il existe tellement de normes internationales et nationales, de vocabulaires et de modèles de données de l'industrie qu'il serait logique d'introduire une conformité déclaration sur les résultats de l'IA.

Voici quelques exemples de médias sémantiques « normatifs » (ou du moins couramment utilisés), utiles pour cartographier le sens sur Internet, tirés du livre récent d'Andrew Iliadis portant ce titre (andrewiliadis.com):

Ce qui précède ne sont que quelques exemples.

Aux niveaux national et international également, il existe de nombreuses ontologies, taxonomies, modèles de données, schémas, etc., accessibles au public. 

Eh bien, en fait, ce que vous avez également, ce sont vos propres modèles de données de brassage maison. Ne serait-il pas agréable d'avoir un test de conformité entre votre propre sémantique et celles d'un LLM en IA générative ? Pourrait être une fonctionnalité intéressante du produit AI, si vous me demandez.

IA générative vérifiable

Si je travaillais dans le secteur financier, je souhaiterais peut-être savoir si le résultat proposé, ainsi que le modèle de langage, étaient certifiés conformes au vocabulaire et à la sémantique de FIBO (l'ontologie des entreprises de l'industrie financière publiée par le conseil EDM) . Si je peux compter là-dessus, je suis à la maison en toute sécurité. Sinon, je dois lire, interpréter et tirer des conclusions supplémentaires - avec des groupes de collègues du service de conformité réglementaire. Dans le secteur financier, ce personnel est déjà orienté dans cette voie, avec le CBCB 239 Standard demandant des taxonomies et des architectures intégrées. 

Non seulement les résultats, mais aussi les transformateurs et autres parties des modèles de langage, doivent être conformes de manière vérifiable. 

Je crois sincèrement que le monde a besoin d'une assurance qualité à ces niveaux, si les affaires et la politique doivent être menées sur la base de l'IA générative à plus grande échelle. Alors, apportez ces générateurs d'IA certifiés ! Et donnez-nous, les personnes atteintes du HI, une chance !

spot_img

Dernières informations

spot_img