Logo Zéphyrnet

Pourquoi vous devez connaître l'ascendance de votre IA

Date :

COMMENTAIRE

L'intelligence artificielle (IA) modifie rapidement presque tous les aspects de notre vie quotidienne, de la façon dont nous travaillons à la façon dont nous ingérons les informations, en passant par la façon dont nous déterminons nos dirigeants. Comme toute technologie, l’IA est amorale, mais elle peut être utilisée pour faire progresser la société ou faire du mal.

Les données sont les gènes qui alimentent les applications d’IA. C’est de l’ADN et de l’ARN réunis en un seul. Comme on le dit souvent lors de la création de systèmes logiciels : « garbage in/garbage out ». La technologie de l’IA est aussi précise, sécurisée et fonctionnelle que les sources de données sur lesquelles elle s’appuie. La clé pour garantir que l’IA tient ses promesses et évite ses cauchemars réside dans la capacité à empêcher les déchets d’entrer et à les empêcher de proliférer et de se répliquer dans des millions d’applications d’IA.

C’est ce qu’on appelle la provenance des données, et nous ne pouvons pas attendre un jour de plus pour mettre en œuvre des contrôles qui empêcheront l’avenir de notre IA de devenir un énorme tas d’ordures.

Les mauvaises données conduisent à des modèles d’IA capables de propager des vulnérabilités en matière de cybersécurité, des informations erronées et d’autres attaques à l’échelle mondiale en quelques secondes. Aujourd'hui IA générative (GenAI) sont incroyablement complexes, mais, à la base, les modèles GenAI prédisent simplement le meilleur prochain bloc de données à produire, en fonction d'un ensemble de données précédentes existantes.

Une mesure de précision

Un modèle de type ChatGPT évalue l'ensemble de mots qui composent la question initiale posée et tous les mots de la réponse du modèle jusqu'à présent pour calculer le prochain meilleur mot à générer. Il le fait à plusieurs reprises jusqu'à ce qu'il décide qu'il a donné une réponse suffisante. Supposons que vous évaluiez la capacité du modèle à enchaîner des mots qui constituent des phrases bien formées, grammaticalement correctes, pertinentes sur le sujet et généralement pertinentes pour la conversation. Dans ce cas, les modèles actuels sont étonnamment bons : une mesure de précision.

Plongez plus profondément dans si le texte produit par l’IA transmet toujours des informations « correctes » et indique de manière appropriée le niveau de confiance des informations transmises. Cela révèle des problèmes liés aux modèles qui prédisent très bien en moyenne, mais pas aussi bien dans les cas extrêmes, ce qui représente un problème de robustesse. Cela peut être aggravé lorsque de mauvaises données issues des modèles d’IA sont stockées en ligne et utilisées comme futures données de formation pour ces modèles et d’autres.

Les mauvais résultats peuvent se reproduire à une échelle que nous n’avons jamais vue, provoquant une boucle catastrophique vers le bas de l’IA.

Si un acteur malveillant voulait contribuer à ce processus, il pourrait délibérément encourager la production, le stockage et la propagation de données encore plus mauvaises, ce qui entraînerait encore plus de désinformation provenant des chatbots, ou quelque chose d'aussi néfaste et effrayant que des modèles de pilotes automatiques automobiles décidant qu'ils doivent le faire. virez rapidement une voiture vers la droite même si des objets gênent s'ils « voient » une image spécialement conçue devant eux (hypothétiquement, bien sûr).

Après des décennies, l’industrie du développement de logiciels – dirigée par la Cybersecurity Infrastructure Security Agency – met enfin en œuvre un sécurisé par conception cadre. Sécurisé dès la conception exige que la cybersécurité soit à la base du processus de développement logiciel, et l'un de ses principes fondamentaux exige le catalogage de chaque composant de développement logiciel - un nomenclature logicielle (SBOM) – pour renforcer la sécurité et la résilience. Enfin, la sécurité remplace la vitesse comme facteur de mise sur le marché le plus critique.

Sécuriser les conceptions d'IA

L'IA a besoin de quelque chose de similaire. La boucle de rétroaction de l’IA empêche les anciennes techniques de défense de cybersécurité courantes, telles que le suivi des signatures de logiciels malveillants, la construction de périmètres autour des ressources réseau ou l’analyse du code écrit par l’homme à la recherche de vulnérabilités. Nous devons faire de la conception sécurisée de l'IA une exigence dès les premiers balbutiements de la technologie afin que l'IA puisse être sécurisée bien avant l'ouverture de la boîte de Pandore.

Alors, comment résoudre ce problème ? Nous devrions prendre une page du monde universitaire. Nous formons les étudiants avec des données de formation hautement organisées, interprétées et transmises par une industrie d'enseignants. Nous poursuivons cette approche pour enseigner aux adultes, mais les adultes sont censés effectuer eux-mêmes davantage de curation de données.

La formation des modèles d’IA doit adopter une approche de données organisées en deux étapes. Pour commencer, les modèles d’IA de base seraient formés à l’aide des méthodologies actuelles utilisant des quantités massives d’ensembles de données moins organisés. Ces grands modèles linguistiques de base (LLM) seraient à peu près analogues à un nouveau-né. Les modèles de base seraient ensuite formés avec des ensembles de données hautement organisés, similaires à la manière dont les enfants sont enseignés et élevés pour devenir des adultes.

L’effort visant à créer de vastes ensembles de données d’entraînement organisés pour tous les types d’objectifs ne sera pas minime. Cela est analogue à tous les efforts que les parents, les écoles et la société déploient pour fournir un environnement et des informations de qualité aux enfants à mesure qu’ils grandissent et deviennent (espérons-le) des contributeurs fonctionnels et à valeur ajoutée à la société. C'est le niveau d'effort requis pour créer des ensembles de données de qualité afin de former des modèles d'IA de qualité, fonctionnels et peu corrompus, et cela pourrait conduire toute une industrie de l'IA et des humains à travailler ensemble pour apprendre aux modèles d'IA à être bons dans leur objectif de travail. .

L’état actuel du processus de formation en IA montre certains signes de ce processus en deux étapes. Mais, en raison des balbutiements de la technologie GenAI et de l’industrie, trop de formations adoptent une approche de première étape, moins organisée.

En matière de sécurité de l’IA, nous ne pouvons pas nous permettre d’attendre une heure, encore moins une décennie. L'IA a besoin d'une application 23andMe qui permette un examen complet de la « généalogie des algorithmes » afin que les développeurs puissent pleinement comprendre l'histoire « familiale » de l'IA afin d'éviter que des problèmes chroniques ne se reproduisent, n'infectent les systèmes critiques sur lesquels nous comptons chaque jour et créent des dommages économiques et sociétaux. cela peut être irréversible.

Notre sécurité nationale en dépend.

spot_img

Dernières informations

spot_img