Logo Zéphyrnet

À l’ère de ChatGPT, les modèles d’IA sont extrêmement populaires… et facilement compromis – Mass Tech Leadership Council

Date :

Bien avant la fin de l’année 2023, elle avait déjà été sacrée année de l’IA générative. Encouragés par l'avènement de modèles comme ChatGPT qui produisaient des réponses détaillées et étrangement humaines aux invites des utilisateurs, les experts et les novices ont commencé à réfléchir aux impacts potentiels de la technologie sur le travail, l'éducation et la créativité.

Mais si les grands modèles linguistiques (LLM) actuels sont incroyablement performants, ils sont également incroyablement vulnérables, explique Alina Oprea, professeur à Khoury. Elle étudie l'IA dans un contexte de cybersécurité depuis plus d'une décennie et a récemment co-écrit un rapport qui se penche sur ces attaques contre l'IA : comment elles fonctionnent, comment elles sont classées et comment elles peuvent (et ne peuvent pas) être atténuée.

« Il est vraiment difficile de garantir la sécurité de l'IA générative », déclare Oprea. « L’échelle de ces modèles et de leurs données d’entraînement augmentera avec le temps, ce qui ne fera que rendre ces attaques plus faciles. Et une fois que l’on commence à parler d’IA générative qui va au-delà du texte en images et en parole, la sécurité devient une question très ouverte.

Le rapport, publié par l'Institut national des normes et de la technologie (NIST) du ministère du Commerce, est une mise à jour du rapport qu'Oprea a co-écrit l'année dernière avec Apostol Vassilev du NIST. Ce rapport initial traitait d'une IA prédictive plus traditionnelle, mais comme l'IA générative a depuis explosé en popularité, Opera et Vassilev ont accueilli les experts en IA générative Alie Fordyce et Hyrum Anderson de Robust Intelligence pour élargir le mandat du projet.

"Maintenant, nous avons des universitaires, des gouvernements et des entreprises qui travaillent ensemble", a noté Oprea, "ce qui constitue le public visé par le rapport".

Selon le rapport, les modèles d’IA générative doivent leur vulnérabilité à divers facteurs. D’une part, note Oprea, la plupart des attaques sont « assez faciles à monter et nécessitent une connaissance minimale du système d’IA ». D’autre part, les énormes ensembles de données d’entraînement des modèles sont trop volumineux pour que les humains puissent les surveiller et les valider. Et le code qui sous-tend les modèles n’est pas automatisé ; il repose sur la modération humaine et est exposé à des ingérences humaines malveillantes.

Le résultat, selon le quatuor de chercheurs, est quatre principaux types d'attaques qui confondent les systèmes d'IA et provoquent leur dysfonctionnement : les attaques d'évasion qui modifient les entrées du modèle pour modifier ses réponses, les attaques d'empoisonnement qui corrompent les algorithmes sous-jacents ou les données d'entraînement du modèle, les attaques de confidentialité. les attaques qui incitent le modèle à révéler des données de formation sensibles telles que des informations médicales, et les attaques abusives qui transmettent des informations incorrectes à des sources légitimes dont le modèle apprend. En manipulant les entrées du modèle, les attaquants peuvent choisir ses sorties à l'avance.

"Cela peut être utilisé à des fins commerciales, à des fins publicitaires, pour générer du spam ou des discours de haine, des choses que le modèle ne générerait généralement pas", explique Oprea.

Sans se surcharger, les acteurs malveillants peuvent contrôler les données Web sur lesquelles un modèle d'IA s'entraîne, introduire une porte dérobée, puis orienter furtivement le comportement du modèle à partir de là. Compte tenu de la popularité croissante de ces modèles, de telles portes dérobées seraient déjà assez préoccupantes à elles seules. Mais les dégâts ne s'arrêtent pas là.

« Nous disposons désormais de ces applications intégrées qui utilisent les LLM. Par exemple, une entreprise crée un agent de messagerie qui s'intègre à un LLM en arrière-plan, et il peut désormais lire vos e-mails et envoyer des e-mails en votre nom », explique Oprea. « Mais les attaquants pourraient utiliser le même outil pour envoyer des logiciels malveillants et du spam à des milliers de personnes. La surface d'attaque a augmenté car nous intégrons des LLM dans ces applications.

Aussi destructeurs et dangereux que soient les discours de haine et le spam massif, des problèmes de sécurité encore plus importants se profilent à l’horizon.

"Certaines applications sont critiques pour la sécurité, comme les voitures autonomes", explique Oprea. "Si ces modèles font des prédictions incorrectes, ils ne peuvent pas être utilisés."

Alors qu'est ce qui peut être fait? L'équipe a préparé le rapport, qu'elle prévoit de mettre à jour chaque année, pour quelques publics : décideurs politiques, développeurs d'IA et universitaires qui peuvent utiliser la taxonomie du rapport comme base ou contexte pour leur propre travail. Selon Oprea, tous ces groupes ont du travail à faire pour garantir que les modèles d'IA s'alignent sur les valeurs humaines, préservent la confidentialité et fonctionnent dans le meilleur intérêt des utilisateurs. Mais elle reconnaît qu’il est difficile de résoudre chaque problème soulevé dans le rapport et que quiconque prône des solutions plutôt que des mesures d’atténuation se trompe lourdement.

« Il y a beaucoup plus d'attaques que d'atténuations, et pour chaque atténuation que nous mentionnons, il y a un compromis ou une surcharge de performances, y compris une dégradation de la précision du modèle », prévient Oprea. "Les mesures d'atténuation ne sont pas gratuites et sécuriser l'IA est une entreprise très difficile, mais nous espérons que le rapport fournira un point de départ utile pour comprendre les attaques."

spot_img

Dernières informations

spot_img