Logo Zéphyrnet

Relever les défis de sécurité et de confidentialité des grands modèles linguistiques

Date :

Sécurité d'entreprise

Les organisations qui souhaitent exploiter le potentiel des LLM doivent également être capables de gérer les risques qui pourraient autrement éroder la valeur commerciale de la technologie.

Relever les défis de sécurité et de confidentialité des grands modèles linguistiques

Tout le monde parle de ChatGPT, de Bard et de l'IA générative en tant que telle. Mais après le battage médiatique vient inévitablement le retour à la réalité. Même si les dirigeants d'entreprise et les responsables informatiques sont en effervescence face au potentiel disruptif de la technologie dans des domaines tels que le service client et le développement de logiciels, ils sont également de plus en plus conscients de certains inconvénients et risques potentiels à surveiller.

En bref, pour que les organisations puissent exploiter le potentiel des grands modèles de langage (LLM), elles doivent également être capables de gérer les risques cachés qui pourraient autrement éroder la valeur commerciale de la technologie.

Quel est le problème avec les LLM ?

ChatGPT et d'autres outils d'IA générative sont alimentés par des LLM. Ils fonctionnent en utilisant des réseaux de neurones artificiels pour traiter d’énormes quantités de données textuelles. Après avoir appris les modèles entre les mots et la manière dont ils sont utilisés dans leur contexte, le modèle est capable d'interagir en langage naturel avec les utilisateurs. En fait, l'une des principales raisons du succès exceptionnel de ChatGPT est sa capacité à raconter des blagues, à composer des poèmes et, de manière générale, à communiquer d'une manière difficile à distinguer d'un véritable humain.

LECTURE CONNEXE: Écrire comme un patron avec ChatGPT : comment mieux détecter les escroqueries par phishing

Les modèles d'IA générative alimentés par LLM, tels qu'utilisés dans les chatbots comme ChatGPT, fonctionnent comme des moteurs de recherche surpuissants, utilisant les données sur lesquelles ils ont été formés pour répondre aux questions et effectuer des tâches avec un langage proche de celui des humains. Qu'il s'agisse de modèles accessibles au public ou de modèles propriétaires utilisés en interne au sein d'une organisation, l'IA générative basée sur LLM peut exposer les entreprises à certains risques en matière de sécurité et de confidentialité.

5 des principaux risques LLM

1. Partage excessif de données sensibles

Les chatbots basés sur LLM ne sont pas doués pour garder des secrets – ni pour les oublier, d'ailleurs. Cela signifie que toutes les données que vous saisissez peuvent être absorbées par le modèle et mises à la disposition d'autres personnes ou au moins utilisées pour former les futurs modèles LLM. Travailleurs de Samsung l'ont découvert à leurs dépens lorsqu'ils ont partagé des informations confidentielles avec ChatGPT tout en les utilisant pour des tâches liées au travail. Le code et les enregistrements de réunion qu'ils ont saisis dans l'outil pourraient théoriquement être dans le domaine public (ou au moins stockés pour une utilisation future, comme souligné par le National Cyber ​​Security Center du Royaume-Uni récemment). Plus tôt cette année, nous avons examiné de plus près comment les organisations peuvent éviter de mettre leurs données en danger lors de l'utilisation des LLM.

2. Défis liés au droit d'auteur  

Les LLM sont formés sur de grandes quantités de données. Mais ces informations sont souvent extraites du Web, sans l’autorisation explicite du propriétaire du contenu. Cela peut créer des problèmes potentiels de droits d’auteur si vous continuez à l’utiliser. Cependant, il peut être difficile de trouver la source originale de données de formation spécifiques, ce qui rend difficile l'atténuation de ces problèmes.

3. Code non sécurisé

Les développeurs se tournent de plus en plus vers ChatGPT et des outils similaires pour les aider à accélérer la mise sur le marché. En théorie, cela peut aider en générant rapidement et efficacement des extraits de code et même des logiciels entiers. Cependant, les experts en sécurité préviennent que cela peut également générer des vulnérabilités. Ceci est particulièrement préoccupant si le développeur ne possède pas suffisamment de connaissances dans le domaine pour savoir quels bogues rechercher. Si du code bogué se retrouve ensuite en production, cela pourrait avoir un impact sérieux sur la réputation et nécessiter du temps et de l’argent pour être corrigé.

4. Pirater le LLM lui-même

L'accès non autorisé et la falsification des LLM pourraient fournir aux pirates informatiques une gamme d'options pour effectuer des activités malveillantes, telles que faire en sorte que le modèle divulgue des informations sensibles via des attaques par injection rapide ou effectue d'autres actions censées être bloquées. D'autres attaques peuvent impliquer l'exploitation de vulnérabilités de falsification de requêtes côté serveur (SSRF) dans les serveurs LLM, permettant aux attaquants d'extraire des ressources internes. Les acteurs malveillants pourraient même trouver un moyen d’interagir avec des systèmes et des ressources confidentielles simplement en envoyant des commandes malveillantes via des invites en langage naturel.

LECTURE CONNEXE: Black Hat 2023 : l'IA reçoit un gros prix en argent pour le défenseur

À titre d'exemple, ChatGPT a dû être mis hors ligne en mars suite à la découverte d'une vulnérabilité qui exposait les titres des historiques de conversations de certains utilisateurs à d'autres utilisateurs. Afin de sensibiliser aux vulnérabilités des applications LLM, la Fondation OWASP a récemment publié une liste de 10 failles de sécurité critiques couramment observé dans ces applications.

5. Une violation de données chez le fournisseur d'IA

Il existe toujours un risque qu'une entreprise qui développe des modèles d'IA soit elle-même victime d'une violation, permettant ainsi aux pirates informatiques de voler, par exemple, des données de formation pouvant inclure des informations propriétaires sensibles. Il en va de même pour les fuites de données, par exemple lorsque Google a été par inadvertance fuite de discussions privées avec Bard dans ses résultats de recherche.

Que faire ensuite

Si votre organisation souhaite commencer à exploiter le potentiel de l’IA générative pour obtenir un avantage concurrentiel, elle devrait d’abord prendre certaines mesures pour atténuer certains de ces risques :

  • Cryptage et anonymisation des données : Chiffrez les données avant de les partager avec les LLM pour les protéger des regards indiscrets, et/ou envisagez des techniques d'anonymisation pour protéger la vie privée des personnes qui pourraient être identifiées dans les ensembles de données. La désinfection des données peut atteindre le même objectif en supprimant les détails sensibles des données d’entraînement avant qu’elles ne soient introduites dans le modèle.
  • Contrôles d'accès améliorés : Des mots de passe forts, une authentification multifacteur (MFA) et des politiques de moindre privilège contribueront à garantir que seules les personnes autorisées ont accès au modèle d'IA générative et aux systèmes back-end.
  • Audits de sécurité réguliers : Cela peut aider à découvrir les vulnérabilités de vos systèmes informatiques qui peuvent avoir un impact sur les modèles LLM et d'IA générative sur lesquels ils sont construits.
  • Pratiquez des plans de réponse aux incidents : Un plan de RI solide et bien préparé aidera votre organisation à réagir rapidement pour contenir, remédier et se remettre de toute violation.
  • Vétériner minutieusement les prestataires de LLM : Comme pour tout fournisseur, il est important de s'assurer que l'entreprise fournissant le LLM suit les meilleures pratiques du secteur en matière de sécurité et de confidentialité des données. Assurez-vous que l'endroit où les données utilisateur sont traitées et stockées, et si elles sont utilisées pour entraîner le modèle, est clairement indiqué. Combien de temps se conserve-t-il ? Est-il partagé avec des tiers ? Pouvez-vous accepter ou refuser que vos données soient utilisées pour la formation ?
  • Assurez-vous que les développeurs suivent des directives de sécurité strictes : Si vos développeurs utilisent des LLM pour générer du code, assurez-vous qu'ils respectent les politiques, telles que les tests de sécurité et l'examen par les pairs, afin d'atténuer le risque d'apparition de bogues en production.

La bonne nouvelle est qu’il n’est pas nécessaire de réinventer la roue. La plupart des conseils ci-dessus sont des conseils de sécurité éprouvés et éprouvés. Ils peuvent avoir besoin d’être mis à jour/ajustés pour le monde de l’IA, mais la logique sous-jacente devrait être familière à la plupart des équipes de sécurité.

LIRE AUSSI: A Bard's Tale : comment de faux robots IA tentent d'installer des logiciels malveillants

spot_img

Dernières informations

spot_img