Logo Zéphyrnet

Microsoft déploie ces outils de sécurité pour Azure AI

Date :

Microsoft a introduit un ensemble d'outils censés contribuer à rendre les modèles d'IA plus sûrs à utiliser dans Azure.

Depuis que le secteur du cloud et du code a commencé à investir des fonds dans OpenAI et à doter son empire logiciel de capacités de chatbot – un drame joué avec la même ferveur par ses rivaux au milieu de promesses grandioses en matière de productivité – Microsoft a dû reconnaître que l’IA générative comporte des risques.

La dangers sont largement connus et parfois allègrement écartés. Il y a dix ans, Elon Musk prévenait que l’IA pourrait bien détruire l'humanité. Pourtant, cette préoccupation ne l'a pas empêché de rendre l'IA disponible dans voitures, sur son mégaphone des médias sociaux, et peut-être bientôt dans Collaboratif.

L’émergence de grands modèles linguistiques qui hallucinent et proposent des réponses incorrectes ou nuisibles a conduit à un retour à la planche à dessin, mais aussi à la salle du conseil d’administration pour obtenir des financements supplémentaires. Plutôt que de produire un produit sûr et éthique, l’industrie technologique tente d’apprivoiser les modèles sauvages, ou du moins de les maintenir suffisamment loin des clients qui peuvent se déchaîner sans blesser personne.

Et si ça ne marche pas, il y a toujours indemnité des réclamations légales, sous certaines conditions, de la part des fournisseurs.

Les engagements de l’industrie en faveur de la sécurité de l’IA coïncident avec les demandes gouvernementales correspondantes. Aux États-Unis, jeudi, le Bureau de la gestion et du budget (OMB) de la Maison Blanche émis sa première politique à l’échelle du gouvernement pour lutter contre les risques liés à l’IA.

La politique exige que les agences fédérales « mettent en œuvre des garanties concrètes lors de l'utilisation de l'IA d'une manière qui pourrait avoir un impact sur les droits ou la sécurité des Américains » d'ici le 1er décembre. Cela signifie des évaluations des risques, des tests et une surveillance, des efforts pour limiter la discrimination et les préjugés et pour promouvoir l'intelligence artificielle. transparence pour les applications de l’IA touchant à la santé, à l’éducation, au logement et à l’emploi.

Ainsi, Microsoft fait part de ses dernières mesures de sécurité en matière d'IA par l'intermédiaire de Sarah Bird, directrice produit de l'IA responsable, un titre qui implique l'existence d'une IA irresponsable – si vous pouvez l'imaginer.

Bird affirme que les chefs d’entreprise tentent d’équilibrer l’innovation et la gestion des risques, pour leur permettre d’utiliser l’IA générative sans en être mordus.

"Les attaques par injection rapide sont apparues comme un défi important, où des acteurs malveillants tentent de manipuler un système d'IA pour qu'il fasse quelque chose en dehors de son objectif prévu, comme produire du contenu préjudiciable ou exfiltrer des données confidentielles", explique Bird dans un communiqué. blog récents.

« En plus d'atténuer ces risques de sécurité, les organisations se soucient également de la qualité et de la fiabilité. Ils veulent s'assurer que leurs systèmes d'IA ne génèrent pas d'erreurs ou n'ajoutent pas d'informations non étayées dans les sources de données de l'application, ce qui pourrait éroder la confiance des utilisateurs.

Étant donné que la sécurité et la précision ne sont pas incluses dans les frais d'abonnement à l'IA, Microsoft y voit une opportunité pour les vendre en complément.

Les clients qui utilisent Azure AI Studio pour les aider à créer des applications d’IA génératives peuvent s’attendre à quatre nouveaux outils.

Premièrement, il y a Boucliers d'invite, qui promettent d'aider à se défendre contre les attaques par injection rapide. Anciennement connu sous le nom de Jailbreak Risk Detection et désormais en préversion publique, il s'agit d'un moyen d'atténuer le risque d'interférence directe et indirecte dans les modèles de fondation.

Les attaques directes impliquent des invites (entrées) conçues pour amener le modèle à ignorer sa formation en matière de sécurité. Les attaques indirectes font référence aux efforts visant à introduire des données dans un modèle. Une façon d'y parvenir pourrait être d'inclure du texte masqué dans un e-mail en sachant qu'un modèle d'IA agissant au nom du destinataire via, par exemple, Copilot dans Outlook, analysera le message, interprétera le texte masqué comme une commande et, espérons-le, agir selon les instructions, en faisant quelque chose comme répondre silencieusement avec des données sensibles.

Deuxième est Détection de mise à la terre, un système permettant de détecter lorsque les modèles d'IA hallucinent ou inventent des choses. Il offre aux clients plusieurs options lorsqu'une fausse déclaration est détectée, notamment le renvoi de la réponse pour qu'elle soit révisée avant son affichage. Microsoft affirme y être parvenu en créant un modèle de langage personnalisé qui évalue les allégations non fondées sur la base de documents sources. La réponse à la sécurité des modèles d’IA est donc, vous l’aurez deviné, un autre modèle.

Bien qu’il s’agisse d’une étape formidable vers une IA digne de confiance, le problème n’est toujours pas résolu.

Troisièmement, nous avons Évaluations de sécurité assistées par l'IA dans AI Studio, qui fournit un cadre de test pour présenter des modèles et des paramètres d'invite pour modéliser qui teste diverses interactions contradictoires avec l'application du client. Encore une fois, c'est l'IA qui teste l'IA.

Et enfin, il y a « surveillance des risques et de la sécurité », une fonctionnalité du service Azure OpenAI qui fournit des métriques de contenu nuisible.

Vinu Sankar Sadasivan, doctorant à l'Université du Maryland qui a contribué au développement du Attaque de BÊTE sur les LLM, dit Le registre que même s'il est passionnant de voir Azure créer des outils pour rendre l'IA plus sécurisée, l'ajout de modèles supplémentaires dans le mix élargit la surface d'attaque potentielle.

« Les évaluations de sécurité et les outils de surveillance des risques et de la sécurité d'Azure sont importants pour étudier la fiabilité des modèles d'IA », a-t-il déclaré. « Bien qu’il s’agisse d’une étape formidable vers une IA digne de confiance, le problème n’est toujours pas résolu. Par exemple, les Prompt Shields qu’ils introduisent utilisent vraisemblablement un autre modèle d’IA pour détecter et bloquer les attaques indirectes. Ce modèle d’IA peut être vulnérable à des menaces telles que des attaques contradictoires.

« Les adversaires pourraient exploiter ces vulnérabilités pour contourner les Prompt Shields. Bien que les messages du système de sécurité se soient révélés efficaces dans certains cas, les attaques existantes telles que BEAST peuvent attaquer de manière adverse les modèles d'IA pour les jailbreaker en un rien de temps. S’il est bénéfique de mettre en œuvre des défenses pour les systèmes d’IA, il est essentiel de rester conscient de leurs inconvénients potentiels. ®

spot_img

Dernières informations

spot_img