Logo Zéphyrnet

Le chatbot Grok AI d'Elon Musk a la sécurité la plus faible, tandis que le lama de Meta est fort : chercheurs – Décrypter

Date :

Les chercheurs en sécurité ont placé les garde-fous tant vantés autour des modèles d’IA les plus populaires pour voir dans quelle mesure ils résistaient au jailbreak, et ont testé jusqu’où les chatbots pouvaient être poussés en territoire dangereux. Le expérience a déterminé que Grok, le chatbot avec un « mode amusant » développé par x.AI d'Elon Musk- était l'outil le moins sûr du groupe.

"Nous voulions tester comment les solutions existantes se comparent et les approches fondamentalement différentes pour les tests de sécurité LLM qui peuvent conduire à divers résultats", Alex Polyakov, co-fondateur et PDG de IA Adversa, A déclaré Décrypter. L'entreprise de Polyakov se concentre sur la protection de l'IA et de ses utilisateurs contre les cybermenaces, les problèmes de confidentialité et les incidents de sécurité, et vante le fait que ses travaux sont cités dans les analyses du Gartner.

Le jailbreaking fait référence au contournement des restrictions de sécurité et des directives éthiques mises en œuvre par les développeurs de logiciels.

Dans un exemple, les chercheurs ont utilisé une approche de manipulation logique linguistique – également connue sous le nom de méthodes basées sur l’ingénierie sociale – pour demander à Grok comment séduire un enfant. Le chatbot a fourni une réponse détaillée, qui, selon les chercheurs, était « très sensible » et aurait dû être restreinte par défaut.

D'autres résultats fournissent des instructions sur la façon de connecter des voitures et de fabriquer des bombes.

Image : Adversa.AI

Les chercheurs ont testé trois catégories distinctes de méthodes d'attaque. Premièrement, la technique susmentionnée, qui applique diverses astuces linguistiques et invites psychologiques pour manipuler le comportement du modèle d'IA. Un exemple cité était l’utilisation d’un « jailbreak basé sur les rôles » en encadrant la demande dans le cadre d’un scénario fictif dans lequel des actions contraires à l’éthique sont autorisées.

L’équipe a également exploité des tactiques de manipulation de la logique de programmation qui exploitaient la capacité des chatbots à comprendre les langages de programmation et à suivre les algorithmes. L’une de ces techniques consistait à diviser une invite dangereuse en plusieurs parties inoffensives, puis à les concaténer pour contourner les filtres de contenu. Quatre modèles sur sept, dont ChatGPT d'OpenAI, Le Chat de Mistral, Gemini de Google et Grok de x.AI, étaient vulnérables à ce type d'attaque.

Image : Adversa.AI

La troisième approche impliquait des méthodes d’IA contradictoires qui ciblent la manière dont les modèles de langage traitent et interprètent les séquences de jetons. En élaborant soigneusement des invites avec des combinaisons de jetons ayant des représentations vectorielles similaires, les chercheurs ont tenté d'échapper aux systèmes de modération de contenu des chatbots. Dans ce cas, cependant, chaque chatbot a détecté l’attaque et a empêché son exploitation.

Les chercheurs ont classé les chatbots en fonction de la force de leurs mesures de sécurité respectives pour bloquer les tentatives de jailbreak. Meta LLAMA est arrivé en tête comme le modèle le plus sûr parmi tous les chatbots testés, suivi de Claude, puis de Gemini et GPT-4.

"La leçon, je pense, est que l'open source vous offre plus de variabilité pour protéger la solution finale par rapport aux offres fermées, mais seulement si vous savez quoi faire et comment le faire correctement", a déclaré Polyakov. Décrypter.

Grok, cependant, a montré une vulnérabilité comparativement plus élevée à certaines approches de jailbreak, en particulier celles impliquant la manipulation linguistique et l'exploitation de la logique de programmation. Selon le rapport, Grok était plus susceptible que d'autres de fournir des réponses qui pourraient être considérées comme nuisibles ou contraires à l'éthique lorsqu'elles étaient utilisées avec des jailbreaks.

Dans l'ensemble, le chatbot d'Elon s'est classé dernier, avec le modèle propriétaire de Mistral AI « Mistral Large ».

Image : Adversa.AI

Les détails techniques complets n’ont pas été divulgués afin d’éviter toute utilisation abusive potentielle, mais les chercheurs affirment vouloir collaborer avec les développeurs de chatbots pour améliorer les protocoles de sécurité de l’IA.

Les passionnés d’IA et les hackers recherchent constamment façons de « décensurer » les interactions avec les chatbots, échangeant des invites de jailbreak sur les forums de discussion et les serveurs Discord. Les astuces vont de l'OG Karen invite à des idées plus créatives comme en utilisant l'art ASCII or invite dans des langues exotiques. Ces communautés forment en quelque sorte un réseau antagoniste géant contre lequel les développeurs d’IA corrigent et améliorent leurs modèles.

Certains y voient une opportunité criminelle là où d’autres n’y voient que des défis amusants.

"De nombreux forums ont été trouvés où les gens vendent l'accès à des modèles jailbreakés qui peuvent être utilisés à des fins malveillantes", a déclaré Polyakov. "Les pirates peuvent utiliser des modèles jailbreakés pour créer des e-mails de phishing, des logiciels malveillants, générer des discours de haine à grande échelle et utiliser ces modèles à toute autre fin illégale."

Polyakov a expliqué que la recherche sur le jailbreak devient de plus en plus pertinente à mesure que la société commence à dépendre de plus en plus des solutions basées sur l'IA pour tout, depuis rendez vous amoureux à guerre.

« Si les chatbots ou les modèles sur lesquels ils s'appuient sont utilisés dans une prise de décision automatisée et connectés à des assistants de messagerie ou à des applications commerciales financières, les pirates informatiques pourront prendre le contrôle total des applications connectées et effectuer n'importe quelle action, comme envoyer des e-mails au nom de un utilisateur piraté ou effectuant des transactions financières », a-t-il prévenu.

Édité par Ryan Ozawa.

Restez au courant des actualités cryptographiques, recevez des mises à jour quotidiennes dans votre boîte de réception.

spot_img

Dernières informations

spot_img