Logo Zéphyrnet

Les jailbreaks AI Chatbot révèlent des données privées d’OpenAI et d’Amazon – Décrypter

Date :

Le développeur de ChatGPT, OpenAI, a comblé une faille qui a incité son chatbot phare à révéler les données internes de l'entreprise. La principale société d'IA a classé le piratage, incitant ChatGPT à répéter un mot encore et encore, indéfiniment, comme du spam du service et une violation de ses conditions de service.

L'agent IA beaucoup plus récent d'Amazon, Q, a également été signalé pour trop de partage.

Des chercheurs de l'Université de Washington, de l'Université Carnegie Mellon, de l'Université Cornell, de l'UC Berkeley, de l'ETH Zurich et de Google DeepMind ont publié une étude. rapport qui a révélé que demander à ChatGPT de répéter un mot pour toujours révélerait une « distribution préalable à la formation » sous la forme d'informations privées provenant d'OpenAI, notamment des e-mails, des numéros de téléphone et de fax.

"Afin de récupérer les données du modèle adapté au dialogue, nous devons trouver un moyen de faire en sorte que le modèle 'échappe' à son entraînement d'alignement et revienne à son objectif de modélisation du langage d'origine", indique le rapport. "Cela permettrait alors, espérons-le, au modèle de générer des échantillons qui ressemblent à sa distribution avant la formation."

Cependant, après la publication du rapport, les tentatives visant à recréer l’erreur ont été stoppées. ChatGPT-3 et GPT-4 avertiront l'utilisateur : « Ce contenu peut enfreindre notre politique de contenu ou nos conditions d'utilisation. »

Image : Chat GPT

Même si OpenAI politique de contenu ne fait pas référence aux boucles éternelles, il indique que les activités frauduleuses comme le spam ne sont pas autorisées. Plus particulièrement, la société conditions de service sont plus concrets concernant les utilisateurs tentant d'accéder à des informations privées ou de découvrir le code source de la suite d'outils d'IA d'OpenAI.

« Tenter ou aider quiconque à faire de l'ingénierie inverse, à décompiler ou à découvrir le code source ou les composants sous-jacents de nos services, y compris nos modèles, algorithmes ou systèmes (sauf dans la mesure où cette restriction est interdite par la loi applicable). »

Lorsqu'on lui demande pourquoi il ne peut pas terminer la demande, ChatGPT blâme les contraintes de traitement, les limitations de caractères, les limitations de réseau et de stockage, ainsi que l'aspect pratique de l'exécution de la commande.

Image : Chat GPT

OpenAI n'a pas encore répondu à Décrypter demande de commentaire.

Une commande visant à répéter un mot indéfiniment pourrait également être caractérisée comme un effort concerté visant à provoquer un dysfonctionnement d'un chatbot en le verrouillant dans une boucle de traitement, similaire à une attaque par déni de service distribué (DDoS).

Le mois dernier, OpenAI a révélé que ChatGPT avait été touché par un Attaque DDoS, ce que le développeur d'IA a confirmé sur la page d'état de ChatGPT.

"Nous sommes confrontés à des pannes périodiques dues à un trafic anormal reflétant une attaque DDoS", a déclaré la société. "Nous poursuivons nos travaux pour atténuer cela."

Pendant ce temps, Amazon semble également avoir un problème avec un chatbot qui divulgue des informations privées, selon un rapport by Plates-formes. Amazon a récemment lancé son Chatbot Q (à ne pas confondre avec Le projet Q* d'OpenAI).

Amazon a tenté de minimiser la révélation, Plates-formes » a déclaré, expliquant que les employés partageaient leurs commentaires via des canaux internes, ce qui, selon Amazon, était une pratique courante.

"Aucun problème de sécurité n'a été identifié suite à ces commentaires", a déclaré Amazon dans un communiqué. "Nous apprécions tous les commentaires que nous avons déjà reçus et continuerons à améliorer Q à mesure qu'il passe du statut de produit en avant-première à celui de disponibilité générale."

Amazon n'a pas encore répondu Décrypter demande de commentaire.

Édité par Ryan Ozawa.

Restez au courant des actualités cryptographiques, recevez des mises à jour quotidiennes dans votre boîte de réception.

spot_img

Dernières informations

spot_img