Logo Zéphyrnet

Ce que ChatGPT sait de vous : le parcours d'OpenAI vers la confidentialité des données

Date :

confidentialité des données

Après toutes les inquiétudes soulevées par la panne de données de ChatGPT le 20 mars dernier, nous avons rapidement observé quelques réactions du monde extérieur. Le plus puissant ? L'Italie interdit ChatGPT pour des raisons de confidentialité des données.

Près d'un mois après l'incident, OpenAI a déjà pris certaines mesures concernant la confidentialité des données des utilisateurs : La possibilité de désactiver l'historique des discussions et d'exporter vos données personnelles, c'est-à-dire les données qu'ils conservent de votre interaction avec ChatGPT.

Cet article décrit les deux principales actions entreprises par OpenAI concernant la confidentialité des données dans la puissante technologie de génération d'IA ChatGPT. Nous allons essayer les deux nouvelles fonctionnalités en examinant de plus près les données que ChatGPT conserve de ses utilisateurs, pour vous aider à comprendre le format donné et donc à interpréter vos données.

#1. Désactiver l'historique des discussions

L'historique ChatGPT est plus qu'un moyen de stocker vos conversations avec le chatbot afin que vous puissiez vous connecter à tout moment et consulter les conversations passées : Votre historique de chat est également utilisé pour former et améliorer les modèles derrière ChatGPT. 

L'historique des discussions a été activé le 15 décembre 2022, et soyons honnêtes : nous bénéficions tous du stockage de nos conversations ! Mais il est également vrai que cette fonctionnalité a soulevé des problèmes de confidentialité des données : ChatGPT conservait-il les données de conversation pour entraîner ses modèles d'IA ? Et si des données sensibles ou personnelles étaient partagées dans ces conversations ?

Maintenant, OpenAI a donné aux utilisateurs le pouvoir de contrôler cela ! Selon L'annonce d'OpenAI, depuis le 25 avril, il est possible de désactiver l'historique des discussions afin que les conversations n'apparaissent plus dans la barre latérale. De plus, ils ne seront pas utilisés pour une formation ultérieure, offrant à l'utilisateur la possibilité de gérer ses données.

Auparavant, les utilisateurs pouvaient périodiquement effacer leur historique de chat à la demande, mais n'importe quelle conversation pouvait toujours être utilisée pour un réglage fin. À partir de maintenant, si l'historique des discussions est désactivé, les conversations ne sont conservées que 30 jours. Ceci est fait juste au cas où les conversations doivent être révisées en raison d'une mauvaise utilisation de l'outil, avant de les supprimer définitivement.

La désactivation de l'historique des discussions est assez simple dans le Paramètres contrôle. Accéder Paramètres dans l'interface Web, accédez à la section inférieure gauche de la page principale. Une petite fenêtre apparaîtra et vous y trouverez le contrôle pour Historique des discussions et formation:

Capture d'écran personnelle de la fenêtre des paramètres de ChatGPT.

À ce stade, je suis sûr que vous aurez également remarqué le problème :
Pourquoi OpenAI a-t-il associé la sauvegarde de votre historique de chat à l'utilisation de ces données pour former ses modèles d'IA ?

Je suppose que c'est une façon de faire pression sur les utilisateurs pour qu'ils continuent à utiliser leurs conversations à des fins de formation. En faveur d'OpenAI, de par mon expérience professionnelle, je vois clairement les avantages d'utiliser ces données du monde réel pour la formation.

#2. Exportez vos données personnelles

OpenAI a également ajouté une deuxième nouvelle fonction dans les paramètres de ChatGPT : an Exportations possibilité d'obtenir vos données ChatGPT et découvrez quelles informations ChatGPT stocke à votre sujet.

Cette nouvelle option peut être considérée comme une étape vers la Règlement général de l'UE sur la protection des données (RGPD). Le RGPD définit, entre autres déclarations, les obligations des responsables du traitement de faciliter l'accès de la personne concernée à leurs données personnelles. C'est la raison pour laquelle les plateformes recueillant des informations personnelles telles que Google or Netflix sont désormais obligés de transmettre aux utilisateurs les données dont ils disposent auprès d'eux, à tout moment.

Dans l'interface Web, l'exportation des données personnelles est également très simple. Le Exporter les données bouton est disponible juste en dessous du Historique des discussions et formation un:

Capture d'écran personnelle de la fenêtre des paramètres de ChatGPT.

Quelques minutes avant d'exporter les données, j'ai reçu un fichier avec mes conversations et d'autres informations pertinentes dans ma boîte de réception d'enregistrement.

Capture d'écran personnelle de la fenêtre des paramètres de ChatGPT.

Après avoir confirmé l'action d'exportation, voici ce que j'ai reçu dans ma boîte aux lettres :

Capture d'écran faite par vous-même à partir de l'e-mail d'exportation de ChatGPT.

En cliquant sur le Télécharger bouton, j'ai un dossier avec 5 fichiers dans html ainsi que le json formats.

Si ce contenu éducatif approfondi vous est utile, vous pouvez abonnez-vous à notre liste de diffusion de recherche sur l'IA d'être alerté lorsque nous publierons du nouveau matériel. 

Les entreprises permettant à leurs utilisateurs de demander leurs données personnelles les obligent à se conformer au règlement RGPD susmentionné. Néanmoins, il y a un hic : le format du fichier peut rendre les données illisibles pour la plupart de la population. Dans ce cas, nous avons les deux html ainsi que le json des dossiers. Alors que html peut être lu directement, json les fichiers peuvent être plus difficiles à interpréter. Je pense personnellement que les nouvelles réglementations devraient également imposer un format lisible des données. Mais pour le moment…

Explorons les fichiers un par un pour tirer le meilleur parti de cette nouvelle fonctionnalité !

Historique de chat

Le premier fichier est chat.html qui contient tout mon historique de chat avec ChatGPT. Les conversations sont stockées avec leur titre correspondant. Les questions de l'utilisateur et les réponses de ChatGPT sont étiquetées comme assistantainsi que le user, Respectivement.

Si vous avez déjà entraîné vous-même un modèle d'IA, ce système d'étiquetage vous semblera familier.

Observons un exemple de conversation de mon histoire :

Capture d'écran personnelle de mon historique ChatGPT. Le titre de la conversation est surligné en bleu. Les étiquettes d'utilisateur/assistant sont mises en surbrillance en rouge et en vert, respectivement.

Feedback utilisateur

Avez-vous déjà vu les icônes de pouce vers le haut et vers le bas (👍👎) à côté d'une réponse ChatGPT ?

Ces informations sont vues par ChatGPT comme des commentaires pour une réponse donnée, qui aidera ensuite à la formation du chatbot.

Ces informations sont stockées dans le message_feedback.json fichier contenant tous les commentaires que vous avez fournis à ChatGPT à l'aide des icônes de pouce. Les informations sont stockées au format suivant :

[{"message_id": <MESSAGE ID>, "conversation_id": <CONVERSATION ID>, "user_id": <USER ID>, "rating": "thumbsDown", "content": "{"tags": ["not-helpful"]}"}]

Les thumbsDown la notation tient compte des réponses mal générées tandis que thumbsUp comptes pour ceux correctement générés.

Données d'utilisateur

Il existe également un fichier (user.json) contenant les données personnelles suivantes de l'utilisateur :

{"id": <USER ID>, "email": <USER EMAIL>, "chatgpt_plus_user": [true|false], "phone_number": <USER PONE>}

Certaines plateformes sont connues pour créer un modèle de l'utilisateur en fonction de son utilisation de la plateforme. Par exemple, si le Google les recherches d'un utilisateur portent principalement sur la programmation, Google est susceptible de déduire que l'utilisateur est un programmeur et d'utiliser ces informations pour afficher des publicités personnalisées.

ChatGPT pourrait faire de même avec les informations des conversations, mais ils sont actuellement obligés d'inclure ces informations déduites dans les données exportées.

⚠️ Pour info, On peut accéder à Ce que Google sait d'eux depuis Gmail en cliquant sur Compte >> Données et confidentialité >> Annonces personnalisées >> Mon centre d'annonces.

Historique complet des conversations

Il existe un autre fichier contenant l'historique des conversations, ainsi que certaines métadonnées. Ce fichier est nommé conversations.json ainsi que le inclut des informations telles que l'heure de création, plusieurs identifiants et le modèle derrière ChatGPT, entre autres.

⚠️ Les métadonnées fournissent des informations sur les principales données. Il peut inclure des informations telles que l'origine des données, leur signification, leur emplacement, leur propriété et leur création. Les métadonnées rendent compte des informations liées aux données principales, mais elles n'en font pas partie.

Explorons la même conversation sur le Défaillance du système hydraulique A320 exposés dans le premier exemple de ce json format. La conversation elle-même se compose des questions-réponses suivantes :

[utilisateur]: Que se passe-t-il lorsque l'un des trois systèmes hydrauliques d'un avion airbus 320 tombe en panne ? [assistant]: L'Airbus A320 est équipé de trois systèmes hydrauliques indépendants, chacun fournissant de l'énergie hydraulique à différentes parties de l'avion. Les systèmes hydrauliques sont étiquetés en vert, bleu et jaune […] [utilisateur]: Savez-vous ce que feront les pilotes en cas de double panne hydraulique ?

[assistant]: En cas de panne hydraulique double sur un Airbus A320, les pilotes seront confrontés à une situation plus difficile car les trois systèmes hydrauliques sont affectés et il n'y a pas de redondance sur laquelle se rabattre […]

De cette simple conversation, OpenAI conserve pas mal d'informations. Passons en revue les informations stockées :

{ "title":"A320 Hydraulic System Failure.", "create_time":1682368832.626937, "update_time":1682369104.0, "mapping": { [+] }, "moderation_results":[] "current_node":"<children_id4>", "plugin_ids":null, "id":"<conversation_id>"
}
  • Les principaux domaines de la json fichier contient les informations suivantes :

Le champ moderation_results est vide depuis aucun retour n'a été fourni à ChatGPT dans ce cas concret. En outre, le [+] symbole dans le mapping signifie que plus d'informations sont disponibles.

  • En fait, le mapping contient toutes les informations sur la conversation elle-même. Étant donné que la conversation a quatre interactions, le mappage stocke une children entrée par interaction.
{ "<mapping_id>":{ [+] }, "<parent_id>":{ [+] }, "<children_id>":{ [+] }, "<children_id2>":{ [+] }, "<children_id3>":{ [+] }, "<children_id4>":{ [+] }
}

Encore une fois, le [+] Le symbole indique que plus d'informations sont disponibles. Passons en revue les différentes entrées !

  • mapping_id: Il contient un id pour la conversation ainsi que des informations sur l'heure de création et le type de contenu, entre autres. Pour autant que l'on puisse en déduire, cela crée également un parent_id pour la conversation et un children_id qui correspond à l'interaction suivante de l'utilisateur avec ChatGPT. Voici un exemple:
{ "id":"<mapping_id>", "message":{ "id":"<message_id>", "author":{ "role":"system", "name":null, "metadata":{ } }, "create_time":1682369079.639335, "update_time":null, "content":{ "content_type":"text", "parts":[ "" ] }, "end_turn":true, "weight":1.0, "metadata":{ }, "recipient":"all" }, "parent":"<parent_id>", "children":[ "<children_id>" ]
}
  • children_idX: Une nouvelle children une entrée est créée pour chaque interaction soit depuis l'utilisateur, soit depuis l'assistant. Puisque la conversation a quatre interactions, le json le fichier affiche quatre children entrées. Chaque children l'entrée a la structure suivante :
{ "id":"<children_id>", "message":{ "id":"<children_id>", "author":{ "role":"user", "name":null, "metadata":{ } }, "create_time":1682368832.628375, "update_time":null, "content":{ "content_type":"text", "parts":[ "What happens when one of the three hydraulic systems of a plane airbus 320 fails?" ] }, "end_turn":null, "weight":1.0, "metadata":{ "timestamp_":"absolute", "message_type":null }, "recipient":"all" }, "parent":"<mapping_id>", "children":[ "<children_id2>" ]
}

La première children entrée est imbriquée dans la conversation en ayant le mapping_id en tant que parent et la deuxième interaction — la réponse de ChatGP — comme deuxième enfant.

  • Children qui correspondent à une réponse ChatGPT contiennent des champs supplémentaires. Par exemple, pour la deuxième interaction :
{ "id":"<children_id2>", "message":{ "id":"<children_id2>", "author":{ "role":"assistant", "name":null, "metadata":{ } }, "create_time":1682368856.590211, "update_time":null, "content":{ "content_type":"text", "parts":[ "The Airbus A320 aircraft is equipped with three independent hydraulic systems, each providing hydraulic power to different parts of the aircraft. The hydraulic systems are labeled as Green, Blue, and Yellow.nnIf one of the hydraulic systems of an Airbus A320 aircraft fails, the other two systems are designed to provide redundancy and ensure that the aircraft remains controllable. The remaining systems will automatically take over the functions of the failed system, so there should be no loss of control of the aircraft.nnHowever, the failure of one hydraulic system will result in a reduction of hydraulic pressure, which can affect the performance of some aircraft systems. For example, if the Green hydraulic system fails, some components like the slats, flaps, and some spoilers will be affected as they are powered by the Green system only. This can cause the aircraft to experience reduced maneuverability and increased drag, which can affect the ability of the aircraft to climb or maintain altitude.nnIn such a situation, the pilots will follow the procedures outlined in the aircraft's emergency checklist to manage the situation and ensure that the aircraft is flown safely to the nearest suitable airport for landing. The exact procedures will depend on the nature of the failure, but the pilots will prioritize maintaining control of the aircraft and ensuring the safety of the passengers and crew." ] }, "end_turn":true, "weight":1.0, "metadata":{ "message_type":null, "model_slug":"text-davinci-002-render-sha", "finish_details":{ "type":"stop", "stop":"<|im_end|>" }, "timestamp_":"absolute" }, "recipient":"all" }, "parent":"<children_id>", "children":[ "<children_id3>" ]
}

Dans le cas d'une réponse ChatGPT, nous obtenons des informations sur le modèle derrière ChatGPT et les mots d'arrêt. Il montre également le premier children comme ca parent et le troisième children comme l'interaction suivante.

Le fichier complet peut être trouvé dans ce GitHub essence.

Comparaison de modèles

Avez-vous déjà utilisé le bouton "Régénérer la réponse" alors que vous n'étiez pas entièrement convaincu par la réponse fournie par ChatGPT ?

Capture d'écran faite par vous-même à partir du bouton Régénérer la réponse dans ChatGPT.

Ces informations de retour sont également stockées !

Il existe un dernier fichier nommé model_comparisons.json qui contient des extraits des conversations et des tentatives consécutives à chaque fois que ChatGPT a régénéré la réponse. L'information contient uniquement le texte sans le titre mais incluant quelques autres métadonnées. Voici la structure de base de ce fichier :

{ "id":"<id>", "user_id":"<user_id>", "input":{[+]}, "output":{[+]}, "metadata":{[+]}, "create_time": "<time>"
}

Les metadata champ contient des informations importantes telles que le pays et le continent où la conversation a eu lieu, et des informations sur le https schéma d'accès, entre autres. La partie intéressante de ce dossier vient dans le input/output entrées :

Entrée

Les input contient une collection de messages de la conversation d'origine. Les interactions sont étiquetées en fonction de la auteur et, comme dans les cas précédents, certaines informations supplémentaires sont également stockées. Observons les messages stockés pour notre exemple de conversation :

[système]: Vous êtes ChatGPT, un grand modèle de langage formé par OpenAI, basé sur l'architecture GPT-3.5. [utilisateur]: Que se passe-t-il lorsque l'un des trois systèmes hydrauliques d'un avion airbus 320 tombe en panne ? [assistant]: L'Airbus A320 est équipé de trois systèmes hydrauliques indépendants, chacun fournissant de l'énergie hydraulique à différentes parties de l'avion. Les systèmes hydrauliques sont étiquetés en vert, bleu et jaune […] [utilisateur]: Savez-vous ce que feront les pilotes en cas de double panne hydraulique ? [assistant]: En cas de panne hydraulique double sur un Airbus A320, les pilotes seront confrontés à une situation plus difficile car les trois systèmes hydrauliques sont affectés et il n'y a pas de redondance sur laquelle se rabattre […]

User/Assistant les entrées sont attendues, mais je suis sûr qu'à ce stade, nous nous demandons tous pourquoi y a-t-il un system étiquette?

Et de plus, pourquoi alimentent-ils une déclaration initiale comme celle-ci au début de chaque conversation ?

ChatGPT est-il pré-alimenté avec la date actuelle dans toute nouvelle conversation ?

Ouices entrées sont les soi-disant messages système.

Messages système

Les messages système donnent des instructions générales à l'assistant. Ils aident à définir le comportement de l'assistant. Dans l'interface Web, les messages système sont transparents pour l'utilisateur, c'est pourquoi nous ne les voyons pas directement.

L'avantage du message système est qu'il permet au développeur de régler l'assistant sans faire de la demande elle-même une partie de la conversation. Les messages système peuvent être alimentés à l'aide de l'API. Par exemple, si vous construisez un assistant de vente de voitures, un message système possible pourrait être « Vous êtes un vendeur de voitures. Utilisez un ton amical et posez des questions aux utilisateurs jusqu'à ce que vous compreniez leur nécessité. Ensuite, expliquez les voitures disponibles qui correspondent à leurs préférences ». Vous pouvez même alimenter la liste des véhicules, des spécifications et des prix afin que l'assistant puisse également fournir ces informations.

Sortie

L'entrée de sortie contient les réponses données par ChatGPT et les essais consécutifs chaque fois que vous appuyez sur le Régénérer la réponse bouton:

{ "output":{ "feedback_version":"inline_regen_feedback:a:1.0", "ui_feature_name":"inline_regen_feedback", "ui_feature_variant":"a", "ui_feature_version":"1.0", "feedback_step_1":{[+]}, "feedback_step_2":{ "original_turn":[ { "id":"<original_turn_id>", "author":{[+]}, "create_time":1680877473.736083, "update_time":null, "content":{<original_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "new_turn":[ { "id":"<new_turn_id>", "author":{[+]}, "create_time":1680877502.81384, "update_time":null, "content":{<new_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "completion_comparison_rating":"new", "new_completion_placement":"not-applicable", "feedback_start_time":1680877456156, "compare_step_start_time":1680877456156, "new_completion_load_start_time":1680877456156000, "new_completion_load_end_time":1680877502976, "frontend_submission_time":1680877507949 } }
}

Comme observé ci-dessus, la feedback_step_1 L'entrée stocke des informations sur les commentaires pouce vers le haut/pouce vers le bas mentionnés précédemment.

Les informations de régénération sont stockées dans le feedback_step_2 entrée avec la première sous-entrée original_turn pour la réponse d'origine et la nouvelle réponse sous new_turn.

Et ce sont toutes les informations qu'OpenAI conserve sur nos interactions avec ChatGPT ! Je pense qu'avoir une idée des informations stockées peut être utile à deux fins principales.

Premièrement, dans le monde des données d'aujourd'hui, il est important de se soucier de notre vie privée et d'être conscient des informations que les plateformes stockent et déduisent à notre sujet. Deuxièmement, connaître la manière dont les informations sont structurées et traitées peut nous aider à créer des modèles personnalisés en utilisant ChatGPT comme point de départ. Par exemple, en examinant nos propres données, nous avons réalisé que vous pouvez alimenter ChatGPT avec des messages système pour orienter l'agent dans le but sur lequel nous voulons que l'agent travaille de manière transparente pour l'utilisateur.

Résumé

Dans cet article, nous avons passé en revue les mesures prises par OpenAI concernant la confidentialité des données des utilisateurs en réponse aux préoccupations soulevées au cours des derniers mois.

La possibilité de désactiver l'historique des discussions et la nouvelle fonctionnalité permettant d'exporter vos données personnelles à tout moment sont des étapes claires vers la protection des utilisateurs de ChatGPT. Personnellement, je considère ces étapes comme un engagement à donner la priorité à la confidentialité des données en adhérant aux réglementations pertinentes en matière de protection des données. La transparence et la sécurité sont essentielles pour instaurer la confiance et garantir une utilisation responsable de l'IA.

De notre point de vue — le côté utilisateur — Je pense qu'il vaut la peine d'être conscient des possibilités de gérer la confidentialité de nos données. Surtout en ce qui concerne ces deux nouvelles fonctionnalités qui contrôlent des points fondamentaux tels que s'assurer que vos interactions avec ChatGPT ne sont pas utilisées à des fins de formation si vous ne le souhaitez pas, ou recevoir explicitement les données exactes qu'une entreprise possède sur vous.

Bien sûr, il existe d'autres risques associés à l'utilisation de cette technologie. Par exemple, les utilisateurs doivent également être conscients de politiques de conservation des données. C'est savoir combien de temps la plateforme conserve les données, ce qui devrait idéalement être le minimum nécessaire. Comprendre le utilisation prévue des données que vous fournissez à la plateforme d'IA et être informé si la plateforme partage vos données avec des tiers et quel est le but du partage doit également faire partie de nos principales préoccupations.

En tenant compte de ces facteurs, les utilisateurs peuvent prendre des décisions éclairées concernant la confidentialité de leurs données lors de l'utilisation de ChatGPT ou de tout autre modèle de grande langue.

Il est important d'être proactif pour comprendre comment vos données sont traitées et prendre des mesures pour protéger vos droits à la vie privée.


Et c'est tout! Merci beaucoup pour la lecture!

J'espère que cet article vous aidera comprendre les informations que ChatGPT garde de nos conversations, Ainsi que gérer les nouvelles fonctionnalités OpenAI vers la confidentialité des données.

Vous pouvez également vous abonner à mon Newsletter pour rester à l'écoute du nouveau contenu. Notammentsi vous êtes intéressé par des articles sur ChatGPT.


Cet article a été publié initialement le Vers la science des données et republié sur TOPBOTS avec la permission de l'auteur.

Vous aimez cet article? Inscrivez-vous pour plus de mises à jour de recherche sur l'IA.

Nous vous informerons lorsque nous publierons d'autres articles résumés comme celui-ci.

spot_img

Dernières informations

spot_img