Zephyrnet-logo

Wat ChatGPT over u weet: de reis van OpenAI naar gegevensprivacy

Datum:

data Privacy

Na alle zorgen over de datastoring van ChatGPT op 20 maart, zagen we al snel enkele reacties van buitenaf. De meest krachtige? Italië verbiedt ChatGPT vanwege zorgen over gegevensprivacy.

Bijna een maand na het incident heeft OpenAI al enkele maatregelen genomen met betrekking tot de privacy van gebruikersgegevens: De mogelijkheid om de chatgeschiedenis uit te schakelen en uw persoonlijke gegevens te exporteren, dwz de gegevens die ze bewaren van uw interactie met ChatGPT.

Dit artikel schetst de twee belangrijke acties die OpenAI heeft ondernomen met betrekking tot gegevensprivacy in de krachtige AI-generatietechnologie ChatGPT. We zullen de twee nieuwe functies uitproberen met een nadere blik op de gegevens die ChatGPT van zijn gebruikers bewaart, om u te helpen het gegeven formaat te begrijpen en daarom uw gegevens te interpreteren.

#1. Schakel de chatgeschiedenis uit

ChatGPT-geschiedenis is meer dan een manier om uw gesprekken met de chatbot op te slaan, zodat u op elk moment kunt inloggen en eerdere gesprekken kunt bekijken: Je chatgeschiedenis wordt ook gebruikt om de modellen achter ChatGPT te trainen en te verbeteren. 

Chatgeschiedenis is ingeschakeld op 15 december 2022, en laten we eerlijk zijn: we profiteren allemaal van de opslag van onze gesprekken! Maar het is ook waar dat deze functie enkele zorgen over gegevensprivacy opriep: Bewaarde ChatGPT gespreksgegevens om zijn AI-modellen te trainen? Wat als gevoelige of persoonlijke gegevens in die gesprekken werden gedeeld?

Nu heeft OpenAI gebruikers de mogelijkheid gegeven om dit te controleren! Think OpenAI's aankondiging, vanaf 25 april is het mogelijk om de chatgeschiedenis uit te schakelen zodat gesprekken niet meer in de zijbalk verschijnen. Bovendien worden ze niet gebruikt voor verdere training, waardoor de gebruiker de mogelijkheid heeft om zijn gegevens te beheren.

Voorheen konden gebruikers periodiek op verzoek hun chatgeschiedenis wissen, maar elk gesprek kon nog steeds worden gebruikt voor fijnafstemming. Vanaf nu, als de chatgeschiedenis is uitgeschakeld, gesprekken worden slechts 30 dagen bewaard. Dit wordt gedaan voor het geval gesprekken moeten worden beoordeeld vanwege misbruik van de tool, voordat u ze permanent verwijdert.

Het uitschakelen van de chatgeschiedenis is vrij eenvoudig in de Instellingen controle. Om toegang te krijgen Instellingen navigeer in de webinterface naar het gedeelte linksonder op de hoofdpagina. Er verschijnt een klein venster en daar vindt u de bediening voor Chatgeschiedenis en training:

Zelfgemaakt screenshot uit het instellingenvenster van ChatGPT.

Op dit punt weet ik zeker dat je de vangst ook hebt opgemerkt:
Waarom heeft OpenAI het opslaan van uw chatgeschiedenis gekoppeld aan het gebruik van deze gegevens om zijn AI-modellen te trainen?

Ik denk dat het een manier is om gebruikers onder druk te zetten om hun gesprekken te blijven gebruiken voor trainingsdoeleinden. Als een voorstander van OpenAI zie ik vanuit mijn professionele ervaring duidelijk de voordelen van het gebruik van deze real-world data voor training.

#2. Exporteer uw persoonlijke gegevens

OpenAI heeft ook een tweede nieuwe functie toegevoegd in ChatGPT's Instellingen: an Exporteren optie om uw ChatGPT-gegevens op te halen en ontdek welke informatie ChatGPT over u opslaat.

Deze nieuwe optie kan worden gezien als een stap in de richting van de EU algemene verordening gegevensbescherming (AVG). De AVG definieert onder meer de verplichtingen van degenen die gegevens verwerken om de toegang van de betrokkene tot hun persoonsgegevens te vergemakkelijken. Dat is de reden waarom de platforms persoonlijke informatie verzamelen, zoals Kopen Google Reviews or Netflix zijn nu verplicht om de gegevens die ze van hen hebben op elk moment naar de gebruikers te sturen.

In de webinterface is het exporteren van persoonlijke gegevens ook heel eenvoudig. De Exportgegevens knop is beschikbaar net onder de Chatgeschiedenis en training een:

Zelfgemaakt screenshot uit het instellingenvenster van ChatGPT.

Slechts een paar minuten voordat ik de gegevens exporteerde, ontving ik een bestand met mijn gesprekken en andere relevante informatie in mijn registratie-e-mailinbox.

Zelfgemaakt screenshot uit het instellingenvenster van ChatGPT.

Na bevestiging van de exportactie ontving ik dit in mijn mailbox:

Zelfgemaakt screenshot van de export-e-mail van ChatGPT.

Door te klikken op de Downloaden knop, ik heb een map met 5 bestanden erin html en json formaten.

Als deze diepgaande educatieve inhoud nuttig voor je is, kan dat abonneer u op onze AI-research mailinglijst om gewaarschuwd te worden wanneer we nieuw materiaal uitbrengen. 

Bedrijven die hun gebruikers toestaan ​​om hun persoonlijke gegevens op te vragen, laten hen voldoen aan de eerder genoemde GDPR-regelgeving. Toch zit er een addertje onder het gras: het bestandsformaat kan de gegevens voor het grootste deel van de bevolking onleesbaar maken. In dit geval hebben we beide html en json bestanden. Terwijl html direct leesbaar, json bestanden kunnen moeilijker te interpreteren zijn. Zelf vind ik dat nieuwe regelgeving ook een leesbaar formaat van de data moet afdwingen. Maar voorlopig…

Laten we de bestanden één voor één bekijken om het meeste uit deze nieuwe functie te halen!

Chatgeschiedenis

Het eerste bestand is chat.html die mijn volledige chatgeschiedenis met ChatGPT bevat. Gesprekken worden opgeslagen met de bijbehorende titel. De vragen van de gebruiker en de antwoorden van ChatGPT zijn gelabeld als assistanten user, Respectievelijk.

Als je ooit zelf een AI-model hebt getraind, zal dit labelsysteem je bekend in de oren klinken.

Laten we een voorbeeldgesprek uit mijn geschiedenis bekijken:

Zelfgemaakt screenshot uit mijn ChatGPT-geschiedenis. De titel van het gesprek is blauw gemarkeerd. Gebruikers-/assistentlabels zijn respectievelijk rood en groen gemarkeerd.

gebruikersfeedback

Heb je ooit de duim-omhoog, duim-omlaag-pictogrammen (👍👎) naast een ChatGPT-antwoord gezien?

Deze informatie wordt door ChatGPT gezien als de feedback voor een gegeven antwoord, die dan zal helpen bij de chatbottraining.

Deze informatie wordt opgeslagen in de message_feedback.json bestand met alle feedback die u aan ChatGPT hebt gegeven met behulp van de duimpictogrammen. Informatie wordt opgeslagen in het volgende formaat:

[{"message_id": <MESSAGE ID>, "conversation_id": <CONVERSATION ID>, "user_id": <USER ID>, "rating": "thumbsDown", "content": "{"tags": ["not-helpful"]}"}]

De thumbsDown rating is goed voor verkeerd gegenereerde antwoorden, terwijl de thumbsUp goed voor de correct gegenereerde.

Gebruikersgegevens

Er is ook een bestand (user.json) met daarin de volgende persoonsgegevens van de gebruiker:

{"id": <USER ID>, "email": <USER EMAIL>, "chatgpt_plus_user": [true|false], "phone_number": <USER PONE>}

Sommige platforms staan ​​erom bekend een model van de gebruiker te maken op basis van hun gebruik van het platform. Als de Kopen Google Reviews zoekopdrachten van een gebruiker gaan meestal over programmeren, Kopen Google Reviews zal waarschijnlijk concluderen dat de gebruiker een programmeur is en deze informatie gebruiken om gepersonaliseerde advertenties te tonen.

ChatGPT zou hetzelfde kunnen doen met de informatie uit de gesprekken, maar ze zijn momenteel verplicht om deze afgeleide informatie op te nemen in de geëxporteerde gegevens.

⚠️ FYI, Men kan toegang krijgen tot Wat Google over hen weet vanuit Gmail door te klikken op Account >> Gegevens en privacy >> Gepersonaliseerde advertenties >> Mijn advertentiecentrum.

Volledige gespreksgeschiedenis

Er is nog een bestand met de gespreksgeschiedenis en ook enkele metadata. Dit bestand heet conversations.json en bevat onder andere informatie zoals de aanmaaktijd, verschillende identifiers en het model achter ChatGPT.

⚠️ De metadata geeft informatie over de belangrijkste data. Het kan informatie bevatten zoals de oorsprong van de gegevens, de betekenis, de locatie, het eigendom en de creatie ervan. Metadata is goed voor informatie met betrekking tot de hoofdgegevens, maar maakt er geen deel van uit.

Laten we hetzelfde gesprek over de A320 Storing hydraulisch systeem blootgesteld in het eerste voorbeeld hierin json formaat. Het gesprek zelf bestaat uit de volgende Q&A:

[gebruiker]: Wat gebeurt er als een van de drie hydraulische systemen van een Airbus 320-vliegtuig uitvalt? [assistent]: Het Airbus A320-vliegtuig is uitgerust met drie onafhankelijke hydraulische systemen, die elk hydraulisch vermogen leveren aan verschillende delen van het vliegtuig. De hydraulische systemen zijn gelabeld als groen, blauw en geel […] [gebruiker]: Weet jij wat piloten zullen doen in het geval van een dubbele hydraulische storing?

[assistent]: In het geval van een dubbele hydraulische storing aan een Airbus A320-vliegtuig, zullen de piloten met een meer uitdagende situatie worden geconfronteerd, aangezien alle drie de hydraulische systemen worden beïnvloed en er geen redundantie is om op terug te vallen […]

Van dit simpele gesprek bewaart OpenAI nogal wat informatie. Laten we de opgeslagen informatie bekijken:

{ "title":"A320 Hydraulic System Failure.", "create_time":1682368832.626937, "update_time":1682369104.0, "mapping": { [+] }, "moderation_results":[] "current_node":"<children_id4>", "plugin_ids":null, "id":"<conversation_id>"
}
  • De belangrijkste velden van de json bestand bevat de volgende informatie:

Het veld moderation_results is sindsdien leeg er werd in dit concrete geval geen feedback gegeven aan ChatGPT. Bovendien, de [+] symbool in de mapping veld betekent dat er meer informatie beschikbaar is.

  • In feite is de mapping veld bevat alle informatie over het gesprek zelf. Aangezien het gesprek vier interacties heeft, slaat de mapping er één op children invoer per interactie.
{ "<mapping_id>":{ [+] }, "<parent_id>":{ [+] }, "<children_id>":{ [+] }, "<children_id2>":{ [+] }, "<children_id3>":{ [+] }, "<children_id4>":{ [+] }
}

Nogmaals, de [+] symbool geeft aan dat er meer informatie beschikbaar is. Laten we de verschillende inzendingen eens bekijken!

  • mapping_id: Het bevat een id voor het gesprek en informatie over onder andere de aanmaaktijd en het type inhoud. Voor zover men kan afleiden, creëert het ook een parent_id voor het gesprek en a children_id die overeenkomt met de volgende interactie van de gebruiker met ChatGPT. Hier is een voorbeeld:
{ "id":"<mapping_id>", "message":{ "id":"<message_id>", "author":{ "role":"system", "name":null, "metadata":{ } }, "create_time":1682369079.639335, "update_time":null, "content":{ "content_type":"text", "parts":[ "" ] }, "end_turn":true, "weight":1.0, "metadata":{ }, "recipient":"all" }, "parent":"<parent_id>", "children":[ "<children_id>" ]
}
  • children_idX: Een nieuwe children voor elke interactie wordt een invoer gemaakt, hetzij door de gebruiker, hetzij door de assistent. Aangezien het gesprek vier interacties heeft, is de json bestand geeft er vier weer children inzendingen. Elk children invoer heeft de volgende structuur:
{ "id":"<children_id>", "message":{ "id":"<children_id>", "author":{ "role":"user", "name":null, "metadata":{ } }, "create_time":1682368832.628375, "update_time":null, "content":{ "content_type":"text", "parts":[ "What happens when one of the three hydraulic systems of a plane airbus 320 fails?" ] }, "end_turn":null, "weight":1.0, "metadata":{ "timestamp_":"absolute", "message_type":null }, "recipient":"all" }, "parent":"<mapping_id>", "children":[ "<children_id2>" ]
}

De eerste children item is genest in het gesprek door de mapping_id als ouder en de tweede interactie — het antwoord van ChatGP — als tweede kind.

  • Children die overeenkomen met een ChatGPT-antwoord bevatten extra velden. Bijvoorbeeld voor de tweede interactie:
{ "id":"<children_id2>", "message":{ "id":"<children_id2>", "author":{ "role":"assistant", "name":null, "metadata":{ } }, "create_time":1682368856.590211, "update_time":null, "content":{ "content_type":"text", "parts":[ "The Airbus A320 aircraft is equipped with three independent hydraulic systems, each providing hydraulic power to different parts of the aircraft. The hydraulic systems are labeled as Green, Blue, and Yellow.nnIf one of the hydraulic systems of an Airbus A320 aircraft fails, the other two systems are designed to provide redundancy and ensure that the aircraft remains controllable. The remaining systems will automatically take over the functions of the failed system, so there should be no loss of control of the aircraft.nnHowever, the failure of one hydraulic system will result in a reduction of hydraulic pressure, which can affect the performance of some aircraft systems. For example, if the Green hydraulic system fails, some components like the slats, flaps, and some spoilers will be affected as they are powered by the Green system only. This can cause the aircraft to experience reduced maneuverability and increased drag, which can affect the ability of the aircraft to climb or maintain altitude.nnIn such a situation, the pilots will follow the procedures outlined in the aircraft's emergency checklist to manage the situation and ensure that the aircraft is flown safely to the nearest suitable airport for landing. The exact procedures will depend on the nature of the failure, but the pilots will prioritize maintaining control of the aircraft and ensuring the safety of the passengers and crew." ] }, "end_turn":true, "weight":1.0, "metadata":{ "message_type":null, "model_slug":"text-davinci-002-render-sha", "finish_details":{ "type":"stop", "stop":"<|im_end|>" }, "timestamp_":"absolute" }, "recipient":"all" }, "parent":"<children_id>", "children":[ "<children_id3>" ]
}

In het geval van een ChatGPT-antwoord, we krijgen informatie over het model achter ChatGPT en de stopwoorden. Het toont ook de eerste children zoals parent en de derde children als de volgende interactie.

Het volledige bestand is te vinden in deze GitHub kern.

Modelvergelijking:

Heb je ooit de knop "Reageer reactie" gebruikt terwijl je niet helemaal overtuigd was door de reactie van ChatGPT?

Zelfgemaakt screenshot van de Regenereer responsknop in ChatGPT.

Deze feedbackinformatie wordt ook opgeslagen!

Er is een laatste bestand met de naam model_comparisons.json dat bevat fragmenten van de gesprekken en de opeenvolgende pogingen wanneer ChatGPT het antwoord opnieuw heeft gegenereerd. De informatie bevat alleen de tekst zonder de titel, maar inclusief enkele andere metadata. Hier is de basisstructuur van dit bestand:

{ "id":"<id>", "user_id":"<user_id>", "input":{[+]}, "output":{[+]}, "metadata":{[+]}, "create_time": "<time>"
}

De metadata veld bevat belangrijke informatie, zoals het land en continent waar het gesprek plaatsvond, en informatie over de https toegangsschema, onder andere. Het interessante deel van dit bestand komt in de input/output inzendingen:

Invoer

De input bevat een verzameling berichten uit het oorspronkelijke gesprek. Interacties zijn gelabeld afhankelijk van de auteur en, zoals in de voorgaande gevallen, wordt ook wat aanvullende informatie opgeslagen. Laten we de berichten bekijken die zijn opgeslagen voor ons voorbeeldgesprek:

[systeem]: Jij bent ChatGPT, een groot taalmodel getraind door OpenAI, gebaseerd op de GPT-3.5-architectuur.n Kennisgrens: 2021–09n Huidige datum: 2023–04–07. [gebruiker]: Wat gebeurt er als een van de drie hydraulische systemen van een Airbus 320-vliegtuig uitvalt? [assistent]: Het Airbus A320-vliegtuig is uitgerust met drie onafhankelijke hydraulische systemen, die elk hydraulisch vermogen leveren aan verschillende delen van het vliegtuig. De hydraulische systemen zijn gelabeld als groen, blauw en geel […] [gebruiker]: Weet jij wat piloten zullen doen in het geval van een dubbele hydraulische storing? [assistent]: In het geval van een dubbele hydraulische storing aan een Airbus A320-vliegtuig, zullen de piloten met een meer uitdagende situatie worden geconfronteerd, aangezien alle drie de hydraulische systemen worden beïnvloed en er geen redundantie is om op terug te vallen […]

User/Assistant inzendingen worden verwacht, maar ik weet zeker dat we ons op dit moment allemaal afvragen waarom is er een system etiket?

En bovendien, waarom voeden ze een eerste verklaring als deze aan het begin van elk gesprek?

Voert ChatGPT vooraf met de huidige datum in een nieuw gesprek?

Jadie vermeldingen zijn de zogenaamde systeemberichten.

Systeemberichten

Systeemberichten geven algemene instructies aan de assistent. Ze helpen om het gedrag van de assistent te bepalen. In de webinterface zijn systeemmeldingen transparant voor de gebruiker, daarom zien we ze niet direct.

Het voordeel van het systeembericht is dat de ontwikkelaar de assistent kan afstemmen zonder het verzoek zelf onderdeel van het gesprek te maken. Systeemberichten kunnen worden ingevoerd met behulp van de API. Als u bijvoorbeeld een autoverkoper bouwt, zou een mogelijk systeembericht kunnen zijn “Je bent een autoverkoper. Gebruik een vriendelijke toon en stel vragen aan de gebruikers totdat u hun noodzaak begrijpt. Leg vervolgens de beschikbare auto's uit die overeenkomen met hun voorkeuren ". U kunt zelfs de lijst met voertuigen, specificaties en prijzen invoeren, zodat de assistent deze informatie ook kan geven.

uitgang

Het uitvoeritem bevat de antwoorden van ChatGPT en de opeenvolgende pogingen telkens wanneer u op de Reactie opnieuw genereren knop:

{ "output":{ "feedback_version":"inline_regen_feedback:a:1.0", "ui_feature_name":"inline_regen_feedback", "ui_feature_variant":"a", "ui_feature_version":"1.0", "feedback_step_1":{[+]}, "feedback_step_2":{ "original_turn":[ { "id":"<original_turn_id>", "author":{[+]}, "create_time":1680877473.736083, "update_time":null, "content":{<original_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "new_turn":[ { "id":"<new_turn_id>", "author":{[+]}, "create_time":1680877502.81384, "update_time":null, "content":{<new_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "completion_comparison_rating":"new", "new_completion_placement":"not-applicable", "feedback_start_time":1680877456156, "compare_step_start_time":1680877456156, "new_completion_load_start_time":1680877456156000, "new_completion_load_end_time":1680877502976, "frontend_submission_time":1680877507949 } }
}

Zoals hierboven opgemerkt, de feedback_step_1 invoer slaat informatie op over de eerder genoemde thumbs-up / thumbs-down-feedback.

De regeneratie-informatie wordt opgeslagen in de feedback_step_2 invoer met de eerste subinvoer original_turn voor het oorspronkelijke antwoord en het opnieuw geprobeerde antwoord onder new_turn.

En dat is alle informatie die OpenAI bijhoudt over onze interacties met ChatGPT! Ik denk dat een idee hebben van welke informatie is opgeslagen nuttig kan zijn voor twee belangrijke doeleinden.

Ten eerste, in de huidige datawereld, het is belangrijk om om onze privacy te geven en op de hoogte te zijn van de informatie die de platforms over ons opslaan en afleiden. Ten tweede kan kennis van de manier waarop informatie is gestructureerd en behandeld ons helpen bij het bouwen van aangepaste modellen met ChatGPT als uitgangspunt. Door bijvoorbeeld in onze eigen gegevens te kijken, we realiseerden ons dat je ChatGPT kunt voeden met systeemberichten om de agent te oriënteren aan het doel waaraan we willen dat de agent werkt op een transparante manier voor de gebruiker.

Samengevat

In dit artikel hebben we de acties bekeken die OpenAI heeft ondernomen met betrekking tot de gegevensprivacy van gebruikers als reactie op de zorgen die de afgelopen maanden zijn geuit.

Zowel de mogelijkheid om de chatgeschiedenis uit te schakelen als de nieuwe functie om uw persoonlijke gegevens op elk gewenst moment te exporteren, zijn duidelijke stappen om ChatGPT-gebruikers te beschermen. Persoonlijk vind ik deze stappen een toezegging om prioriteit te geven aan gegevensprivacy door te voldoen aan de relevante regelgeving inzake gegevensbescherming. Transparantie en veiligheid zijn essentieel voor het opbouwen van vertrouwen en het waarborgen van verantwoord AI-gebruik.

Vanuit ons perspectief — de gebruikerskant — Ik denk dat het de moeite waard is om op de hoogte te zijn van de mogelijkheden om onze gegevensprivacy te beheren. Vooral met betrekking tot deze twee nieuwe functies die fundamentele punten beheersen, zoals ervoor zorgen dat uw interacties met ChatGPT niet worden gebruikt voor trainingsdoeleinden als u dat niet wilt, of expliciet de exacte gegevens ontvangen die een bedrijf over u heeft.

Natuurlijk zijn er nog andere risico's verbonden aan het gebruik van deze technologie. Gebruikers moeten zich er bijvoorbeeld ook van bewust zijn beleid voor het bewaren van gegevens. Dat is weten hoe lang het platform de gegevens bewaart, wat idealiter het minimaal noodzakelijke zou moeten zijn. Het begrijpen van de het beoogde gebruik van de gegevens u verstrekt aan het AI-platform en geïnformeerd wordt of het platform uw gegevens deelt met derden en wat het doel van het delen is zou ook een van onze belangrijkste zorgen moeten zijn.

Door rekening te houden met deze factoren, gebruikers kunnen weloverwogen beslissingen nemen over hun gegevensprivacy bij gebruik van ChatGPT of een ander groot taalmodel.

Het is belangrijk om proactief te zijn om te begrijpen hoe uw gegevens worden behandeld en om stappen te ondernemen om uw privacyrechten te beschermen.


En dat is alles! Hartelijk dank voor het lezen!

Ik hoop dat dit artikel helpt de informatie begrijpen die ChatGPT uit onze gesprekken bewaart, Alsmede beheer de nieuwe OpenAI-functies voor gegevensprivacy.

U kunt zich ook abonneren op mijn Nieuwsbrief om op de hoogte te blijven van nieuwe inhoud. Vooralals u geïnteresseerd bent in artikelen over ChatGPT.


Dit artikel is oorspronkelijk gepubliceerd op Op weg naar data science en opnieuw gepubliceerd naar TOPBOTS met toestemming van de auteur.

Geniet van dit artikel? Meld u aan voor meer AI-onderzoeksupdates.

We laten het u weten wanneer we meer samenvattende artikelen zoals deze vrijgeven.

spot_img

Laatste intelligentie

spot_img