Logo Zéphyrnet

Fondamentaux de la classification des données – DATAVERSITY

Date :

classification des donnéesclassification des données
Crévis / Shutterstock

Le processus de classification des données peut être largement décrit comme l’organisation des données en catégories pertinentes, permettant d’y accéder et de les protéger plus efficacement. En termes simples, le processus de classification des données classe les données en fonction de leurs besoins de sécurité et facilite leur localisation et leur récupération. La classification est particulièrement utile aux organisations stockant des quantités de données très importantes.  

La classification des données peut être utilisée à plusieurs fins : initiatives de sécurité des données, maintien de la conformité réglementaire et satisfaction d'autres objectifs commerciaux. Dans certaines situations, la classification des données est devenue une exigence réglementaire, les données étant mises à la disposition des agences gouvernementales, qui exigent qu'elles soient consultables et récupérables dans des délais déterminés. Étant donné que la classification des données permet des recherches et une collecte de données simples et efficaces, l'analyse des données devient un processus plus efficace.

Julia Duncan, directrice de l'Université de Toronto, expliqué

« Les données sont partout autour de nous. La classification des données nous aide à comprendre les moyens les plus appropriés de les traiter et de les protéger : qui peut les voir ou les utiliser, où les stocker et pendant combien de temps, si elles peuvent être partagées et quelles mesures de protection sont les plus appropriées. Que ce soit pour un projet de recherche, dans le cadre d’une collecte de données, ou encore pour une utilisation quotidienne des données et leur partage à des fins académiques et administratives, la classification des données est une étape très importante alors que nous continuons à renforcer la sécurité des données.

Le processus de classification des données élimine également la duplication des données, ce qui, à son tour, améliore l'exactitude des données (qualité et intégrité des données). 

Le marquage des données est appliqué pendant le processus de classification des données. Elle est considérée comme une étape essentielle dans la classification des données. Ces balises servent à identifier les données et peuvent communiquer le niveau de confidentialité/sensibilité – à des fins de sécurité – et le niveau de qualité des données. La sensibilité des données détermine leur niveau de sécurité.

Balisage des données

Le balisage des données identifie les données en incluant la balise dans les métadonnées. Une « balise » est un mot-clé, un numéro ou un terme attribué à un fichier de données. Dans une entreprise, un identifiant d’employé peut constituer un moyen unique d’identifier des employés individuels. Lorsque le numéro d'employé est saisi, le moteur de recherche présente un seul employé, plutôt que plusieurs employés partageant un mot clé commun. 

De même, lors d'un match de football, un numéro de siège peut être utilisé pour communiquer l'attribution d'un siège à un billet spécifique, établissant ainsi la propriété temporaire. Un système de marquage au sein des métadonnées favorise la localisation et l'accès à un fichier de données rapidement et facilement, et peut éliminer toute confusion quant à savoir à qui appartient le siège.

Le marquage des données utilise des métadonnées pour fournir un processus d'identification unique, favorisant l'efficacité.

Le marquage des données est une étape essentielle du processus de classification des données. Les balises sont utilisées pour communiquer le type de données, leur niveau de sensibilité et leur niveau de qualité des données. La sensibilité est normalement basée sur l'importance ou la confidentialité des données et alignée sur les mesures de sécurité appropriées nécessaires. 

Types courants de données

La classification des données peut améliorer à la fois la compréhension et l'accessibilité des données de l'organisation. Cette situation favorise le recours à l’analyse des données et une meilleure sécurité des données. L’utilisation efficace de la classification des données peut aider une organisation disposant d’une quantité massive de données stockées à fonctionner plus efficacement. 

Pour mieux comprendre le fonctionnement de la classification des données, il est important de comprendre les types de données les plus courants, répertoriés ci-dessous :

  • Données publiques : Fournit des informations librement accessibles au grand public pour lecture, recherche et stockage. Il prend généralement en charge des quantités minimes de la sécurité des données, car il est facilement partagé et présente peu de risques de nuire aux individus ou au grand public. Des exemples de données publiques incluent les noms de personnes, les articles d'actualité et éducatifs, ainsi que certains sites Web gouvernementaux.
  • Données privées: Contient des informations qui ne doivent pas être partagées avec le public. Le partage de ce type d’informations – mots de passe, historique de navigation/recherche, numéros de carte de crédit (sans codes PIN ni dates d’expiration) – peut présenter un léger risque pour un individu ou une organisation et peut généralement être corrigé rapidement.
  • Données internes : Normalement, cela décrit les données utilisées spécifiquement au sein d'une organisation et concerne les fonctions internes d'une organisation. Des exemples de données internes incluent les plans d'affaires, les informations personnelles des employés, les e-mails et les mémos. Les données internes sont souvent réparties sur différents niveaux de sécurité.
  • Données confidentielles : Seul un nombre limité de personnes au sein de l'organisation peuvent accéder aux données confidentielles (parfois appelées « données sensibles »). L'accès aux données confidentielles peut impliquer des mots de passe spécialisés ou des analyses rétiniennes afin de visualiser le contenu. Des exemples de données confidentielles sont les numéros de sécurité sociale, les dossiers médicaux, les numéros de carte de crédit avec leurs codes PIN et leurs dates d'expiration.
  • Données restreintes : Il s’agit de données qui, si elles sont compromises, peuvent entraîner d’énormes amendes ou des poursuites pénales. Il dispose généralement de contrôles de sécurité très stricts pour limiter l'accès aux données et utilise souvent une certaine forme de cryptage des données. Si des personnes malveillantes y accèdent, les informations exclusives d'une organisation pourraient être copiées ou rendues inaccessibles, moyennant des demandes de rançon. Les données restreintes peuvent également mettre en danger la santé du grand public. Des exemples de données restreintes incluent la propriété intellectuelle, les informations de santé protégées et certains contrats fédéraux. 

Méthodes de classification des données

Le processus de classification des données comprend normalement un balisage pour communiquer le type de données, son niveau de sécurité correspondant et sa qualité. 

Fondamentalement, trois types de classification des données ont été développés : 

  • Classification des données basée sur le contenu : Cela se concentre souvent sur des informations sensibles – dossiers financiers, informations personnelles identifiables – et utilise un logiciel pour inspecter et interpréter les fichiers tout en recherchant des informations sensibles.
  • Classification des données basées sur le contexte : Utilise un logiciel qui se concentre sur les informations contextuelles, telles que l'application, son emplacement source ou le créateur, pour déterminer son emplacement de stockage. 
  • Classification des données basée sur l'utilisateur : Processus manuel qui nécessite que la personne effectuant la tâche comprenne la classification des données. Cette forme de classification des données est nettement plus lente et beaucoup plus sujette aux erreurs que les systèmes de classification des données basés sur le contenu et le contexte, qui utilisent des logiciels.

Datamation a publié une revue de classification des outils logiciels pour 2024.

Normes de conformité et classification des données

Un nombre croissant de pays, et certains États des États-Unis, ont créé des réglementations et des normes de conformité qui obligent les entreprises et les organisations à établir un système de classification des données. Les exigences peuvent varier en fonction du pays, de l'organisation et des types de données qu'elle utilise. Vous trouverez ci-dessous quelques exemples des raisons pour lesquelles la conformité peut être une préoccupation.

  • Règlement général sur la protection des données (RGPD) : Les efforts de l'Europe pour protéger la vie privée de ses citoyens ont abouti à des réglementations obligeant les entreprises à classer toutes leurs données collectées. Le GDPR concerne les données liées à la race, aux soins de santé, aux opinions politiques, à l'origine ethnique et à l'utilisation de la biométrie. (Les entreprises qui ne stockent pas d’énormes quantités de données peuvent utiliser un système de classification assez simple – l’objectif est de fournir les données demandées aux fonctionnaires de l’UE de manière rapide et efficace.)
  • Norme de sécurité des données du secteur des cartes de paiement (PCI DSS) : Créée par le secteur des cartes de crédit, l'exigence 9.6.1 stipule que les entreprises et les organisations doivent « classer les données afin que leur sensibilité puisse être déterminée ». Ce n'est pas une loi, mais un accord légal.
  • Loi sur la transférabilité et la responsabilité en matière d'assurance maladie (HIPAA): Il s'agit d'une loi fédérale américaine. Il considère Les renseignements personnels sur la santé (PHI) doivent être des informations confidentielles et exigent que les installations médicales protègent les dossiers médicaux des individus. La règle de confidentialité HIPAA restreint l'utilisation et la divulgation d'informations personnelles sur la santé et exige que les établissements médicaux et leurs associés développent un système de classification des données.
  • Loi californienne sur la protection de la vie privée des consommateurs (CCPA) : La CCPA stipule que « la classification des données doit identifier les types de données qui sont vendus, partagés avec des tiers ou utilisés à des fins de marketing. Toute demande de droits pour des types de données spécifiques doit également être enregistrée dans l'inventaire des données comme preuve que vous êtes conforme au CCPA.

Il est important pour les organisations de rechercher des problèmes juridiques, ou consultez des conseils d'experts lorsque vous faites des affaires sur Internet. 

Les défis de la classification des données

Le processus de classification des données est très utile en termes de sécurité et de récupération des données. Cependant, certains problèmes peuvent survenir. Certains des défis courants sont :

  • Faux positifs: Cela se produit lorsque les mêmes données apparaissent dans des contextes et des formats différents, et que le logiciel ne les reconnaît pas comme un doublon. Les logiciels de classification qui n'examinent pas le contexte et le format des données ont une probabilité plus élevée de générer de fausses classifications. Étant donné que de grandes quantités de données sont normalement utilisées dans les projets de classification, même un taux de faux positifs extrêmement faible peut fausser le processus de classification.
  • Faux négatifs : Celles-ci résultent d’une confusion concernant le contexte. Par exemple, un nom ne serait normalement pas considéré comme une information sensible. Cependant, lorsqu’il fait partie d’un dossier médical, ce nom devient une information sensible. La classification des données sans compréhension de leur contexte peut entraîner une classification incorrecte des données.
  • Le coût: Le prix de mise en œuvre et d’exploitation des outils de classification des données dépendra du nombre de contrôles établis et de la quantité de données traitées. La classification des données peut devenir très coûteuse et fastidieuse. Les efforts manuels pour classer de grandes quantités de données peuvent être extrêmement coûteux, et de plus grandes quantités de données coûtent plus cher.

ChatGPT est expérimenté comme outil de classification des données, mais des inquiétudes subsistent quant à la performance du système. manque de sécurité.

spot_img

Dernières informations

spot_img