Zephyrnet-logo

Grondbeginselen van gegevensclassificatie – DATAVERSITEIT

Datum:

gegevensclassificatiegegevensclassificatie
Crevis / Shutterstock

Het proces van gegevensclassificatie kan grofweg worden omschreven als de organisatie van gegevens in relevante categorieën, waardoor deze efficiënter kunnen worden geraadpleegd en beschermd. In de eenvoudigste bewoordingen rangschikt het gegevensclassificatieproces gegevens op basis van hun beveiligingsbehoeften en maakt het het gemakkelijker om gegevens te lokaliseren en op te halen. Classificatie is vooral handig voor organisaties die aanzienlijk grote hoeveelheden gegevens opslaan.  

Gegevensclassificatie kan voor meerdere doeleinden worden gebruikt: initiatieven voor gegevensbeveiliging, naleving van de regelgeving en het behalen van andere zakelijke doelstellingen. In sommige situaties is gegevensclassificatie een wettelijke vereiste geworden, waarbij de gegevens beschikbaar worden gesteld aan overheidsinstanties, die eisen dat deze binnen een bepaalde termijn doorzoekbaar en ophaalbaar zijn. Omdat dataclassificatie eenvoudige en efficiënte zoekopdrachten en gegevensverzameling ondersteunt, wordt data-analyse een efficiënter proces.

Julia Duncan, directeur van de Universiteit van Toronto, uitgelegd

“Data is overal om ons heen. Gegevensclassificatie helpt ons de meest geschikte manieren te begrijpen om ermee om te gaan en deze te beschermen: wie kan ze zien of gebruiken, waar ze opgeslagen moeten worden en voor hoe lang, of ze gedeeld kunnen worden en welke beschermingsmaatregelen het meest geschikt zijn. Of het nu gaat om een ​​onderzoeksproject, als onderdeel van dataverzameling, of om het dagelijks gebruik en delen van data voor academische en administratieve doeleinden, dataclassificatie is een zeer belangrijke stap als we de databeveiliging blijven versterken.”

Het gegevensclassificatieproces elimineert ook het dupliceren van gegevens, wat op zijn beurt de nauwkeurigheid van de gegevens verbetert (datakwaliteit en data-integriteit). 

Datatagging wordt toegepast tijdens het dataclassificatieproces. Het wordt beschouwd als een essentiële stap in de gegevensclassificatie. Deze tags worden gebruikt om de gegevens te identificeren en kunnen het niveau van vertrouwelijkheid/gevoeligheid – voor veiligheidsdoeleinden – en het niveau van de gegevenskwaliteit communiceren. De gevoeligheid van gegevens bepaalt de veiligheidsbeoordeling ervan.

Gegevens taggen

Met datatagging worden gegevens geïdentificeerd door de tag in de metagegevens op te nemen. Een “tag” is een trefwoord, nummer of term die aan een gegevensbestand is toegewezen. In een bedrijf kan een werknemers-ID een unieke manier bieden om individuele werknemers te identificeren. Wanneer het werknemersnummer wordt ingevoerd, presenteert de zoekmachine één enkele werknemer, in plaats van meerdere werknemers die een gemeenschappelijk trefwoord delen. 

Op dezelfde manier kan bij een voetbalwedstrijd een stoelnummer worden gebruikt om de toewijzing van een stoel aan een specifiek ticket mee te delen, waardoor tijdelijk eigendom wordt vastgesteld. Een taggingsysteem binnen de metagegevens bevordert het snel en eenvoudig lokaliseren en openen van een gegevensbestand en kan elke verwarring over wie de “eigenaar” van de stoel is, wegnemen.

Datatagging maakt gebruik van metadata om een ​​uniek identificatieproces te bieden, wat de efficiëntie bevordert.

Het taggen van gegevens is een essentiële stap in het gegevensclassificatieproces. De tags worden gebruikt om het type gegevens, het gevoeligheidsniveau en de bijbehorende gegevens te communiceren niveau van datakwaliteit. Gevoeligheid is normaal gesproken gebaseerd op het belang of de vertrouwelijkheid van de gegevens en is afgestemd op de passende beveiligingsmaatregelen die nodig zijn. 

Veelvoorkomende soorten gegevens

Gegevensclassificatie kan zowel een beter begrip als een betere toegankelijkheid van de gegevens van de organisatie bieden. Deze situatie bevordert het gebruik van data-analyse en verbeterde gegevensbeveiliging. Het effectieve gebruik van dataclassificatie kan een organisatie met een enorme hoeveelheid opgeslagen data helpen efficiënter te functioneren. 

Om beter te begrijpen hoe gegevensclassificatie werkt, is het belangrijk om de meest voorkomende soorten gegevens te begrijpen, die hieronder worden vermeld:

  • Openbare gegevens: Biedt informatie die vrij beschikbaar is voor het grote publiek om te lezen, onderzoeken en opslaan. Het ondersteunt doorgaans minimale hoeveelheden gegevensbeveiliging, omdat het gemakkelijk gedeeld kan worden en weinig risico met zich meebrengt dat individuen of het grote publiek worden geschaad. Voorbeelden van openbare gegevens zijn onder meer de namen van mensen, nieuws- en educatieve artikelen en sommige overheidswebsites.
  • Privégegevens: Bevat informatie die niet met het publiek mag worden gedeeld. Het delen van dit soort informatie – wachtwoorden, browse-/onderzoeksgeschiedenis, creditcardnummers (zonder pincodes en vervaldata) – kan een klein risico vormen voor een individu of organisatie, en kan meestal snel worden gecorrigeerd.
  • Interne gegevens: Normaal gesproken beschrijft dit de gegevens die specifiek binnen een organisatie worden gebruikt en heeft betrekking op de interne functies van een organisatie. Voorbeelden van interne gegevens zijn bedrijfsplannen, persoonlijke gegevens van werknemers, e-mails en memo's. Interne gegevens zijn vaak verspreid over verschillende beveiligingsniveaus.
  • Vertrouwelijke gegevens: Slechts een beperkt aantal personen binnen de organisatie heeft toegang tot vertrouwelijke gegevens (ook wel “gevoelige gegevens” genoemd). Bij toegang tot vertrouwelijke gegevens kunnen gespecialiseerde wachtwoorden of netvliesscans nodig zijn om de inhoud te bekijken. Voorbeelden van vertrouwelijke gegevens zijn burgerservicenummers, medische dossiers, creditcardnummers met pincode en vervaldata.
  • Beperkte gegevens: Dit zijn gegevens die, als ze gecompromitteerd worden, kunnen leiden tot enorme juridische boetes of strafrechtelijke vervolging. Het heeft doorgaans zeer strenge beveiligingscontroles om de toegang tot de gegevens te beperken, en maakt vaak gebruik van een vorm van gegevensversleuteling. Als er toegang wordt verkregen door mensen met kwade bedoelingen, kan de eigendomsinformatie van een organisatie worden gekopieerd of ontoegankelijk worden gemaakt, met eisen voor losgeld. Beperkte gegevens kunnen ook de potentie hebben om de volksgezondheid in gevaar te brengen. Voorbeelden van beperkte gegevens zijn onder meer intellectueel eigendom, beschermde gezondheidsinformatie en sommige federale contracten. 

Methoden voor gegevensclassificatie

Het proces van gegevensclassificatie omvat normaal gesproken tagging om het type gegevens, het bijbehorende beveiligingsniveau en de gegevenskwaliteit te communiceren. 

In principe zijn er drie soorten gegevensclassificatie ontwikkeld: 

  • Op inhoud gebaseerde gegevensclassificatie: Deze richt zich vaak op gevoelige informatie – financiële gegevens, persoonlijk identificeerbare informatie – en maakt gebruik van software om bestanden te inspecteren en te interpreteren terwijl er wordt gezocht naar gevoelige informatie.
  • Contextgebaseerde gegevensclassificatie: Gebruikt software die zich richt op contextgebaseerde informatie, zoals de applicatie, de bronlocatie of de maker, om de opslaglocatie te bepalen. 
  • Op gebruikers gebaseerde gegevensclassificatie: Een handmatig proces waarbij de persoon die de taak uitvoert, inzicht moet hebben in de gegevensclassificatie. Deze vorm van dataclassificatie is aanzienlijk langzamer en veel foutgevoeliger dan de op inhoud en context gebaseerde dataclassificatiesystemen, die gebruik maken van software.

Datamation heeft een overzicht van de classificatie gepubliceerd software tools voor 2024.

Nalevingsnormen en gegevensclassificatie

Een groeiend aantal landen, en sommige staten in de VS, hebben regelgeving en nalevingsnormen opgesteld die vereisen dat bedrijven en organisaties een gegevensclassificatiesysteem opzetten. De vereisten kunnen variëren, afhankelijk van het land, de organisatie en de soorten gegevens die worden gebruikt. Hieronder vindt u enkele voorbeelden van waarom compliance een probleem kan zijn.

  • Algemene Verordening Gegevensbescherming (AVG): De inspanningen van Europa om de privacy van hun burgers te beschermen resulteerden in regelgeving die bedrijven verplicht al hun verzamelde gegevens te classificeren. De GDPR houdt zich bezig met gegevens gerelateerd aan ras, gezondheidszorg, politieke opvattingen, etnische afkomst en het gebruik van biometrie. (Bedrijven die geen enorme hoeveelheden gegevens opslaan, kunnen een vrij eenvoudig classificatiesysteem gebruiken – het doel is om de gevraagde gegevens op een snelle en efficiënte manier aan EU-functionarissen te verstrekken.)
  • Betaalkaartindustrie Data Security Standard (PCI DSS): Eis 9.6.1, gecreëerd door de creditcardindustrie, bepaalt dat bedrijven en organisaties “gegevens moeten classificeren zodat de gevoeligheid van de gegevens kan worden bepaald.” Dit is geen wet, maar een juridische overeenkomst.
  • Wet op de portabiliteit en verantwoording van zorgverzekeringen (HIPAA): Dit is een Amerikaanse federale wet. Het overweegt persoonlijke gezondheidsinformatie (PHI) moet vertrouwelijke informatie zijn en vereist dat medische voorzieningen de medische dossiers van individuen beschermen. De HIPAA-privacyregel beperkt het gebruik en de openbaarmaking van persoonlijke gezondheidsinformatie en vereist dat medische instellingen en hun medewerkers een gegevensclassificatiesysteem ontwikkelen.
  • California Consumer Privacy Act (CCPA): De CCPA stelt dat “gegevensclassificatie moet identificeren welke gegevenstypen worden verkocht, gedeeld met derden of gebruikt voor marketingdoeleinden. Eventuele rechtenverzoeken voor specifieke gegevenstypen moeten ook worden vastgelegd in de gegevensinventaris als bewijs dat u CCPA-compatibel bent.”

Het is belangrijk dat organisaties dit doen onderzoek naar juridische problemenof deskundig advies raadplegen wanneer u zaken doet via internet. 

De uitdagingen bij het classificeren van gegevens

Het gegevensclassificatieproces is erg handig in termen van beveiliging en het ophalen van gegevens. Er kunnen zich echter enkele problemen voordoen. Enkele veel voorkomende uitdagingen zijn:

  • Valse positieven: Dit vindt plaats wanneer dezelfde gegevens in verschillende contexten en verschillende formaten verschijnen, en de software deze niet als duplicaat herkent. Classificatiesoftware die de context en het formaat van de gegevens niet onderzoekt, heeft een grotere kans op het genereren van valse classificaties. Omdat normaal gesproken grote hoeveelheden gegevens worden gebruikt in classificatieprojecten, kan zelfs een extreem klein aantal fout-positieve resultaten het classificatieproces verstoren.
  • Valse negatieven: Deze ontstaan ​​als gevolg van verwarring over de context. Een naam wordt normaal gesproken bijvoorbeeld niet als gevoelige informatie beschouwd. Wanneer het echter deel uitmaakt van een medisch dossier, wordt die naam gevoelige informatie. Het classificeren van gegevens zonder inzicht in de context ervan kan ertoe leiden dat gegevens onjuist worden geclassificeerd.
  • De kosten: De prijs voor het implementeren en exploiteren van tools voor gegevensclassificatie zal afhangen van het aantal ingestelde controles en de hoeveelheid gegevens die wordt verwerkt. Gegevensclassificatie kan behoorlijk duur en omslachtig worden. Handmatige inspanningen om grote hoeveelheden gegevens te classificeren kunnen extreem duur zijn, terwijl grotere hoeveelheden gegevens duurder zijn.

Er wordt geëxperimenteerd met ChatGPT als hulpmiddel voor het classificeren van gegevens, maar er zijn zorgen over die van het systeem gebrek aan beveiliging.

spot_img

Laatste intelligentie

spot_img