Zephyrnet-Logo

Grundlagen der Datenklassifizierung – DATAVERSITY

Datum:

DatenklassifizierungDatenklassifizierung
Crevis / Shutterstock

Der Prozess der Datenklassifizierung lässt sich allgemein als die Organisation von Daten in relevanten Kategorien beschreiben, die einen effizienteren Zugriff und Schutz ermöglicht. Im einfachsten Sinne ordnet der Datenklassifizierungsprozess Daten anhand ihrer Sicherheitsanforderungen und erleichtert das Auffinden und Abrufen von Daten. Die Klassifizierung ist besonders nützlich für Organisationen, die sehr große Datenmengen speichern.  

Die Datenklassifizierung kann für mehrere Zwecke verwendet werden: Datensicherheitsinitiativen, Aufrechterhaltung der Einhaltung gesetzlicher Vorschriften und Erreichung anderer Geschäftsziele. In manchen Situationen ist die Datenklassifizierung zu einer behördlichen Anforderung geworden, wobei die Daten Regierungsbehörden zur Verfügung gestellt werden, die verlangen, dass sie innerhalb bestimmter Zeitrahmen durchsuchbar und abrufbar sind. Da die Datenklassifizierung eine einfache und effiziente Suche und Datenerfassung unterstützt, wird die Datenanalyse zu einem effizienteren Prozess.

Julia Duncan, Direktorin an der University of Toronto, erklärt

„Daten sind überall um uns herum. Die Datenklassifizierung hilft uns zu verstehen, wie wir sie am besten verarbeiten und schützen – wer sie sehen oder verwenden kann, wo und wie lange sie gespeichert werden, ob sie weitergegeben werden können und welche Schutzmaßnahmen am besten geeignet sind. Ob für ein Forschungsprojekt, im Rahmen der Datenerfassung oder für die alltägliche Datennutzung und deren Weitergabe für akademische und administrative Zwecke, die Datenklassifizierung ist ein sehr wichtiger Schritt, da wir die Datensicherheit weiter stärken.“

Der Datenklassifizierungsprozess eliminiert auch die Duplizierung von Daten, was wiederum die Genauigkeit der Daten verbessert (Datenqualität und Datenintegrität). 

Die Datenkennzeichnung wird während des Datenklassifizierungsprozesses angewendet. Es gilt als wesentlicher Schritt bei der Datenklassifizierung. Diese Tags werden zur Identifizierung der Daten verwendet und können den Grad der Vertraulichkeit/Sensibilität – aus Sicherheitsgründen – und den Grad der Datenqualität kommunizieren. Die Sensibilität der Daten bestimmt deren Sicherheitsbewertung.

Datenkennzeichnung

Beim Daten-Tagging werden Daten identifiziert, indem das Tag in die Metadaten eingefügt wird. Ein „Tag“ ist ein Schlüsselwort, eine Zahl oder ein Begriff, der einer Datendatei zugewiesen wird. In einem Unternehmen kann eine Mitarbeiter-ID eine eindeutige Möglichkeit zur Identifizierung einzelner Mitarbeiter bieten. Bei Eingabe der Mitarbeiternummer präsentiert die Suchmaschine einen einzelnen Mitarbeiter und nicht mehrere Mitarbeiter mit einem gemeinsamen Schlüsselwort. 

In ähnlicher Weise kann bei einem Fußballspiel eine Sitzplatznummer verwendet werden, um die Zuordnung eines Sitzplatzes zu einem bestimmten Ticket mitzuteilen und so den vorübergehenden Besitz festzustellen. Ein Tagging-System innerhalb der Metadaten erleichtert das schnelle und einfache Auffinden und Zugreifen auf eine Datendatei und kann jegliche Verwirrung darüber beseitigen, wem der Sitz „gehört“.

Beim Daten-Tagging werden Metadaten verwendet, um einen eindeutigen Identifizierungsprozess bereitzustellen und so die Effizienz zu steigern.

Das Markieren von Daten ist ein wesentlicher Schritt im Datenklassifizierungsprozess. Die Tags werden verwendet, um die Art der Daten, ihren Vertraulichkeitsgrad und ihre Daten zu kommunizieren Niveau der Datenqualität. Die Sensibilität basiert normalerweise auf der Wichtigkeit oder Vertraulichkeit der Daten und ist auf die entsprechenden erforderlichen Sicherheitsmaßnahmen abgestimmt. 

Gängige Datentypen

Die Datenklassifizierung kann sowohl ein besseres Verständnis als auch einen besseren Zugriff auf die Daten der Organisation ermöglichen. Diese Situation fördert den Einsatz von Datenanalysen und eine verbesserte Datensicherheit. Der effektive Einsatz der Datenklassifizierung kann einem Unternehmen mit riesigen gespeicherten Datenmengen dabei helfen, effizienter zu arbeiten. 

Um besser zu verstehen, wie die Datenklassifizierung funktioniert, ist es wichtig, die gängigsten Datentypen zu verstehen, die unten aufgeführt sind:

  • Öffentliche Daten: Stellt Informationen bereit, die der breiten Öffentlichkeit frei zum Lesen, Recherchieren und Speichern zur Verfügung stehen. Es unterstützt normalerweise minimale Mengen von Datensicherheit, weil sie leicht weitergegeben werden können und nur ein geringes Risiko besteht, Einzelpersonen oder der Öffentlichkeit zu schaden. Beispiele für öffentliche Daten sind Namen von Personen, Nachrichten und Bildungsartikel sowie einige Regierungswebsites.
  • Private Daten: Enthält Informationen, die nicht der Öffentlichkeit zugänglich gemacht werden sollten. Die Weitergabe dieser Art von Informationen – Passwörter, Browser-/Rechercheverlauf, Kreditkartennummern (ohne PIN-Nummern und Ablaufdaten) – kann für eine Einzelperson oder Organisation ein geringes Risiko darstellen und kann in der Regel schnell korrigiert werden.
  • Interne Daten: Normalerweise beschreibt dies die Daten, die speziell innerhalb einer Organisation verwendet werden, und bezieht sich auf die internen Funktionen einer Organisation. Beispiele für interne Daten sind Geschäftspläne, persönliche Daten von Mitarbeitern, E-Mails und Memos. Interne Daten sind oft über verschiedene Sicherheitsstufen verteilt.
  • Vertrauliche Daten: Nur eine begrenzte Anzahl von Personen innerhalb der Organisation kann auf vertrauliche Daten zugreifen (manchmal auch als „sensible Daten“ bezeichnet). Der Zugriff auf vertrauliche Daten kann spezielle Passwörter oder Netzhautscans erfordern, um den Inhalt anzuzeigen. Beispiele für vertrauliche Daten sind Sozialversicherungsnummern, Krankenakten, Kreditkartennummern mit PIN-Nummern und Ablaufdaten.
  • Eingeschränkte Daten: Hierbei handelt es sich um Daten, deren Kompromittierung zu massiven Geldstrafen oder Strafanzeigen führen kann. Es verfügt in der Regel über sehr strenge Sicherheitskontrollen, um den Zugriff auf die Daten einzuschränken, und verwendet häufig eine Form der Datenverschlüsselung. Wenn Personen mit böswilliger Absicht darauf zugreifen, könnten die geschützten Informationen einer Organisation kopiert oder unzugänglich gemacht werden, was zu Lösegeldforderungen führen würde. Eingeschränkte Daten können auch die Gesundheit der Allgemeinheit gefährden. Beispiele für eingeschränkte Daten sind geistiges Eigentum, geschützte Gesundheitsinformationen und einige Bundesverträge. 

Methoden der Datenklassifizierung

Der Prozess der Datenklassifizierung umfasst normalerweise das Markieren, um die Art der Daten, ihre entsprechende Sicherheitsstufe und ihre Datenqualität zu kommunizieren. 

Grundsätzlich wurden drei Arten der Datenklassifizierung entwickelt: 

  • Inhaltsbasierte Datenklassifizierung: Hierbei liegt der Schwerpunkt häufig auf sensiblen Informationen – Finanzunterlagen, persönlich identifizierbaren Informationen – und es werden Software zur Prüfung und Interpretation von Dateien bei der Suche nach sensiblen Informationen eingesetzt.
  • Kontextbasierte Datenklassifizierung: Verwendet Software, die sich auf kontextbasierte Informationen wie die Anwendung, ihren Quellort oder den Ersteller konzentriert, um ihren Speicherort zu bestimmen. 
  • Benutzerbasierte Datenklassifizierung: Ein manueller Prozess, bei dem die Person, die die Aufgabe ausführt, über Kenntnisse der Datenklassifizierung verfügen muss. Diese Form der Datenklassifizierung ist deutlich langsamer und viel fehleranfälliger als die inhalts- und kontextbasierten Datenklassifizierungssysteme, die Software verwenden.

Datamation hat eine Überprüfung der Klassifizierung veröffentlicht Software-Tools für 2024.

Compliance-Standards und Datenklassifizierung

Eine wachsende Zahl von Ländern und einige Bundesstaaten in den USA haben Vorschriften und Compliance-Standards geschaffen, die von Unternehmen und Organisationen die Einrichtung eines Datenklassifizierungssystems verlangen. Die Anforderungen können je nach Land, Organisation und verwendeten Datentypen variieren. Nachfolgend sind einige Beispiele dafür aufgeführt, warum Compliance ein Problem darstellen kann.

  • Datenschutz-Grundverordnung (DSGVO): Die Bemühungen Europas, die Privatsphäre seiner Bürger zu schützen, führten zu Vorschriften, die Unternehmen dazu verpflichten, alle ihre gesammelten Daten zu klassifizieren. Die DSGVO befasst sich mit Daten zu Rasse, Gesundheitsversorgung, politischen Meinungen, ethnischer Herkunft und der Verwendung biometrischer Daten. (Unternehmen, die keine großen Datenmengen speichern, können ein relativ einfaches Klassifizierungssystem verwenden – Ziel ist es, die angeforderten Daten den EU-Beamten schnell und effizient zur Verfügung zu stellen.)
  • Datensicherheitsstandard der Zahlungskartenindustrie (PCI DSS): Die von der Kreditkartenbranche erstellte Anforderung 9.6.1 schreibt vor, dass Unternehmen und Organisationen „Daten klassifizieren müssen, damit die Sensibilität der Daten bestimmt werden kann“. Das ist kein Gesetz, sondern eine rechtsgültige Vereinbarung.
  • Gesetz über die Portabilität und Rechenschaftspflicht von Krankenversicherungen (HIPAA): Dies ist ein US-Bundesgesetz. Es erwägt Persönliche Gesundheitsinformationen (PHI) gelten als vertrauliche Informationen und erfordern, dass medizinische Einrichtungen die Krankenakten von Einzelpersonen schützen. Die HIPAA-Datenschutzregel schränkt die Verwendung und Offenlegung persönlicher Gesundheitsinformationen ein und verlangt von medizinischen Einrichtungen und ihren Mitarbeitern die Entwicklung eines Datenklassifizierungssystems.
  • California Consumer Privacy Act (CCPA): Das CCPA besagt, dass „die Datenklassifizierung identifizieren sollte, welche Datentypen verkauft, an Dritte weitergegeben oder für Marketingzwecke verwendet werden.“ Alle Rechteanfragen für bestimmte Datentypen sollten ebenfalls im Dateninventar erfasst werden, um zu beweisen, dass Sie CCPA-konform sind.“

Für Organisationen ist es wichtig, dies zu tun rechtliche Belange recherchieren, oder lassen Sie sich von Experten beraten, wenn Sie Geschäfte über das Internet tätigen. 

Die Herausforderungen der Datenklassifizierung

Der Datenklassifizierungsprozess ist im Hinblick auf Sicherheit und Datenabruf sehr nützlich. Es können jedoch einige Probleme auftreten. Einige der häufigsten Herausforderungen sind:

  • Fehlalarm: Dies geschieht, wenn dieselben Daten in unterschiedlichen Kontexten und Formaten auftreten und die Software sie nicht als Duplikat erkennt. Klassifizierungssoftware, die den Kontext und das Format der Daten nicht untersucht, hat eine höhere Wahrscheinlichkeit, falsche Klassifizierungen zu generieren. Da in Klassifizierungsprojekten normalerweise große Datenmengen verwendet werden, können selbst extrem geringe Falsch-Positiv-Raten den Klassifizierungsprozess verzerren.
  • Falsch negativ: Diese entstehen durch Verwirrung hinsichtlich des Kontexts. Beispielsweise würde ein Name normalerweise nicht als vertrauliche Information gelten. Wenn er jedoch Teil einer Krankenakte ist, wird dieser Name zu einer vertraulichen Information. Die Klassifizierung von Daten ohne Verständnis ihres Kontexts kann dazu führen, dass Daten falsch klassifiziert werden.
  • Die Kosten: Der Preis für die Implementierung und den Betrieb von Datenklassifizierungstools hängt von der Anzahl der eingerichteten Kontrollen und der Menge der verarbeiteten Daten ab. Die Datenklassifizierung kann sehr teuer und umständlich werden. Manuelle Anstrengungen zur Klassifizierung großer Datenmengen können extrem kostspielig sein, da größere Datenmengen mehr kosten.

ChatGPT wird derzeit als Tool zur Datenklassifizierung getestet, es bestehen jedoch Bedenken hinsichtlich des Systems Mangel an Sicherheit.

spot_img

Neueste Intelligenz

spot_img