ゼファーネットのロゴ

データ分類の基礎 – DATAVERSITY

日付:

データ分類データ分類
クレビス / シャッターストック

データ分類のプロセスは、データを関連するカテゴリに整理して、より効率的にアクセスして保護できるようにすることとして広く説明できます。最も簡単に言うと、データ分類プロセスは、セキュリティのニーズに基づいてデータをランク付けし、データの検索と取得を容易にします。分類は、非常に大量のデータを保存している組織に特に役立ちます。  

データ分類は、データ セキュリティへの取り組み、規制遵守の維持、その他のビジネス目標の達成など、複数の目的に使用できます。場合によっては、データ分類が規制要件となり、データは政府機関に提供され、指定された期間内にデータを検索して取得できることが要求されます。データ分類により、簡単かつ効率的な検索とデータ収集がサポートされるため、データ分析プロセスがより効率的になります。

トロント大学のディレクターであるジュリア・ダンカン氏は、 説明

「データは私たちの周りに溢れています。データの分類は、データを誰が閲覧または使用できるか、どこにどのくらいの期間保存するか、共有できるかどうか、どのような保護措置が最適であるかなど、データの処理と保護の最も適切な方法を理解するのに役立ちます。研究プロジェクトであっても、データ収集の一環としてであっても、学術的および管理目的での日常的なデータの使用とその共有であっても、データの分類はデータセキュリティの強化を続ける上で非常に重要なステップです。」

データ分類プロセスではデータの重複も排除されるため、データの精度が向上します (データの品質とデータの整合性). 

データのタグ付けは、データ分類プロセス中に適用されます。これはデータ分類において不可欠なステップと考えられています。これらのタグはデータを識別するために使用され、セキュリティ目的のための機密性/機密性のレベルとデータ品質のレベルを伝達できます。データの機密性によって、そのセキュリティ評価が決まります。

データのタグ付け

データのタグ付けでは、メタデータ内にタグを含めることによってデータを識別します。 「タグ」とは、データ ファイルに割り当てられるキーワード、番号、または用語です。ビジネスにおいて、従業員 ID は個々の従業員を識別する独自の方法を提供します。従業員番号を入力すると、検索エンジンは共通のキーワードを共有する複数の従業員ではなく、1 人の従業員を表示します。 

同様に、サッカーの試合では、座席番号を使用して特定のチケットへの座席の割り当てを伝達し、一時的な所有権を確立できます。メタデータ内のタグ付けシステムにより、データ ファイルの検索とアクセスが迅速かつ簡単になり、シートの「所有者」が誰であるかについての混乱を排除できます。

データのタグ付けでは、メタデータを使用して固有の識別プロセスを提供し、効率を高めます。

データのタグ付けは、データ分類プロセスにおいて不可欠なステップです。タグは、データの種類、機密性のレベル、およびデータの秘密を伝達するために使用されます。 データ品質のレベル。機密性は通常、データの重要性または機密性に基づき、必要な適切なセキュリティ対策と調整されます。 

一般的なデータの種類

データを分類すると、組織のデータへの理解とアクセスが向上します。この状況により、データ分析の使用とデータ セキュリティの向上が促進されます。データ分類を効果的に使用すると、大量のデータが保存されている組織がより効率的に機能するようになります。 

データ分類の仕組みをより深く理解するには、以下に示す最も一般的なデータの種類を理解することが重要です。

  • 公開データ: 一般の人々が自由に閲覧、調査、保存できる情報を提供します。通常、最小限の量をサポートします。 データセキュリティ、それは簡単に共有でき、個人や一般大衆に損害を与えるリスクがほとんどないためです。公開データの例には、人名、ニュースや教育記事、一部の政府 Web サイトなどがあります。
  • 個人データ: 一般に公開すべきではない情報が含まれています。この種の情報 (パスワード、閲覧/研究履歴、クレジット カード番号 (暗証番号や有効期限を除く)) を共有すると、個人または組織に小さなリスクが生じる可能性がありますが、通常はすぐに修正できます。
  • 内部データ: 通常、これは組織内で特に使用されるデータを表し、組織の内部機能に関連します。内部データの例には、事業計画、従業員の個人情報、電子メール、メモなどがあります。内部データは多くの場合、さまざまなセキュリティ レベルに分散されます。
  • 機密データ: 機密データ (「機密データ」と呼ばれることもあります) にアクセスできるのは、組織内の限られた数の個人だけです。機密データへのアクセスには、コンテンツを表示するために特殊なパスワードや網膜スキャンが必要になる場合があります。機密データの例としては、社会保障番号、医療記録、PIN 番号と有効期限が記載されたクレジット カード番号などがあります。
  • 制限されたデータ: これは、侵害された場合、多額の法的罰金や刑事告発につながる可能性があるデータです。通常、データへのアクセスを制限するために非常に厳格なセキュリティ制御があり、多くの場合、何らかの形式のデータ暗号化が使用されます。悪意を持った人物がアクセスすると、組織の機密情報がコピーされたり、アクセス不能になったりして身代金を要求される可能性があります。データが制限されると、一般の人々の健康が危険にさらされる可能性もあります。制限されたデータの例には、知的財産、保護された医療情報、および一部の連邦契約が含まれます。 

データ分類の方法

データ分類のプロセスには通常、データの種類、対応するセキュリティ レベル、およびデータ品質を伝達するためのタグ付けが含まれます。 

基本的に、次の 3 種類のデータ分類が開発されています。 

  • コンテンツベースのデータ分類: これは多くの場合、財務記録、個人を特定できる情報などの機密情報に焦点を当てており、機密情報を探しながらソフトウェアを使用してファイルを検査および解釈します。
  • コンテキストベースのデータ分類: アプリケーション、そのソースの場所、作成者などのコンテキストベースの情報に焦点を当てたソフトウェアを使用して、その保存場所を決定します。 
  • ユーザーベースのデータ分類: タスクを実行する人がデータ分類を理解している必要がある手動プロセス。この形式のデータ分類は、ソフトウェアを使用するコンテンツおよびコンテキストベースのデータ分類システムよりも大幅に時間がかかり、エラーが発生しやすくなります。

Datamation が分類のレビューを公開しました ソフトウェア·ツール 2024ため。

コンプライアンス基準とデータ分類

ますます多くの国が増えており、米国の一部の州では、企業や組織がデータ分類システムを確立することを義務付ける規制やコンプライアンス基準を策定しています。要件は、国、組織、使用するデータの種類によって異なる場合があります。以下に、コンプライアンスが懸念される理由の例をいくつか示します。

  • 一般データ保護規則 (GDPR): 欧州では国民のプライバシーを保護する取り組みの結果、企業に収集したすべてのデータを分類することを義務付ける規制ができた。 GDPR 人種、医療、政治的意見、民族的出身、生体認証の使用に関連するデータに関係しています。 (大量のデータを保管していない企業は、非常に単純な分類システムを使用できます。目的は、要求されたデータを迅速かつ効率的な方法で EU 当局者に提供することです。)
  • ペイメントカード業界データセキュリティ基準 (PCI DSS): クレジット カード業界によって作成された要件 9.6.1 は、企業および組織が「データの機密性を判断できるようにデータを分類する」必要があると規定しています。これは法律ではありませんが、 ただし法的合意.
  • 健康保険の相互運用性と説明責任に関する法律(HIPAA): これは米国連邦法です。 考慮します 個人健康情報 (PHI) は機密情報であるため、医療機関には個人の医療記録を保護する必要があります。 HIPAA プライバシー規則は、個人の健康情報の使用と開示を制限し、医療施設とその関係者にデータ分類システムの開発を義務付けています。
  • カリフォルニア州消費者プライバシー法 (CCPA):   CCPA 「データ分類は、どのデータ タイプが販売されているか、第三者と共有されているか、またはマーケティング目的で使用されているかを特定する必要があります。特定のデータタイプに対する権利要求も、CCPA に準拠していることの証拠としてデータ インベントリに記録される必要があります。」

組織にとって重要なのは、 法的懸念を調査する、インターネット上でビジネスを行う場合は、専門家のアドバイスを参照してください。 

データ分類の課題

データ分類プロセスは、セキュリティとデータ検索の観点から非常に役立ちます。ただし、いくつかの問題が発生する可能性があります。一般的な課題には次のようなものがあります。

  • 偽陽性: これは、同じデータが異なるコンテキストおよび異なる形式で表示され、ソフトウェアがそれを重複として認識しない場合に発生します。データのコンテキストと形式を検査しない分類ソフトウェアでは、誤った分類が生成される可能性が高くなります。通常、分類プロジェクトでは大量のデータが使用されるため、誤検知率が非常に低い場合でも分類プロセスが歪む可能性があります。
  • 偽陰性: これらは、コンテキストに関する混乱の結果として発生します。たとえば、名前は通常、機密情報とみなされません。ただし、それが医療記録の一部である場合、その名前は機密情報になります。文脈を理解せずにデータを分類すると、データが誤って分類される可能性があります。
  • コスト: データ分類ツールの実装と運用の価格は、確立されたコントロールの数と処理されるデータの量によって異なります。データの分類は非常にコストがかかり、煩雑になる可能性があります。大量のデータを手動で分類する作業は非常にコストがかかる可能性があり、データ量が増えるとコストも高くなります。

ChatGPT はデータを分類するツールとして実験されていますが、システムの安全性に関する懸念があります。 セキュリティの欠如.

スポット画像

最新のインテリジェンス

スポット画像