제퍼넷 로고

데이터 분류의 기본 – DATAVERSITY

시간

데이터 분류데이터 분류
크레비스 / Shutterstock

데이터 분류 프로세스는 데이터를 관련 범주로 구성하여 보다 효율적으로 액세스하고 보호할 수 있도록 하는 것으로 광범위하게 설명할 수 있습니다. 가장 간단한 용어로, 데이터 분류 프로세스는 보안 요구 사항에 따라 데이터의 순위를 지정하고 데이터를 보다 쉽게 ​​찾고 검색할 수 있도록 해줍니다. 분류는 상당히 많은 양의 데이터를 저장하는 조직에 특히 유용합니다.  

데이터 분류는 데이터 보안 이니셔티브, 규정 준수 유지, 기타 비즈니스 목표 충족 등 다양한 목적으로 사용될 수 있습니다. 일부 상황에서는 데이터 분류가 규제 요구 사항이 되었으며, 지정된 기간 내에 데이터를 검색 및 검색할 수 있도록 요구하는 정부 기관에 데이터가 제공되었습니다. 데이터 분류는 쉽고 효율적인 검색과 데이터 수집을 지원하므로 데이터 분석이 더욱 효율적인 프로세스가 됩니다.

토론토 대학의 줄리아 던컨(Julia Duncan) 이사는 다음과 같이 말했습니다. 설명

“데이터는 우리 주변 어디에나 있습니다. 데이터 분류는 데이터를 보거나 사용할 수 있는 사람, 저장할 위치, 기간, 공유 가능 여부, 가장 적절한 보호 조치 등 데이터를 처리하고 보호하는 가장 적절한 방법을 이해하는 데 도움이 됩니다. 연구 프로젝트를 위한 것인지, 데이터 수집의 일부인지, 일상적인 데이터 사용과 학술 및 관리 목적을 위한 공유인지에 관계없이 데이터 보안을 지속적으로 강화하는 과정에서 데이터 분류는 매우 중요한 단계입니다.”

데이터 분류 프로세스는 데이터의 중복을 제거하여 결과적으로 데이터의 정확성을 향상시킵니다(데이터 품질 및 데이터 무결성). 

데이터 태그 지정은 데이터 분류 프로세스 중에 적용됩니다. 이는 데이터 분류의 필수 단계로 간주됩니다. 이러한 태그는 데이터를 식별하는 데 사용되며 보안 목적의 기밀성/민감도 수준과 데이터 품질 수준을 전달할 수 있습니다. 데이터의 민감도에 따라 보안 등급이 결정됩니다.

데이터 태깅

데이터 태깅은 메타데이터 내에 태그를 포함하여 데이터를 식별합니다. "태그"는 데이터 파일에 할당된 키워드, 숫자 또는 용어입니다. 기업에서 직원 ID는 개별 직원을 식별하는 고유한 방법을 제공할 수 있습니다. 직원 번호를 입력하면 검색 엔진은 공통 키워드를 공유하는 여러 직원이 아닌 단일 직원을 표시합니다. 

마찬가지로, 축구 경기에서는 좌석 번호를 사용하여 특정 티켓에 좌석 할당을 전달하고 임시 소유권을 설정할 수 있습니다. 메타데이터 내의 태깅 시스템은 데이터 파일을 빠르고 쉽게 찾고 액세스하도록 촉진하며 누가 좌석을 "소유"하는지에 대한 혼란을 없앨 수 있습니다.

데이터 태깅은 메타데이터를 사용하여 고유한 식별 프로세스를 제공하여 효율성을 높입니다.

데이터에 태그를 지정하는 것은 데이터 분류 프로세스의 필수 단계입니다. 태그는 데이터 유형, 민감도 수준 및 데이터 유형을 전달하는 데 사용됩니다. 데이터 품질 수준. 민감도는 일반적으로 데이터의 중요성이나 기밀성을 기반으로 하며 필요한 적절한 보안 조치와 일치합니다. 

일반적인 데이터 유형

데이터 분류는 조직의 데이터에 대한 향상된 이해와 접근성을 모두 제공할 수 있습니다. 이러한 상황은 데이터 분석의 사용과 향상된 데이터 보안을 촉진합니다. 데이터 분류를 효과적으로 사용하면 대량의 저장된 데이터를 보유한 조직이 보다 효율적으로 기능하는 데 도움이 될 수 있습니다. 

데이터 분류의 작동 방식을 더 잘 이해하려면 아래에 나열된 가장 일반적인 데이터 유형을 이해하는 것이 중요합니다.

  • 공개 데이터: 일반 대중이 자유롭게 읽고, 조사하고, 저장할 수 있는 정보를 제공합니다. 일반적으로 최소한의 양을 지원합니다. 데이터 보안, 쉽게 공유될 수 있고 개인이나 일반 대중에게 피해를 줄 위험이 거의 없기 때문입니다. 공개 데이터의 예로는 사람의 이름, 뉴스, 교육 기사, 일부 정부 웹사이트 등이 있습니다.
  • 개인 데이터 : 대중과 공유해서는 안 되는 정보가 포함되어 있습니다. 이러한 유형의 정보(비밀번호, 검색/검색 기록, 신용카드 번호(핀 번호 및 만료 날짜 제외))를 공유하면 개인이나 조직에 약간의 위험이 있을 수 있으며 일반적으로 신속하게 수정할 수 있습니다.
  • 내부 데이터: 일반적으로 이는 조직 내에서 구체적으로 사용되는 데이터를 설명하고 조직의 내부 기능과 관련됩니다. 내부 데이터의 예로는 사업 계획, 직원의 개인 정보, 이메일, 메모 등이 있습니다. 내부 데이터는 다양한 보안 수준에 분산되어 있는 경우가 많습니다.
  • 기밀 데이터: 조직 내 제한된 수의 개인만이 기밀 데이터(“민감한 데이터”라고도 함)에 액세스할 수 있습니다. 기밀 데이터에 액세스하려면 콘텐츠를 보기 위해 특수한 비밀번호나 망막 스캔이 필요할 수 있습니다. 기밀 데이터의 예로는 주민등록번호, 의료 기록, 핀 번호가 포함된 신용카드 번호, 만료일이 있습니다.
  • 제한된 데이터: 이는 손상될 경우 막대한 법적 벌금이나 형사 고발로 이어질 수 있는 데이터입니다. 일반적으로 데이터에 대한 액세스를 제한하기 위해 매우 엄격한 보안 제어가 이루어지며 일부 형태의 데이터 암호화를 사용하는 경우가 많습니다. 악의적인 의도를 가진 사람들이 액세스할 경우 조직의 독점 정보가 복사되거나 액세스가 불가능해지며 몸값을 요구할 수 있습니다. 제한된 데이터는 일반 대중의 건강을 위험에 빠뜨릴 가능성도 있습니다. 제한된 데이터의 예로는 지적 재산, 보호 대상 건강 정보, 일부 연방 계약 등이 있습니다. 

데이터 분류 방법

데이터 분류 프로세스에는 일반적으로 데이터 유형, 해당 보안 수준 및 데이터 품질을 전달하기 위한 태깅이 포함됩니다. 

기본적으로 세 가지 유형의 데이터 분류가 개발되었습니다. 

  • 콘텐츠 기반 데이터 분류: 이는 금융 기록, 개인 식별 정보 등 민감한 정보에 초점을 맞추는 경우가 많으며 민감한 정보를 찾는 동안 소프트웨어를 사용하여 파일을 검사하고 해석합니다.
  • 상황 기반 데이터 분류: 애플리케이션, 소스 위치, 작성자 등 상황 기반 정보에 초점을 맞춘 소프트웨어를 사용하여 저장 위치를 ​​결정합니다. 
  • 사용자 기반 데이터 분류: 작업을 수행하는 사람이 데이터 분류를 이해해야 하는 수동 프로세스입니다. 이러한 형태의 데이터 분류는 소프트웨어를 사용하는 콘텐츠 및 상황 기반 데이터 분류 시스템보다 훨씬 느리고 오류가 발생하기 쉽습니다.

Datamation은 분류에 대한 리뷰를 발표했습니다. 소프트웨어 도구 2024합니다.

규정 준수 표준 및 데이터 분류

점점 더 많은 국가와 미국의 일부 주에서는 기업과 조직이 데이터 분류 시스템을 구축하도록 요구하는 규정 및 규정 준수 표준을 만들었습니다. 요구 사항은 국가, 조직 및 사용하는 데이터 유형에 따라 다를 수 있습니다. 다음은 규정 준수가 문제가 될 수 있는 이유에 대한 몇 가지 예입니다.

  • 일반 데이터 보호 규정(GDPR): 시민의 개인 정보를 보호하려는 유럽의 노력으로 인해 기업은 수집된 모든 데이터를 분류해야 한다는 규정이 제정되었습니다. GDPR 인종, 건강 관리, 정치적 견해, 민족 출신 및 생체 인식 사용과 관련된 데이터와 관련이 있습니다. (대량의 데이터를 저장하지 않는 기업은 상당히 간단한 분류 시스템을 사용할 수 있습니다. 목표는 요청된 데이터를 EU 관계자에게 빠르고 효율적으로 제공하는 것입니다.)
  • PCI DSS(지불 카드 산업 데이터 보안 표준): 신용카드 업계에서 제정한 요구 사항 9.6.1은 기업과 조직이 "데이터의 민감도를 결정할 수 있도록 데이터를 분류"해야 한다고 규정합니다. 이건 법이 아니고, 하지만 법적 합의.
  • 건강 보험 이동성 및 책임법 (HIPAA) : 이는 미국 연방법입니다. 그것은 고려 개인 건강 정보(PHI)는 기밀 정보이며 개인의 의료 기록을 보호하기 위해 의료 시설이 필요합니다. HIPAA 개인 정보 보호 규칙은 개인 건강 정보의 사용 및 공개를 제한하고 의료 시설 및 관련 직원이 데이터 분류 시스템을 개발하도록 요구합니다.
  • 캘리포니아 소비자 개인정보 보호법(CCPA): XNUMXD덴탈의 CCPA “데이터 분류는 어떤 데이터 유형이 판매되거나, 제3자와 공유되거나, 마케팅 목적으로 사용되는지 식별해야 합니다. 특정 데이터 유형에 대한 모든 권리 요청은 CCPA를 준수한다는 증거로 데이터 목록에 기록되어야 합니다."

조직이 다음을 수행하는 것이 중요합니다. 법적 문제를 조사하다, 또는 인터넷을 통해 비즈니스를 수행할 때 전문가의 조언을 참조하세요. 

데이터 분류의 과제

데이터 분류 프로세스는 보안 및 데이터 검색 측면에서 매우 유용합니다. 그러나 발생할 수 있는 몇 가지 문제가 있습니다. 일반적인 과제 중 일부는 다음과 같습니다.

  • 오탐지: 이는 동일한 데이터가 다른 컨텍스트와 다른 형식으로 나타날 때 발생하며 소프트웨어는 이를 중복으로 인식하지 못합니다. 데이터의 맥락과 형식을 조사하지 않는 분류 소프트웨어는 잘못된 분류를 생성할 가능성이 더 높습니다. 분류 프로젝트에서는 일반적으로 많은 양의 데이터가 사용되기 때문에 매우 작은 거짓 긍정 비율도 분류 프로세스를 왜곡할 수 있습니다.
  • 가음성: 이는 문맥에 대한 혼란의 결과로 발생합니다. 예를 들어 이름은 일반적으로 민감한 정보로 간주되지 않습니다. 그러나 그것이 의료 기록의 일부인 경우 해당 이름은 민감한 정보가 됩니다. 컨텍스트를 이해하지 않고 데이터를 분류하면 데이터가 잘못 분류될 수 있습니다.
  • 비용: 데이터 분류 도구를 구현하고 운영하는 데 드는 비용은 설정된 통제 수와 처리되는 데이터의 양에 따라 달라집니다. 데이터 분류는 상당히 비용이 많이 들고 번거로울 수 있습니다. 대량의 데이터를 수동으로 분류하는 작업에는 비용이 매우 많이 들 수 있으며, 데이터 양이 많을수록 비용도 더 많이 듭니다.

ChatGPT는 데이터를 분류하는 도구로 실험되고 있지만 시스템의 성능에 대한 우려가 있습니다. 보안 부족.

spot_img

최신 인텔리전스

spot_img