Logo Zephyrnet

Nguyên tắc cơ bản của phân loại dữ liệu – DATAVERSITY

Ngày:

phân loại dữ liệuphân loại dữ liệu
Crevis / Shutterstock

Quá trình phân loại dữ liệu có thể được mô tả rộng rãi là việc tổ chức dữ liệu thành các danh mục có liên quan, cho phép dữ liệu được truy cập và bảo vệ hiệu quả hơn. Nói một cách đơn giản nhất, quy trình phân loại dữ liệu xếp hạng dữ liệu dựa trên nhu cầu bảo mật của nó và giúp việc định vị và truy xuất dữ liệu trở nên dễ dàng hơn. Phân loại đặc biệt hữu ích cho các tổ chức lưu trữ lượng dữ liệu lớn đáng kể.  

Phân loại dữ liệu có thể được sử dụng cho nhiều mục đích: sáng kiến ​​bảo mật dữ liệu, duy trì tuân thủ quy định và đáp ứng các mục tiêu kinh doanh khác. Trong một số trường hợp, việc phân loại dữ liệu đã trở thành một yêu cầu pháp lý, dữ liệu được cung cấp cho các cơ quan chính phủ, những người yêu cầu dữ liệu đó có thể tìm kiếm và truy xuất được trong khung thời gian được chỉ định. Vì phân loại dữ liệu hỗ trợ tìm kiếm và thu thập dữ liệu dễ dàng và hiệu quả nên việc phân tích dữ liệu trở thành một quy trình hiệu quả hơn.

Julia Duncan, giám đốc Đại học Toronto, Giải thích

“Dữ liệu ở xung quanh chúng ta. Phân loại dữ liệu giúp chúng tôi hiểu các cách xử lý và bảo vệ dữ liệu phù hợp nhất – ai có thể xem hoặc sử dụng dữ liệu, lưu trữ ở đâu và trong bao lâu, liệu dữ liệu có thể được chia sẻ hay không và biện pháp bảo vệ nào là phù hợp nhất. Cho dù đó là dành cho dự án nghiên cứu, như một phần của việc thu thập dữ liệu hay sử dụng dữ liệu hàng ngày và chia sẻ dữ liệu đó cho mục đích học thuật và hành chính, phân loại dữ liệu là một bước rất quan trọng khi chúng tôi tiếp tục tăng cường bảo mật dữ liệu.”

Quá trình phân loại dữ liệu cũng loại bỏ sự trùng lặp dữ liệu, từ đó cải thiện độ chính xác của dữ liệu (chất lượng dữ liệu và tính toàn vẹn dữ liệu). 

Gắn thẻ dữ liệu được áp dụng trong quá trình phân loại dữ liệu. Nó được coi là một bước thiết yếu trong phân loại dữ liệu. Các thẻ này được sử dụng để xác định dữ liệu và có thể truyền đạt mức độ bảo mật/nhạy cảm – vì mục đích bảo mật – và mức độ chất lượng dữ liệu. Độ nhạy cảm của dữ liệu quyết định mức độ bảo mật của nó.

Gắn thẻ dữ liệu

Gắn thẻ dữ liệu xác định dữ liệu bằng cách đưa thẻ vào siêu dữ liệu. “Thẻ” là từ khóa, số hoặc thuật ngữ được gán cho tệp dữ liệu. Trong một doanh nghiệp, ID nhân viên có thể cung cấp một cách duy nhất để xác định từng nhân viên. Khi nhập mã số nhân viên, công cụ tìm kiếm sẽ hiển thị một nhân viên thay vì nhiều nhân viên chia sẻ một từ khóa chung. 

Tương tự, trong một trận bóng đá, số ghế có thể được sử dụng để thông báo việc chỉ định chỗ ngồi cho một vé cụ thể, thiết lập quyền sở hữu tạm thời. Hệ thống gắn thẻ trong siêu dữ liệu thúc đẩy việc định vị và truy cập tệp dữ liệu một cách nhanh chóng và dễ dàng, đồng thời có thể loại bỏ mọi nhầm lẫn về ai “sở hữu” chỗ ngồi.

Gắn thẻ dữ liệu sử dụng siêu dữ liệu để cung cấp quy trình nhận dạng duy nhất, nâng cao hiệu quả.

Gắn thẻ dữ liệu là một bước thiết yếu trong quá trình phân loại dữ liệu. Các thẻ được sử dụng để truyền đạt loại dữ liệu, mức độ nhạy cảm và mức độ chất lượng dữ liệu. Độ nhạy cảm thường dựa trên tầm quan trọng hoặc tính bảo mật của dữ liệu và được liên kết với các biện pháp bảo mật thích hợp cần thiết. 

Các loại dữ liệu phổ biến

Phân loại dữ liệu có thể cung cấp cả sự hiểu biết được cải thiện và khả năng truy cập vào dữ liệu của tổ chức. Tình trạng này thúc đẩy việc sử dụng phân tích dữ liệu và cải thiện bảo mật dữ liệu. Việc sử dụng hiệu quả phân loại dữ liệu có thể giúp một tổ chức có lượng dữ liệu được lưu trữ khổng lồ hoạt động hiệu quả hơn. 

Để hiểu rõ hơn cách hoạt động của phân loại dữ liệu, điều quan trọng là phải hiểu các loại dữ liệu phổ biến nhất được liệt kê bên dưới:

  • Dữ liệu công cộng: Cung cấp thông tin có sẵn miễn phí cho công chúng đọc, nghiên cứu và lưu trữ. Nó thường hỗ trợ số lượng tối thiểu bảo mật dữ liệu, vì nó dễ dàng được chia sẻ và ít có nguy cơ gây tổn hại cho cá nhân hoặc công chúng. Ví dụ về dữ liệu công khai bao gồm tên người, tin tức và bài viết giáo dục cũng như một số trang web của chính phủ.
  • Dữ liệu cá nhân: Chứa thông tin không nên chia sẻ với công chúng. Chia sẻ loại thông tin này – mật khẩu, lịch sử duyệt/nghiên cứu, số thẻ tín dụng (không có số pin và ngày hết hạn) – có thể gây ra rủi ro nhỏ cho cá nhân hoặc tổ chức và thường có thể được khắc phục nhanh chóng.
  • Dữ liệu nội bộ: Thông thường, điều này mô tả dữ liệu được sử dụng cụ thể trong một tổ chức và liên quan đến các chức năng nội bộ của tổ chức. Ví dụ về dữ liệu nội bộ bao gồm kế hoạch kinh doanh, thông tin cá nhân của nhân viên, email và bản ghi nhớ. Dữ liệu nội bộ thường được trải rộng trên các cấp độ bảo mật khác nhau.
  • Dữ liệu bí mật: Chỉ một số lượng cá nhân hạn chế trong tổ chức mới có thể truy cập dữ liệu bí mật (đôi khi được gọi là “dữ liệu nhạy cảm”). Việc truy cập dữ liệu bí mật có thể liên quan đến mật khẩu chuyên dụng hoặc quét võng mạc để xem nội dung. Ví dụ về dữ liệu bí mật là số an sinh xã hội, hồ sơ y tế, số thẻ tín dụng có số pin và ngày hết hạn.
  • Dữ liệu bị hạn chế: Đây là dữ liệu mà nếu bị xâm phạm có thể dẫn đến các khoản phạt pháp lý lớn hoặc cáo buộc hình sự. Nó thường có các biện pháp kiểm soát bảo mật rất nghiêm ngặt để hạn chế quyền truy cập vào dữ liệu và thường sử dụng một số hình thức mã hóa dữ liệu. Nếu nó được truy cập bởi những người có mục đích xấu, thông tin độc quyền của tổ chức có thể bị sao chép hoặc không thể truy cập được và yêu cầu tiền chuộc. Dữ liệu bị hạn chế cũng có thể có khả năng gây nguy hiểm cho sức khỏe cộng đồng. Ví dụ về dữ liệu bị hạn chế bao gồm sở hữu trí tuệ, thông tin sức khỏe được bảo vệ và một số hợp đồng liên bang. 

Phương pháp phân loại dữ liệu

Quá trình phân loại dữ liệu thường bao gồm việc gắn thẻ để truyền đạt loại dữ liệu, mức độ bảo mật tương ứng và chất lượng dữ liệu của nó. 

Về cơ bản, ba loại phân loại dữ liệu đã được phát triển: 

  • Phân loại dữ liệu dựa trên nội dung: Điều này thường tập trung vào thông tin nhạy cảm – hồ sơ tài chính, thông tin nhận dạng cá nhân – và sử dụng phần mềm để kiểm tra và giải thích các tệp trong khi tìm kiếm thông tin nhạy cảm.
  • Phân loại dữ liệu dựa trên ngữ cảnh: Sử dụng phần mềm tập trung vào thông tin dựa trên ngữ cảnh, chẳng hạn như ứng dụng, vị trí nguồn hoặc người tạo, để xác định vị trí lưu trữ của nó. 
  • Phân loại dữ liệu dựa trên người dùng: Một quy trình thủ công yêu cầu người thực hiện nhiệm vụ phải hiểu biết về phân loại dữ liệu. Hình thức phân loại dữ liệu này chậm hơn đáng kể và dễ xảy ra lỗi hơn nhiều so với các hệ thống phân loại dữ liệu dựa trên nội dung và ngữ cảnh sử dụng phần mềm.

Datadata đã công bố đánh giá về phân loại Công cụ phần mềm cho 2024.

Tiêu chuẩn tuân thủ và phân loại dữ liệu

Ngày càng nhiều quốc gia và một số bang ở Mỹ tạo ra các quy định và tiêu chuẩn tuân thủ yêu cầu các doanh nghiệp, tổ chức thiết lập hệ thống phân loại dữ liệu. Các yêu cầu có thể khác nhau, tùy thuộc vào quốc gia, tổ chức và loại dữ liệu tổ chức đó đang sử dụng. Dưới đây là một số ví dụ về lý do tại sao việc tuân thủ có thể là mối lo ngại.

  • Quy định bảo vệ dữ liệu chung (GDPR): Những nỗ lực của Châu Âu nhằm bảo vệ quyền riêng tư của công dân đã dẫn đến các quy định yêu cầu các doanh nghiệp phải phân loại tất cả dữ liệu được thu thập của họ. GDPR liên quan đến dữ liệu liên quan đến chủng tộc, chăm sóc sức khỏe, quan điểm chính trị, nguồn gốc dân tộc và việc sử dụng sinh trắc học. (Các doanh nghiệp không lưu trữ lượng dữ liệu khổng lồ có thể sử dụng hệ thống phân loại khá đơn giản – mục tiêu là cung cấp dữ liệu được yêu cầu cho các quan chức EU một cách nhanh chóng và hiệu quả.)
  • Tiêu chuẩn bảo mật dữ liệu ngành thẻ thanh toán (PCI DSS): Được tạo ra bởi ngành thẻ tín dụng, Yêu cầu 9.6.1 quy định rằng các doanh nghiệp và tổ chức phải “phân loại dữ liệu để có thể xác định được độ nhạy cảm của dữ liệu”. Đây không phải là luật, nhưng một thỏa thuận pháp lý.
  • Đạo luật về trách nhiệm giải trình và trách nhiệm bảo hiểm y tế (HIPAA): Đây là luật liên bang của Hoa Kỳ. Nó xem xét thông tin sức khỏe cá nhân (PHI) là thông tin bí mật và yêu cầu các cơ sở y tế bảo vệ hồ sơ bệnh án của cá nhân. Quy tắc bảo mật của HIPAA hạn chế việc sử dụng và tiết lộ thông tin sức khỏe cá nhân, đồng thời yêu cầu các cơ sở y tế và các cộng sự của họ phát triển hệ thống phân loại dữ liệu.
  • Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA): Sản phẩm CCPA tuyên bố rằng “việc phân loại dữ liệu phải xác định loại dữ liệu nào được bán, chia sẻ với bên thứ ba hoặc được sử dụng cho mục đích tiếp thị. Mọi yêu cầu về quyền đối với các loại dữ liệu cụ thể cũng phải được ghi lại trong kho dữ liệu để làm bằng chứng cho thấy bạn tuân thủ CCPA.”

Điều quan trọng là các tổ chức phải nghiên cứu các vấn đề pháp lýhoặc tham khảo ý kiến ​​tư vấn của chuyên gia khi kinh doanh qua internet. 

Những thách thức của việc phân loại dữ liệu

Quá trình phân loại dữ liệu rất hữu ích về mặt bảo mật và truy xuất dữ liệu. Tuy nhiên, có một số vấn đề có thể phát triển. Một số thách thức phổ biến là:

  • Dương tính giả: Điều này xảy ra khi cùng một dữ liệu xuất hiện trong các ngữ cảnh và định dạng khác nhau và phần mềm không nhận ra đó là dữ liệu trùng lặp. Phần mềm phân loại không kiểm tra bối cảnh và định dạng của dữ liệu có khả năng tạo ra các phân loại sai cao hơn. Bởi vì một lượng lớn dữ liệu thường được sử dụng trong các dự án phân loại, ngay cả một tỷ lệ dương tính sai cực kỳ nhỏ cũng có thể làm sai lệch quá trình phân loại.
  • Âm tính giả: Những điều này xảy ra do sự nhầm lẫn về bối cảnh. Ví dụ: tên thường không được coi là thông tin nhạy cảm. Tuy nhiên, khi nó là một phần của hồ sơ bệnh án, cái tên đó sẽ trở thành thông tin nhạy cảm. Việc phân loại dữ liệu mà không hiểu ngữ cảnh của nó có thể khiến dữ liệu có thể được phân loại không chính xác.
  • Chi phí: Giá của việc triển khai và vận hành các công cụ phân loại dữ liệu sẽ phụ thuộc vào số lượng biện pháp kiểm soát được thiết lập và lượng dữ liệu được xử lý. Việc phân loại dữ liệu có thể trở nên khá tốn kém và cồng kềnh. Những nỗ lực thủ công để phân loại lượng lớn dữ liệu có thể cực kỳ tốn kém, với lượng dữ liệu lớn hơn sẽ tốn nhiều chi phí hơn.

ChatGPT đang được thử nghiệm như một công cụ phân loại dữ liệu, nhưng có những lo ngại về khả năng hoạt động của hệ thống. thiếu an ninh.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img