شعار زيفيرنت

أساسيات تصنيف البيانات – تنوع البيانات

التاريخ:

تصنيف البياناتتصنيف البيانات
كريفيس / شترستوك

يمكن وصف عملية تصنيف البيانات على نطاق واسع بأنها تنظيم البيانات في الفئات ذات الصلة، مما يسمح بالوصول إليها وحمايتها بشكل أكثر كفاءة. بعبارات أبسط، تقوم عملية تصنيف البيانات بتصنيف البيانات بناءً على احتياجاتها الأمنية وتسهل تحديد موقع البيانات واسترجاعها. يعد التصنيف مفيدًا بشكل خاص للمؤسسات التي تقوم بتخزين كميات كبيرة جدًا من البيانات.  

يمكن استخدام تصنيف البيانات لأغراض متعددة: مبادرات أمن البيانات، والحفاظ على الامتثال التنظيمي، وتحقيق أهداف العمل الأخرى. في بعض الحالات، أصبح تصنيف البيانات متطلبًا تنظيميًا، مع إتاحة البيانات للوكالات الحكومية، التي تطلب أن تكون قابلة للبحث والاسترجاع ضمن أطر زمنية محددة. نظرًا لأن تصنيف البيانات يدعم عمليات البحث وجمع البيانات السهلة والفعالة، يصبح تحليل البيانات عملية أكثر كفاءة.

جوليا دنكان، مديرة جامعة تورنتو شرح

"البيانات موجودة في كل مكان حولنا. يساعدنا تصنيف البيانات على فهم أنسب الطرق للتعامل معها وحمايتها - من يمكنه رؤيتها أو استخدامها، ومكان تخزينها ومدة تخزينها، وما إذا كان من الممكن مشاركتها وما هي تدابير الحماية الأكثر ملاءمة. وسواء كان الأمر يتعلق بمشروع بحثي، أو كجزء من جمع البيانات، أو الاستخدام اليومي للبيانات ومشاركتها للأغراض الأكاديمية والإدارية، فإن تصنيف البيانات يعد خطوة مهمة للغاية بينما نواصل تعزيز أمن البيانات.

كما تعمل عملية تصنيف البيانات على التخلص من تكرار البيانات، مما يؤدي بدوره إلى تحسين دقة البيانات (جودة البيانات وسلامة البيانات). 

يتم تطبيق علامات البيانات أثناء عملية تصنيف البيانات. ويعتبر خطوة أساسية في تصنيف البيانات. تُستخدم هذه العلامات لتحديد البيانات ويمكنها توصيل مستوى السرية/الحساسية - لأغراض أمنية - ومستوى جودة البيانات. تحدد حساسية البيانات تصنيف الأمان الخاص بها.

ترقيم البيانات

تحدد علامات البيانات البيانات عن طريق تضمين العلامة داخل البيانات التعريفية. "العلامة" هي كلمة أساسية أو رقم أو مصطلح يتم تعيينه لملف بيانات. في الأعمال التجارية، يمكن أن يوفر معرف الموظف طريقة فريدة لتحديد هوية الموظفين الأفراد. عند إدخال رقم الموظف، يعرض محرك البحث موظفًا واحدًا، بدلاً من عدة موظفين يتشاركون في كلمة رئيسية مشتركة. 

وبالمثل، في مباراة كرة القدم، يمكن استخدام رقم المقعد للإبلاغ عن تخصيص مقعد لتذكرة معينة، وإنشاء ملكية مؤقتة. يعمل نظام وضع العلامات داخل البيانات الوصفية على تعزيز تحديد موقع ملف البيانات والوصول إليه بسرعة وسهولة، ويمكنه إزالة أي لبس حول من "يملك" المقعد.

يستخدم وضع علامات على البيانات البيانات الوصفية لتوفير عملية تعريف فريدة وتعزيز الكفاءة.

يعد وضع علامات على البيانات خطوة أساسية في عملية تصنيف البيانات. تُستخدم العلامات لتوصيل نوع البيانات ومستوى حساسيتها وخصائصها مستوى جودة البيانات. وتعتمد الحساسية عادة على أهمية البيانات أو سريتها، وتتوافق مع التدابير الأمنية المناسبة اللازمة. 

أنواع البيانات الشائعة

يمكن أن يوفر تصنيف البيانات فهمًا أفضل وإمكانية الوصول إلى بيانات المنظمة. يعزز هذا الموقف استخدام تحليل البيانات وتحسين أمان البيانات. يمكن أن يساعد الاستخدام الفعال لتصنيف البيانات المؤسسة التي لديها كمية هائلة من البيانات المخزنة على العمل بكفاءة أكبر. 

لفهم كيفية عمل تصنيف البيانات بشكل أفضل، من المهم فهم أنواع البيانات الأكثر شيوعًا، والمدرجة أدناه:

  • البيانات العامة: يوفر معلومات متاحة مجانًا لعامة الناس للقراءة والبحث والتخزين. وهو يدعم عادة كميات قليلة من أمن البيانات، لأنه يمكن مشاركتها بسهولة ولا تنطوي على خطر كبير في إلحاق الضرر بالأفراد أو عامة الناس. تتضمن أمثلة البيانات العامة أسماء الأشخاص والأخبار والمقالات التعليمية وبعض المواقع الحكومية.
  • بيانات خاصة: يحتوي على معلومات لا ينبغي مشاركتها مع الجمهور. إن مشاركة هذا النوع من المعلومات - كلمات المرور، وسجل التصفح/البحث، وأرقام بطاقات الائتمان (بدون أرقام التعريف الشخصية وتواريخ انتهاء الصلاحية) - قد تشكل خطرًا صغيرًا على فرد أو مؤسسة، وعادةً ما يمكن تصحيحها بسرعة.
  • البيانات الداخلية: عادةً، يصف هذا البيانات المستخدمة على وجه التحديد داخل المؤسسة ويتعلق بالوظائف الداخلية للمؤسسة. تتضمن أمثلة البيانات الداخلية خطط الأعمال والمعلومات الشخصية للموظفين ورسائل البريد الإلكتروني والمذكرات. غالبًا ما تنتشر البيانات الداخلية عبر مستويات مختلفة من الأمان.
  • البيانات السرية: يمكن لعدد محدود فقط من الأفراد داخل المنظمة الوصول إلى البيانات السرية (يشار إليها أحيانًا باسم "البيانات الحساسة"). قد يتضمن الوصول إلى البيانات السرية كلمات مرور متخصصة أو عمليات فحص لشبكية العين من أجل عرض المحتوى. ومن أمثلة البيانات السرية أرقام الضمان الاجتماعي والسجلات الطبية وأرقام بطاقات الائتمان مع الأرقام السرية وتواريخ انتهاء الصلاحية.
  • البيانات المقيدة: وهذه البيانات، إذا تم اختراقها، يمكن أن تؤدي إلى غرامات قانونية ضخمة أو تهم جنائية. وعادة ما يكون لديه ضوابط أمنية صارمة للغاية للحد من الوصول إلى البيانات، وغالباً ما يستخدم شكلاً من أشكال تشفير البيانات. إذا تم الوصول إليها من قبل أشخاص ذوي نوايا خبيثة، فقد يتم نسخ المعلومات الخاصة بالمنظمة، أو جعل الوصول إليها غير ممكن، مع المطالبة بفدية. قد يكون للبيانات المقيدة أيضًا القدرة على تعريض صحة عامة الناس للخطر. تشمل أمثلة البيانات المقيدة الملكية الفكرية والمعلومات الصحية المحمية وبعض العقود الفيدرالية. 

طرق تصنيف البيانات

تتضمن عملية تصنيف البيانات عادةً وضع العلامات لتوصيل نوع البيانات ومستوى الأمان المقابل وجودة البيانات الخاصة بها. 

تم تطوير ثلاثة أنواع من تصنيف البيانات بشكل أساسي: 

  • تصنيف البيانات على أساس المحتوى: يركز هذا غالبًا على المعلومات الحساسة - السجلات المالية ومعلومات التعريف الشخصية - ويستخدم البرامج لفحص الملفات وتفسيرها أثناء البحث عن المعلومات الحساسة.
  • تصنيف البيانات على أساس السياق: يستخدم برنامجًا يركز على المعلومات المستندة إلى السياق، مثل التطبيق أو موقع مصدره أو منشئه، لتحديد موقع تخزينه. 
  • تصنيف البيانات على أساس المستخدم: عملية يدوية تتطلب من الشخص الذي يقوم بالمهمة أن يكون لديه فهم لتصنيف البيانات. هذا النوع من تصنيف البيانات أبطأ بكثير، وأكثر عرضة للخطأ، من أنظمة تصنيف البيانات القائمة على المحتوى والسياق، والتي تستخدم البرمجيات.

نشرت Datamation مراجعة للتصنيف أدوات البرمجيات ل2024.

معايير الامتثال وتصنيف البيانات

أنشأ عدد متزايد من البلدان، وبعض الولايات في الولايات المتحدة، لوائح ومعايير امتثال تتطلب من الشركات والمؤسسات إنشاء نظام لتصنيف البيانات. قد تختلف المتطلبات حسب البلد والمؤسسة وأنواع البيانات التي تستخدمها. فيما يلي بعض الأمثلة على الأسباب التي تجعل الامتثال أمرًا مثيرًا للقلق.

  • اللائحة العامة لحماية البيانات (GDPR): وأسفرت الجهود التي بذلتها أوروبا لحماية خصوصية مواطنيها عن لوائح تلزم الشركات بتصنيف كافة البيانات المجمعة. الناتج المحلي الإجمالي يهتم بالبيانات المتعلقة بالعرق والرعاية الصحية والآراء السياسية والأصل العرقي واستخدام القياسات الحيوية. (يمكن للشركات التي لا تقوم بتخزين كميات هائلة من البيانات أن تستخدم نظام تصنيف بسيط إلى حد ما ــ الهدف هو توفير البيانات المطلوبة لمسؤولي الاتحاد الأوروبي بطريقة سريعة وفعالة).
  • معيار أمان بيانات صناعة بطاقات الدفع (PCI DSS): ينص المتطلب 9.6.1، الذي أنشأته صناعة بطاقات الائتمان، على أنه يجب على الشركات والمؤسسات "تصنيف البيانات بحيث يمكن تحديد حساسية البيانات". هذا ليس قانونا، ولكن اتفاق قانوني.
  • قانون نقل التأمين الصحي والمساءلة (HIPAA): هذا هو القانون الفيدرالي الأمريكي. يعتبر تعتبر المعلومات الصحية الشخصية (PHI) معلومات سرية، وتتطلب وجود مرافق طبية لحماية السجلات الطبية للأفراد. تقيد قاعدة خصوصية HIPAA استخدام المعلومات الصحية الشخصية والكشف عنها، وتتطلب من المرافق الطبية وشركائها تطوير نظام لتصنيف البيانات.
  • قانون خصوصية المستهلك في كاليفورنيا (CCPA): • CCPA ينص على أن "تصنيف البيانات يجب أن يحدد أنواع البيانات التي يتم بيعها أو مشاركتها مع أطراف ثالثة أو استخدامها لأغراض التسويق. يجب أيضًا تسجيل أي طلبات حقوق لأنواع بيانات محددة في مخزون البيانات كدليل على امتثالك لقانون CCPA.

ومن المهم بالنسبة للمنظمات بحث المخاوف القانونية، أو استشر مشورة الخبراء، عند ممارسة الأعمال التجارية عبر الإنترنت. 

تحديات تصنيف البيانات

تعتبر عملية تصنيف البيانات مفيدة جدًا من حيث الأمان واسترجاع البيانات. ومع ذلك، هناك بعض المشاكل التي قد تتطور. بعض التحديات المشتركة هي:

  • ايجابيات مزيفة: ويحدث هذا عندما تظهر نفس البيانات في سياقات مختلفة وتنسيقات مختلفة، ولا يتعرف البرنامج عليها كنسخة مكررة. إن برامج التصنيف التي لا تفحص سياق البيانات وشكلها لديها احتمالية أكبر لتوليد تصنيفات خاطئة. ونظرًا لاستخدام كميات كبيرة من البيانات عادةً في مشاريع التصنيف، فإن المعدلات الإيجابية الكاذبة الصغيرة للغاية قد تؤدي إلى تشويه عملية التصنيف.
  • السلبيات الكاذبة: تحدث هذه نتيجة للارتباك فيما يتعلق بالسياق. على سبيل المثال، لا يعتبر الاسم عادةً معلومات حساسة. ومع ذلك، عندما يكون هذا الاسم جزءًا من سجل طبي، يصبح هذا الاسم معلومات حساسة. يمكن أن يؤدي تصنيف البيانات دون فهم سياقها إلى تصنيف البيانات بشكل غير صحيح.
  • التكلفة: سيعتمد سعر تنفيذ وتشغيل أدوات تصنيف البيانات على عدد الضوابط الموضوعة وكمية البيانات التي تتم معالجتها. يمكن أن يصبح تصنيف البيانات مكلفًا ومرهقًا للغاية. يمكن أن تكون الجهود اليدوية لتصنيف كميات كبيرة من البيانات مكلفة للغاية، حيث أن الكميات الكبيرة من البيانات تكلف أكثر.

يتم تجربة ChatGPT كأداة لتصنيف البيانات، ولكن هناك مخاوف بشأن النظام نقص الحماية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة