شعار زيفيرنت

سلامة البيانات مقابل جودة البيانات - البيانات

التاريخ:

سلامة البيانات مقابل جودة البياناتسلامة البيانات مقابل جودة البيانات

تعد جودة البيانات وتكاملها جانبين مهمين في تحليلات البيانات. مع التطور السريع لتحليلات البيانات، يمكن اعتبار البيانات واحدة من أهم الأصول التي تمتلكها الشركة. ونتيجة لذلك، تقوم العديد من المنظمات بجمع كميات هائلة من البيانات لأغراض البحث والتسويق. 

ومع ذلك، فإن قيمة هذه البيانات تعتمد على مدى سهولة استخدامها ودقتها. نظرًا لأن البيانات تأتي من مجموعة متنوعة من المصادر، وغالبًا ما تكون بتنسيقات مختلفة، ويمكن تخزينها عدة مرات - مع احتواء بعض النسخ على أخطاء - فقد يصبح التعامل مع كميات كبيرة من البيانات أمرًا صعبًا. 

لكي تزدهر، تحتاج الأعمال الحديثة المعتمدة على البيانات إلى التركيز على كل من سلامة البيانات وجودة البيانات. 

تشير الكلمتان "النزاهة" و"الجودة" إلى وجود تأثير إيجابي، كما أن تعريف كلتا الكلمتين صعب بعض الشيء. ونتيجة لذلك، يستخدم العديد من الأشخاص مصطلحي "تكامل البيانات" و"جودة البيانات" بالتبادل، على أساس أن كلا المصطلحين يمثلان بيانات محسنة. (هناك عدد كبير من المقالات التي تحتوي على عناوين تشير إلى أن الموضوع هو تكامل البيانات، ولكنها تتحول بعد ذلك إلى وصف جودة البيانات). 

إن الاختلافات بين التعريفين هي المهمة. يمكن أن تساعد معرفة الاختلافات بين سلامة البيانات وجودة البيانات في إيصال احتياجاتك واهتماماتك المحددة إلى الآخرين.

يجب أن تتمتع البيانات بالنزاهة وأن تكون ذات جودة عالية. 

ما هو تكامل البيانات?

كلمة "النزاهة" مشتقة من الكلمة اللاتينية عدد صحيح، والتي كانت تعني ذات يوم كاملة أو كاملة أو غير مقسمة. (في الوقت الحالي، تعني كلمة "عدد صحيح" عددًا صحيحًا). وفي أربعينيات القرن السادس عشر، عند تطبيقها على الناس، أصبحت تعني شخصًا يتمتع بالصدق والإخلاص التام (شخص غير منقسم). أصبح المصطلح الحديث "تكامل البيانات" يعني البيانات الكاملة والمتسقة (أصول البيانات غير المقسمة).

في أواخر الثمانينات، عدد من شركات الأدوية الجنيسة قبض عليهم تلفيق البيانات ورشوة مسؤولي إدارة الغذاء والدواء للحصول على الموافقة على أدويتهم الجنيسة الأقل تكلفة. تسببت هذه الفضيحة في قيام إدارة الغذاء والدواء بتحويل عمليات التفتيش المسبقة للموافقة إلى التركيز على تقييم البيانات المختبرية الأولية، بدلاً من استنتاجات الشركة المصنعة. لا يمكن تغيير هذه البيانات الأولية أو تحريرها ويجب أن تكون صادقة ودقيقة. 

استمرت مشاكل المعلومات الخاطئة من صناعة الأدوية، وفي عام 2005، من إدارة الغذاء والدواء استشهد بمختبرات Able لتقديم بيانات خاطئة والفشل في مراجعة البيانات، بما في ذلك مسارات تدقيق البيانات. وفي عامي 2006 و2008، أصدرت إدارة الغذاء والدواء أيضًا رسائل تحذير إلى Ranbaxy بشأن أوجه القصور في "سلامة البيانات". وصفت إدارة الغذاء والدواء الأمريكية الافتقار إلى سلامة البيانات عند الإشارة إلى البيانات المفقودة أو التي تم تغييرها عمدًا.  

وفي عام 2008 صدر كتاب بعنوان "أنظمة التشغيل: ثلاث قطع سهلة"، وقد صدر في فصل بعنوان سلامة البيانات وحمايتها. في هذا الفصل، كتب أندريا سي. أرباتشي دوسو وريمزي أرباتشي دوسو، وهما أستاذان في علوم الكمبيوتر، عن أوضاع "فشل القرص" و"اكتشاف الفساد". كان تركيزهم الأساسي على التعامل مع حالات فشل نظام تخزين البيانات، أو "البيانات التالفة"، مع التركيز على الحفاظ على اتساق البيانات ودقتها.

كانت سلامة البيانات، قبل الخلط بينها وبين جودة البيانات، تتعلق بالحفاظ على البيانات كاملة (سليمة وتعمل بكامل طاقتها) حتى لم تعد هناك حاجة إليها. وهو يدعم العمليات والممارسات التي تحدد كيفية إدخال البيانات ونقلها وتخزينها دون تغييرها أو إتلافها. إن تجنب "البيانات التالفة" - البيانات التي تحتوي على مكونات مفقودة أو مشوهة أو تم تغييرها عمدًا - هو الهدف الأساسي لسلامة البيانات. 

في الوقت الحاضر، سلامة البيانات يمكن أن يعرف مثل صيانة وموثوقية دقة البيانات واتساقها طوال دورة حياتها، مع إعطاء الأولوية للبيانات الصادقة أو غير التالفة. 

يحدث تلف البيانات عندما يتم تغيير البيانات عن عمد أو عن طريق الخطأ. يمكن أن تؤدي التغييرات العرضية إلى جعل البيانات غير قابلة للقراءة، أو لا يمكن الوصول إليها، أو غير قابلة للاستخدام بالنسبة للباحثين، أو حتى تطبيقات البيانات الأخرى. في كثير من الحالات، لم يعد من الممكن قراءة البيانات التالفة بواسطة برامج الكمبيوتر أو تطبيقات الهاتف المحمول أو تطبيقات الويب. تلف البيانات يمكن أن يؤدي أيضًا إلى تباطؤ النظام، أو ببساطة تجميد نظام الكمبيوتر. 

يمكن أن يكون الفساد المتعمد للبيانات محاولة لتقديم معلومات خاطئة، بهدف الخداع، أو يمكن أن يكون نتيجة لاختراق أو فيروس. 

كيف تصبح البيانات تالفة

هناك عدد من العوامل التي يمكن أن تؤثر على سلامة البيانات، بما في ذلك السلوك المتعمد و/أو الضار. المصادر الأكثر شيوعًا لفساد البيانات مذكورة أدناه:

  • خطأ بشري: يمكن أن تتلف البيانات بسبب الخطأ البشري بعدة طرق. في بعض الأحيان، قد يقوم المستخدمون بحذف البيانات عن طريق الخطأ، أو الكتابة فوق ملف أو استبداله، أو إساءة التعامل مع عملية جمع البيانات أو الترحيل.
  • الأجهزة المعرضة للخطر: يمكن أن تؤدي الأجهزة المعيبة أو التالفة إلى إتلاف البيانات. يمكن أن تؤدي مشكلات الأجهزة إلى إتلاف البيانات أثناء جمعها أو معالجتها أو تخزينها، مما يؤدي إلى أن تصبح غير قابلة للاستخدام. سيؤدي التأكد من استخدام موارد الأجهزة المناسبة وغير التالفة إلى التخلص من هذه المشكلة. 
  • الأنظمة غير المتوافقة: قد يكون للبيانات الواردة من نظام كمبيوتر آخر تنسيق غير متوافق، ولا يمكن للنظام المتلقي قراءته. على سبيل المثال، قد تكون البيانات المرسلة من قاعدة بيانات NoSQL غير متوافقة مع قاعدة بيانات MySQL. 
  • الفيروسات والأخطاء: أحد أشكال السلوك الخبيث، يمكن للفيروسات والأخطاء أن تفعل أشياء فظيعة. يمكنهم تغيير البيانات وحذفها ومعالجتها.
  • نقل الأخطاء: يمكن نقل أخطاء البيانات أو حدوثها أثناء النقل. في بعض الأحيان، يتم فقدان حزم البيانات بالكامل أثناء عملية النقل، مما يؤدي إلى إنشاء سجل فارغ على جانب المتلقي. بالإضافة إلى ذلك، يمكن أن تحدث أخطاء النقل إذا كان المتلقي غير مستعد لقبول جميع سمات البيانات المطلوبة.

‍يمكن تجنب هذه المشكلات باتباع بعض القواعد الأساسية، مثل استخدام برنامج الكشف عن الأخطاء، وضوابط الوصول المناسبة، وإنشاء نسخ احتياطية، واستخدام تقنيات التحقق من الصحة.

ما هو جودة البيانات?

تصف "جودة البيانات" مدى موثوقية البيانات ودقتها واتساقها. البيانات عالية الجودة دقيقة ومفيدة لاتخاذ القرار الجيد. تصف البيانات منخفضة الجودة البيانات التي تحتوي على معلومات خاطئة وتدعم القرارات التي قد تلحق الضرر بالعمل. تعتمد جودة البيانات على تفرد البيانات ودقتها وحسن توقيتها واتساقها.‍

لقد استخدم أفلاطون كلمة «الجودة» للدلالة على صفة ما، والتي لا تزال أحد معانيها. خلال العصور المظلمةطبقت نقابات التجارة والتصنيع نظام قياس خام لمفهوم الجودة ("جودة رديئة، جودة متوسطة، جودة عالية"). البيانات عالية الجودة تعني البيانات الدقيقة لأغراض البحث وذكاء الأعمال. 

يجب أن تكون البيانات ذات الجودة العالية:

  • فريد: البيانات المكررة، أو البيانات الزائدة عن الحاجة، ليس لديها القدرة على التأثير سلبًا على البحث الإحصائي فحسب، بل يمكنها أيضًا إنتاج مواطن خلل مثيرة للاهتمام، مثل إرسال العميل نفس المنتج مرتين، برسوم واحدة فقط، أو تحصيل رسوم من نفس العميل مرتين مقابل عملية شراء واحدة . 
  • دقيق: يجب ألا تحتوي البيانات المجمعة على أخطاء أو معلومات خاطئة. فالبيانات التي تقدم معلومات غير دقيقة - بسبب خطأ بشري، أو بيانات منتهية الصلاحية، أو بيانات غامضة - يمكن أن تؤدي إلى أخطاء مكلفة. على سبيل المثال، استخدام بيانات سيئة أو غير صحيحة من المنطقة الأوروبية للتنبؤ بالمبيعات الآسيوية سيوفر نتائج غير دقيقة، مما قد يؤدي إلى كارثة للشركة.
  • حتى الآن: يجب أن تكون البيانات حديثة ومحدثة. يمكن أن تكون المعلومات القديمة أكثر خطورة من المعلومات المفقودة (بسبب الافتراض أنها لا تزال صحيحة).
  • ثابت: يجب أن تكون هناك أنماط ثابتة ومتكررة لتصنيف البيانات وتخزينها وعرضها. يجب أن يتم تمثيل جميع سجلات البيانات بأنماط متسقة لدعم الكفاءة والانسجام داخل ثقافة مكان العمل. ضع في اعتبارك الارتباك الذي قد يحدث إذا استخدمت مكاتب مختلفة تنسيقين مختلفين للتاريخ، مثل الشهر/اليوم/السنة في أمريكا واليوم/الشهر/السنة في أوروبا. (هل سيقع يوم 12/10/23 في ديسمبر أو أكتوبر؟).

معظم قضايا جودة البيانات هي نتيجة للأخطاء البشرية وسياسات جمع البيانات المختلة. 

تحسين سلامة البيانات

‍يمكن اتخاذ بعض الخطوات لتحسين سلامة البيانات. عادةً ما تظهر مشكلة تلف البيانات بمجرد أن يحاول شخص ما التعامل معها. الهدف هو تجنب الاضطرار إلى التعامل مع تلف البيانات في المقام الأول. طرق تحسين سلامة البيانات مذكورة أدناه: 

  • التوافق: قد يكون لدى المؤسسة بيانات مخزنة في قواعد البيانات العلائقية، والأنظمة القديمة، ومستودعات البيانات، وفي التطبيقات المستندة إلى السحابة، وما إلى ذلك. ويأتي كل نظام من أنظمة التخزين هذه مع "لغته" وطرق التخزين الخاصة به. تتطلب سلامة البيانات "محاذاة" هذه الأنظمة و متوافق معا. في معظم الحالات، تصبح البيانات التالفة غير قابلة للقراءة بواسطة برامج الكمبيوتر أو تطبيقات الويب أو تطبيقات الهاتف المحمول. 
  • الأتمتة: استخدام الأتمتة يقلل من الخطأ البشري، والذي بدوره يعزز سلامة البيانات.
  • الأمن: يمكن للفيروسات والأخطاء، وكذلك المتسللين ذوي النوايا الخبيثة، إتلاف البيانات وتشويهها عمدًا. الأمن المناسب يمكنه حماية البيانات من الفيروسات والأخطاء وهجمات القراصنة المصممة لجعل البيانات غير قابلة للاستخدام. 
  • النسخ الاحتياطي للبيانات: أنظمة التخزين الزائدة يمكنه تخزين البيانات بأمان قبل أن تتلف، مما يوفر نسخة احتياطية طارئة من البيانات. 
  • برامج مفيدة: هناك مجموعة متنوعة من الحلول البرمجية المصممة لتعزيز سلامة البيانات. 

تحسين جودة البيانات

كما هو الحال مع سلامة البيانات، هناك طرق لتحسين جودة البيانات. طرق تحسين جودة البيانات مذكورة أدناه.

  • تصحيح أخطاء البيانات على الفور: إن تحديد الأخطاء في البيانات وتصحيحها بسرعة، قبل أن يكون لها أي تأثير، يمكن أن يؤدي إلى تحسين الكفاءة. اي تي ال (عملية الاستخراج والتحويل والتحميل). يمكن استخدامها لدمج البيانات من مصادر متعددة وتخزينها كبيانات موحدة ومتسقة لاستخدامها لاحقًا. 
  • القضاء على صوامع البيانات: لقد تطورت العديد من المنظمات الكبيرة عن غير قصد صوامع البيانات (تخزين البيانات المعزولة) داخل أقسام مختلفة أو مواقع فعلية أخرى. هذه البيانات غير متاحة لبقية المؤسسة ويمكن أن تقيد البحث. بالإضافة إلى ذلك، غالبًا ما تكون الأقسام التي تحتفظ بمستودعات البيانات عرضة لمشاكل جودة البيانات الخاصة بها. إن مركزية بيانات الأعمال تجعلها أكثر سهولة وقابلية للاستخدام، وتضمن أن جميع البيانات موحدة ومتاحة للبحث.
  • جمع البيانات الصحيحة: قد تقوم إحدى الشركات بجمع كميات كبيرة من البيانات، ولكن هل هي بيانات مفيدة بالفعل؟ هل هو جمع المعلومات الصحيحة؟ تطوير أ عملية الجمع إن التركيز على الأسئلة والكلمات الرئيسية الصحيحة، وتجنب مواقع الويب التي قد تكون غير مجدية أو ضارة، سيؤدي إلى تحسين الكفاءة.
  • تعزيز الثقافة القائمة على البيانات: تطوير برنامج إدارة البيانات يمكن استخدامها لتعزيز تطوير ثقافة تعتمد على البيانات. إدارة البيانات عبارة عن مزيج من البرامج و التغيرات الثقافية التي تعزز الاستخدام الفعال للبيانات. يتطلب مشاركة جميع الموظفين والمديرين ويستخدم أ الإطار لجمع واستخدام بيانات عالية الجودة.
  • الأتمتة: يؤدي استخدام الأتمتة إلى تقليل الأخطاء البشرية بدوره تعزيز جودة البيانات

الصورة المستخدمة بموجب ترخيص من Shutterstock.com

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة