شعار زيفيرنت

الشروع في تنظيف البيانات

التاريخ:

الشروع في تنظيف البيانات
ناقل الخلفية الذي تم إنشاؤه بواسطة rawpixel.com - www.freepik.com

 

يعد تنظيف البيانات جزءًا من مرحلة ما قبل المعالجة وهو خطوة حيوية يجب اتخاذها قبل أن تحدث مرحلة التنقيب عن البيانات. 

جودة البيانات هي مقياس مدى ملاءمة مجموعة البيانات لخدمة غرضها المحدد ومدى موثوقيتها لاتخاذ قرارات موثوقة. وهي تتكون من خصائص مثل الدقة والاكتمال والاتساق والصلاحية والتوقيت. 

من أجل الحصول على بيانات جيدة ، هناك عملية يجب أن تحدث. هذا هو تنظيف البيانات. يتكون تنظيف البيانات من أنواع مختلفة من التقنيات بناءً على نوع البيانات والمشكلات المحددة في البيانات. 

للتلخيص ، البيانات غير الصحيحة إما صحيحة أو تمت إزالتها أو محتسبة. 

بيانات غير ذات صلة

 
هذه بيانات غير مطلوبة أو ليس لها فائدة أو لا تنطبق على المشكلة التي تحاول حلها. 

على سبيل المثال ، إذا كنا نحلل البيانات المتعلقة بخيارات نمط حياة المرضى وكيف تؤثر على مؤشر كتلة الجسم لديهم ، فلن يكون عنوان هاتفهم غير ذي صلة كمتغير. ومع ذلك ، فإن حالة التدخين أو تاريخهم الطبي مهمان وذو صلة بحل المشكلة.

يجب أن تكون على يقين من أن قطعة من البيانات ليست مهمة وليس لها صلة بالمشكلة. في هذه المرحلة ، يمكنك إسقاطها. بخلاف ذلك ، استكشف البيانات وابحث عن ارتباط بين المتغيرات. 

إذا كنت لا تزال غير متأكد ، فاسأل شخصًا خبيرًا في المجال أو أعلى في الشركة. قد يرون الملاءمة في متغير معين قد لا تكون كذلك.

بيانات مكررة

 
التكرارات هي البيانات التي يتم تكرارها في مجموعة البيانات. يحدث هذا عادة بسبب:

  • يمكن للمستخدم إرسال نفس الإجابة مرتين عن طريق الصدفة
  • تم تقديم طلب مرتين ، لأسباب مختلفة مثل المعلومات الخاطئة أو مجرد تقديم طلب مرتين.
  • هناك مجموعة من البيانات من مصادر مختلفة

مثل هذه الأمثلة يجب إزالتها ببساطة من البيانات ، لأنها ستؤثر على عملية التحليل الخاصة بك.

نوع البيانات

 
هناك أنواع مختلفة من البيانات ، مثل السلسلة والأعداد الصحيحة والعوامات. يعد التأكد من أن البيانات في النوع الصحيح من التحويل أمرًا مهمًا لمرحلة التحليل الخاصة بك. تأكد من تخزين الإجابات "صواب" أو "خطأ" كنوع بيانات منطقي. تأكد من تخزين اسم المريض كنوع بيانات سلسلة.

يمكن التحقق من ذلك بسهولة عن طريق إجراء إحصائيات موجزة ، تُعرف باسم تحديد سمات البيانات. يمنحك عرضًا إحصائيًا عامًا للبيانات ، مما يساعدك على تحديد القيم المفقودة ونوع البيانات في كل متغير وما إلى ذلك.

إذا تعذر تحويل بعض قيم البيانات إلى نوع بيانات معين ، فيجب تحويلها إلى قيم NaN أو قيمة أخرى ، مما يشير إلى أن القيمة غير صحيحة وتحتاج إلى حل. 

أخطاء في بناء الجملة

 
الأخطاء النحوية هي أخطاء ، مثل التهجئة أو علامات الترقيم أو القيم غير الصحيحة. 
 

الفضاء الابيض

 
المسافة البيضاء عبارة عن أحرف تُستخدم للتباعد ولها تمثيل "فارغ". يجب إزالة المسافات البيضاء إذا كانت في البداية أو في النهاية. فمثلا:

"hello world" => "hello world"

حرف الوسادة

 
حرف اللوحة هو حرف يُستخدم فقط لملء مساحة فارغة في سلسلة لإنشاء طول موحد للحفاظ على محاذاة كل شيء في مجموعة بيانات. يحول المثال أدناه عددًا صحيحًا مكونًا من 3 أرقام إلى عدد صحيح مكون من 6 أرقام.

123 => 000123

سلسلة الأخطاء المطبعية

 
تحتوي السلسلة عادةً على معظم الأخطاء والأخطاء لأنه يمكن إدخالها بطرق مختلفة. يمكنك أن تقول "مرحبًا" أو تكتب "هلو" عن طريق الخطأ. على سبيل المثال ، تم إجراء مسح لفهم التركيبة السكانية للمدينة بشكل أكبر. إذا لم تكن هناك قائمة منسدلة لاختيار جنسك ، فيمكن أن تعود البيانات بالشكل التالي:

: الجنس ذكر و رجل أنثى فيم مايل

توجد حلول مختلفة لذلك ، تتمثل إحدى الطرق في تعيين كل قيمة يدويًا إلى "ذكر" أو "أنثى"

dataframe ['Gender:']. map ({'Man': 'Male'، 'Fem': 'Female'، ...}]

طرق تنظيف البيانات

 
لنلقِ نظرة على الطرق المختلفة التي يمكنك من خلالها تنظيف البيانات الأولية. 

1. التوحيد

 
يساعدك وضع البيانات في نفس التنسيق القياسي على تنظيف البيانات وتحديد الأخطاء في البيانات. على سبيل المثال ، يعد التأكد من أن جميع قيم السلسلة إما بأحرف صغيرة أو كبيرة لإيقاف الالتباس بداية جيدة. 

التأكد من أن جميع القيم الرقمية هي نفس القياس في هذا العمود المحدد ، إلى وحدة واحدة. على سبيل المثال ، يمكن أن يكون وزن المريض عادةً بالجنيه (رطل) أو الكيلوجرام (كجم). إن تعيينهم جميعًا على نفس القياس يجعل حياة المحلل أسهل قليلاً. 

2. التحجيم

 
قياس البيانات يعني تحويلها بحيث تتناسب مع مقياس معين ، مثل 0-100 أو 0-1. من خلال القياس ، يمكننا رسم البيانات ومقارنتها وتحليلها بشكل أفضل. على سبيل المثال ، يمكن تحويل عدد الزيارات التي يقوم بها المستخدم إلى صالة الألعاب الرياضية من عدد صحيح إلى نسبة مئوية ، مما يوضح مقدار استخدامهم للصالة الرياضية لفترة محددة. 

3. التطبيع

 
التطبيع هو عملية إعادة تنظيم البيانات بحيث لا توجد بيانات مكررة ويتم تخزين البيانات في مكان واحد. الهدف من التطبيع هو تغيير ملاحظاتك بحيث يمكن وصفها بالتوزيع الطبيعي. 

كثير من الناس يخلطون بين توحيد البيانات وتطبيعها على أنهما نفس الشيء ، لكنهم ليسوا كذلك. تقوم عملية التطبيع عادةً بإعادة قياس القيم في نطاق من [0,1،0] ، في حين أن التوحيد القياسي عادةً ما يعيد قياس البيانات ليكون لها متوسط ​​1 وانحراف معياري قدره XNUMX. 

4. NaN / القيم المفقودة

 
من الصعب تجنب فقدان القيم ، لذلك يتعين علينا التعامل معها بطريقة ما. ومع ذلك ، فإن تجاهلهم يجعل مشكلتك أسوأ. هناك طرق مختلفة يمكنك التعامل معها.

  • إسقاط: الحل الأسهل هو إسقاط الصف أو العمود إذا حدثت القيم المفقودة عشوائيًا. 
  • نسب: يتم احتساب القيمة المفقودة بناءً على ملاحظات أخرى. 
    • يمكنك استخدام طرق مثل القيم الإحصائية مثل المتوسط ​​والوسيط. ومع ذلك ، فهذه ليست مضمونة باعتبارها بيانات "غير متحيزة". 
    • طريقة أخرى هي استخدام الانحدار الخطي. يمكنك استخدام سطر يناسب البيانات الموجودة بين متغيرين لملء القيمة المفقودة. 

يمكن القول إن ملء القيم المفقودة أمر مثير للجدل عند استخدام البيانات لاتخاذ قرارات مهمة ، وتحليل إحصائي ، وتقديم الحقائق لبقية المجتمع. البيانات المفقودة لها قيمة وغنية بالمعلومات. على سبيل المثال ، إذا تم إجراء استطلاع ورفض المستخدمون من فئة عمرية معينة أو مجموعة دينية الإجابة على سؤال. السبب وراء القيم المفقودة مهم وغني بالمعلومات لقائد المسح عند مطالبة المحلل بإيجاد الارتباطات والمخرجات. 

إن إسقاط القيم المفقودة أو احتسابها يختلف عن القيم الافتراضية. يعد وضع علامة عليها أمرًا مهمًا وقد يسمح بمزيد من التحليل للأغراض الحالية والمستقبلية. 

الخطوات التالية

 
بعد مرحلة المعالجة المسبقة ، والتي تشمل إسقاط البيانات أو احتسابها ؛ من المهم إعادة تقييم البيانات والتأكد من أن عملية التنظيف لم تنتهك أي قواعد أو معلمات. 

إن تمرير البيانات أو الانتقال إلى المرحلة التالية دون الإبلاغ عن جودة البيانات لا يقل أهمية عن عملية التنظيف. توجد برامج ومكتبات يمكنها اكتشاف هذه التغييرات والإبلاغ عنها ، مع توضيح ما إذا تم انتهاك أي قواعد. 

يتيح الإبلاغ عن الأخطاء في البيانات للشركة تحديد سبب حدوثها في المقام الأول ، وما إذا كانت البيانات مفيدة بعد الآن وكيف يمكن تجنبها في المستقبل. 

وفي الختام

 
قد تجلس هناك لساعات على أطراف محاولًا تنظيف البيانات ، لدرجة أنك قد تصاب بالإحباط. ومع ذلك ، لا فائدة من تحليل البيانات السيئة. لا تتعامل حلول الإسعافات الأولية مع سبب المشكلة. عليك أن تفهم المشكلة المطروحة وتكتشف أفضل طريقة لحلها. 

 
 
نيشا آريا هو عالم بيانات وكاتب تقني مستقل. وهي مهتمة بشكل خاص بتقديم المشورة المهنية في علوم البيانات أو البرامج التعليمية والمعرفة القائمة على النظرية حول علوم البيانات. إنها ترغب أيضًا في استكشاف الطرق المختلفة التي يمكن للذكاء الاصطناعي من خلالها الاستفادة من طول عمر الإنسان. متعلمة حريصة ، تسعى إلى توسيع معرفتها التقنية ومهارات الكتابة لديها ، بينما تساعد في توجيه الآخرين.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة