شعار زيفيرنت

7 خطوات لإتقان تحليل البيانات الاستكشافية – KDnuggets

التاريخ:

7 خطوات لإتقان تحليل البيانات الاستكشافية
صورة المؤلف
 

يمثل تحليل البيانات الاستكشافية (EDA) مرحلة أساسية في عملية تحليل البيانات، مع التركيز على إجراء تحقيق شامل في التفاصيل والخصائص الداخلية لمجموعة البيانات.

هدفها الأساسي هو الكشف عن الأنماط الأساسية، وفهم بنية مجموعة البيانات، وتحديد أي حالات شاذة أو علاقات محتملة بين المتغيرات. 

من خلال إجراء EDA، يتحقق متخصصو البيانات من جودة البيانات. ولذلك، فهو يضمن أن يكون التحليل الإضافي مبنيًا على معلومات دقيقة وثاقبة، مما يقلل من احتمالية حدوث أخطاء في المراحل اللاحقة.

لذلك دعونا نحاول أن نفهم معًا ما هي الخطوات الأساسية لأداء EDA جيد لمشروعنا القادم في علوم البيانات.

أنا متأكد من أنك سمعت بالفعل هذه العبارة: 

القمامة في، القمامة خارج

تعد جودة بيانات الإدخال دائمًا العامل الأكثر أهمية لأي مشروع بيانات ناجح. 

لسوء الحظ، معظم البيانات قذرة في البداية. من خلال عملية تحليل البيانات الاستكشافية، يمكن تحويل مجموعة البيانات القابلة للاستخدام تقريبًا إلى مجموعة قابلة للاستخدام بالكامل. 

من المهم توضيح أن هذا ليس حلاً سحريًا لتنقية أي مجموعة بيانات. ومع ذلك، فإن العديد من استراتيجيات EDA تكون فعالة في معالجة العديد من المشكلات النموذجية التي تتم مواجهتها داخل مجموعات البيانات.

لذلك... دعونا نتعلم الخطوات الأساسية وفقًا لأيوديلي أولولي في كتابه تحليل البيانات الاستكشافية باستخدام كتاب الطبخ بايثون.

الخطوة 1: جمع البيانات

الخطوة الأولى في أي مشروع بيانات هي الحصول على البيانات نفسها. هذه الخطوة الأولى هي حيث يتم جمع البيانات من مصادر مختلفة لتحليلها لاحقا.

2. ملخص الإحصائيات

في تحليل البيانات، يعد التعامل مع البيانات الجدولية أمرًا شائعًا جدًا. أثناء تحليل مثل هذه البيانات، غالبًا ما يكون من الضروري الحصول على رؤى سريعة حول أنماط البيانات وتوزيعها. 

تعمل هذه الأفكار الأولية كقاعدة لمزيد من الاستكشاف والتحليل المتعمق وتعرف باسم الإحصائيات الموجزة. 

أنها توفر نظرة عامة موجزة عن توزيع مجموعة البيانات وأنماطها، مغلفة من خلال مقاييس مثل المتوسط، والوسيط، والوضع، والتباين، والانحراف المعياري، والنطاق، والنسب المئوية، والرباعيات.

 

7 خطوات لإتقان تحليل البيانات الاستكشافية
صورة المؤلف

3. إعداد البيانات لجمعية الإمارات للغوص

قبل البدء في الاستكشاف، تحتاج البيانات عادةً إلى الاستعداد لمزيد من التحليل. يتضمن إعداد البيانات تحويل البيانات أو تجميعها أو تنظيفها باستخدام مكتبة Python pandas لتناسب احتياجات تحليلك. 

تم تصميم هذه الخطوة بما يتناسب مع بنية البيانات ويمكن أن تتضمن التجميع والإلحاق والدمج والفرز والتصنيف والتعامل مع التكرارات.

في بايثون، يتم تسهيل إنجاز هذه المهمة من خلال مكتبة الباندا من خلال وحداتها المتنوعة. 

لا تلتزم عملية إعداد البيانات الجدولية بطريقة عالمية؛ وبدلاً من ذلك، يتم تشكيلها حسب الخصائص المحددة لبياناتنا، بما في ذلك صفوفها وأعمدتها وأنواع البيانات والقيم التي تحتوي عليها.

4. تصور البيانات

يعد التصور مكونًا أساسيًا في EDA، مما يجعل العلاقات والاتجاهات المعقدة داخل مجموعة البيانات سهلة الفهم. 

يمكن أن يساعدنا استخدام المخططات الصحيحة في تحديد الاتجاهات ضمن مجموعة بيانات كبيرة والعثور على الأنماط المخفية أو القيم المتطرفة. تقدم Python مكتبات مختلفة لتصور البيانات، بما في ذلك Matplotlib أو Seaborn وغيرها. 

 

7 خطوات لإتقان تحليل البيانات الاستكشافية
صورة المؤلف

5. إجراء تحليل المتغير:

يمكن أن يكون تحليل المتغير إما أحادي المتغير أو ثنائي المتغير أو متعدد المتغيرات. يوفر كل واحد منهم رؤى حول التوزيع والارتباطات بين متغيرات مجموعة البيانات. تختلف التقنيات اعتمادًا على عدد المتغيرات التي تم تحليلها:

أحادي المتغير

ينصب التركيز الرئيسي في التحليل أحادي المتغير على فحص كل متغير ضمن مجموعة البيانات الخاصة بنا بمفرده. خلال هذا التحليل، يمكننا الكشف عن رؤى مثل المتوسط، والوضع، والحد الأقصى، والمدى، والقيم المتطرفة. 

ينطبق هذا النوع من التحليل على المتغيرات الفئوية والعددية.

ذات المتغيرين

يهدف التحليل ثنائي المتغير إلى الكشف عن الأفكار بين متغيرين مختارين ويركز على فهم التوزيع والعلاقة بين هذين المتغيرين. 

نظرًا لأننا نحلل متغيرين في نفس الوقت، فقد يكون هذا النوع من التحليل أكثر تعقيدًا. يمكن أن تشمل ثلاثة أزواج مختلفة من المتغيرات: عددي عددي، عددي فئوي، وفئوي فئوي.

متعدد المتغيرات

التحدي المتكرر مع مجموعات البيانات الكبيرة هو التحليل المتزامن لمتغيرات متعددة. على الرغم من أن طرق التحليل أحادية المتغير وثنائية المتغير توفر رؤى قيمة، إلا أن هذا لا يكفي عادة لتحليل مجموعات البيانات التي تحتوي على متغيرات متعددة (عادة أكثر من خمسة).

إن مسألة إدارة البيانات عالية الأبعاد، والتي يشار إليها عادةً باسم لعنة الأبعاد، موثقة جيدًا. يمكن أن يكون وجود عدد كبير من المتغيرات مفيدًا لأنه يسمح باستخلاص المزيد من الأفكار. وفي الوقت نفسه، يمكن أن تكون هذه الميزة ضدنا بسبب العدد المحدود من التقنيات المتاحة لتحليل أو تصور متغيرات متعددة في وقت واحد.

6. تحليل بيانات السلاسل الزمنية

تركز هذه الخطوة على فحص نقاط البيانات التي تم جمعها على فترات زمنية منتظمة. تنطبق بيانات السلاسل الزمنية على البيانات التي تتغير بمرور الوقت. وهذا يعني في الأساس أن مجموعة البيانات الخاصة بنا تتكون من مجموعة من نقاط البيانات التي يتم تسجيلها على فترات زمنية منتظمة.

عندما نقوم بتحليل بيانات السلاسل الزمنية، يمكننا عادة الكشف عن الأنماط أو الاتجاهات التي تتكرر مع مرور الوقت وتقدم موسمية زمنية. تشمل المكونات الرئيسية لبيانات السلاسل الزمنية الاتجاهات والتغيرات الموسمية والتغيرات الدورية والتغيرات غير المنتظمة أو الضوضاء.

7. التعامل مع القيم المتطرفة والقيم المفقودة

يمكن أن تؤدي القيم المتطرفة والقيم المفقودة إلى تحريف نتائج التحليل إذا لم تتم معالجتها بشكل صحيح. ولهذا السبب يجب أن نفكر دائمًا في مرحلة واحدة للتعامل معها. 

يعد تحديد نقاط البيانات هذه أو إزالتها أو استبدالها أمرًا بالغ الأهمية للحفاظ على سلامة تحليل مجموعة البيانات. ولذلك، من المهم للغاية معالجتها قبل البدء في تحليل بياناتنا. 

  • القيم المتطرفة هي نقاط بيانات تمثل انحرافًا كبيرًا عن الباقي. وعادة ما تقدم قيمًا عالية أو منخفضة بشكل غير عادي.
  • القيم المفقودة هي غياب نقاط البيانات المقابلة لمتغير أو ملاحظة محددة. 

تتمثل الخطوة الأولية الحاسمة في التعامل مع القيم المفقودة والقيم المتطرفة في فهم سبب وجودها في مجموعة البيانات. غالبًا ما يوجه هذا الفهم اختيار الطريقة الأكثر ملاءمة لمعالجتها. العوامل الإضافية التي يجب مراعاتها هي خصائص البيانات والتحليل المحدد الذي سيتم إجراؤه.

لا يعمل EDA على تعزيز وضوح مجموعة البيانات فحسب، بل يمكّن أيضًا محترفي البيانات من التغلب على لعنة الأبعاد من خلال توفير استراتيجيات لإدارة مجموعات البيانات ذات المتغيرات العديدة. 

من خلال هذه الخطوات الدقيقة، يزود EDA مع Python المحللين بالأدوات اللازمة لاستخلاص رؤى ذات معنى من البيانات، ووضع أساس متين لجميع مساعي تحليل البيانات اللاحقة.
 
 

جوزيب فيرير هو مهندس تحليلات من برشلونة. تخرج في هندسة الفيزياء ويعمل حاليًا في مجال علوم البيانات المطبق على التنقل البشري. وهو منشئ محتوى بدوام جزئي يركز على علوم البيانات والتكنولوجيا. يمكنك الاتصال به على لينكدين:, تويتر or متوسط.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة