شعار زيفيرنت

مشروع تحليل البيانات للمبتدئين باستخدام بايثون

التاريخ:

تم نشر هذه المقالة كجزء من مدونة علوم البيانات.

المُقدّمة

يعد تحليل البيانات جزءًا رئيسيًا يجب عليك إتقانه قبل التعلم أو الغوص في قسم خوارزميات التعلم الآلي لأن تحليل البيانات هو عملية لاستكشاف البيانات لفهم البيانات بشكل أفضل. يعد تحليل البيانات جزءًا أساسيًا من أي مشروع لعلوم البيانات أو التعلم الآلي يستغرق ما يقرب من 70 إلى 80 في المائة من وقت دورة حياة المشروع الكاملة. يعد تحليل البيانات مجالًا واسعًا للغاية يحتوي على تقنيات وطرق مختلفة مثل تنظيف البيانات والمعالجة المسبقة والتصور والتحويلات والتشفير وما إلى ذلك. تساعد في بدء رحلتك إلى تعلم تقنيات البيانات باستخدام Python.

نظرة عامة على مجموعة البيانات

مجموعة البيانات التي سنستخدمها هي مجموعة بيانات بسيطة عن الطقس وهي عبارة عن مجموعة بيانات متسلسلة زمنية تخزن درجة الحرارة والرطوبة وسرعة الرياح وما إلى ذلك على أساس كل ساعة في تواريخ مختلفة في عام 2012. مجموعة البيانات متاحة ببساطة على Kaggle ويمكنك الوصول إلى أو قم بتنزيل مجموعة البيانات باستخدام حلقة الوصل. تحتوي مجموعة البيانات على 8784 صفًا و 8 أعمدة حيث يوضح العمود الأخير حالة الطقس وفقًا للظروف المناخية المختلفة المسجلة. يمكن أن تلاحظ النظرة العامة الأساسية لمجموعة البيانات في لقطة الشاشة الموضحة أدناه.

تحميل مجموعة البيانات

لديك مجموعة البيانات وتفتح Jupyter Notebook أو يمكنك أيضًا إنشاء دفتر Kaggle هناك نفسه. تتمثل الخطوة الأولى في استيراد المكتبات الضرورية وتحميل مجموعة البيانات في دفتر ملاحظات. Pandas هي مكتبة شائعة للمعالجة المسبقة للبيانات في Python تساعد في تحليل البيانات واللعب بها باستخدام الوظائف المضمنة.

استيراد الباندا pd
استيراد numpy كـ np
# تحميل البيانات
البيانات = pd. read_csv ("/ kaggle / input / weather-data-set-for-Begners / 1. Weather Data.csv") data.head ()

وظائف تحليل بيانات Python Pandas الأساسية

1. الشكل - الشكل هو خاصية أو سمة لباندا البيثون التي تخزن عدد الصفوف وعدد الأعمدة على هيئة مجموعة. إذا كنت تستخدم خاصية الشكل على البيانات ، فستظهر 8784 صفًا و 8 أعمدة في المجموعة.

البيانات

2. أنواع البيانات - تُستخدم Pandas لطباعة نوع البيانات لكل عمود في Dataframe ويمكن تطبيق الخاصية على عمود واحد أيضًا.

3. فريد - هذه هي الوظيفة التي تعرض قائمة بجميع القيم الفريدة الموجودة في عمود معين.

بيانات ["الطقس"]. فريد ()

4. n فريد - إنها وظيفة تعرض العديد من القيم الفريدة الموجودة في إطار البيانات. يمكن تطبيق الوظيفة على عمود واحد وكذلك لإكمال البيانات في وقت واحد.

# لعرض عدد القيم الفريدة في كل عمود يمكننا استخدام func على البيانات
البيانات.نونيك()

5. العد - تعرض وظيفة count العدد الإجمالي للقيم غير الخالية الموجودة في عمود معين. يمكنك تطبيق الوظيفة على بيانات كاملة وأيضًا على عمود واحد.

data.count ()

6. تهم القيمة - تعرض الوظيفة عدد كل العناصر الفريدة الموجودة في بيانات أي عمود. في كل مرة ، يمكن استخدام الوظيفة في عمود واحد فقط.

البيانات ["الطقس"]. value_counts ()

7. معلومات - تُستخدم الوظيفة أدناه للحصول على التفاصيل الأساسية حول مجموعة البيانات.

8. وصف - إنها وظيفة ينتج عنها معلومات أساسية حول المتغيرات الرقمية الموجودة في مجموعة البيانات مثل العد ، الحد الأدنى ، الحد الأقصى ، الانحراف المعياري ، المتوسط ​​، إلخ. باختصار ، يتم استخدام وظيفة الوصف للحصول على الملخص الإحصائي للبيانات.

الإجابة على مشاكل تحليل البيانات المختلفة

يأتي العمل الرئيسي لتحليل البيانات هنا حيث يمكنك استخدام بعض الاستفسارات لإيجاد حل للمشكلة المحددة وسنقوم ببعض أسئلة تحليل البيانات الأساسية والمهمة بما في ذلك تصفية البيانات وتجميعها واستردادها. تذكر النقطة الوحيدة التي مفادها أن هناك طرقًا متعددة لحل مشكلة ما ، وبناءً على بساطتك أو أدائك ، يمكنك الذهاب مع أي حل.

Que-1) أوجد كل السجلات من البيانات عندما كان الطقس صافياً تماماً؟

يطلب السؤال ببساطة عرض الصفوف حيث تكون حالة الطقس (العمود الأخير) واضحة. إذن يمكننا إيجاد إجابة هذا السؤال بثلاث طرق مختلفة. الأول هو التصفية وأعداد القيم واستخدام التجميع. دعونا نحاول استخدام كل طريقة.

أنا] تصفية البيانات

تعني التصفية ببساطة استخراج بعض الصفوف من مجموعة البيانات التي تتطابق مع ظروف معينة والتي في حالتنا يجب أن يكون الطقس واضحًا. لذلك يمكننا مقارنة قيم الطقس بالقيم الصافية باستخدام عامل التخصيص وطباعة إطار البيانات الذي نحتاجه لتضمين الشرط في قوس مربع. وإذا كنت تريد فقط معرفة عدد الصفوف التي يكون الطقس فيها صافياً حتى نتمكن من استخدام خاصية الشكل بعد هذا الرمز. يتم عرض كلا العبارتين أسفل المقتطف.

data [data ['Weather'] == 'Clear'] # لعرض إطار البيانات الكامل

البيانات [data ['Weather'] == 'Clear']. شكل # لعرض عدد السجلات

II] استخدام قيمة التهم

تعرض أعداد القيم العدد الإجمالي لسجلات كل قيمة فريدة في العمود حتى نتمكن من استخدامها في عمود الطقس للحصول على عدد واضح.

البيانات.الطقس.أعداد_القيمة().لتأطير().إعادة التعيين_index()

تستخدم وظيفة الإطار لتحويل بيانات السلسلة إلى إطار بيانات وقمنا بتعيين الفهرس مرة أخرى من 0 حيث يتم تكوين إطار بيانات جديد.

III] استخدام التجميع

قم بتجميع البيانات حسب الأمر وفقًا لكل قيمة فريدة ويمكننا استخدام الوظيفة التجميعية في ذلك للحصول على العدد المطلوب من الصفوف التي يكون الطقس فيها واضحًا. لعرض Dataframe ، يمكننا استخدام خاصية الحصول على المجموعة للمجموعة وتمريرها بشكل واضح للحصول على جميع الصفوف حيث يكون الطقس صافياً.

#مجموعة من
البيانات.مجموعة من('طقس').get_group('صافي').شكل

Que-2) أوجد عدد المرات التي كانت فيها سرعة الرياح بالضبط 4 كم / ساعة؟

السؤال هو نفسه السؤال أعلاه وآمل أن تتمكن من كتابة الاستعلام عنه. يمكن العثور على الإجابة باستخدام وظيفة التصفية ، أو وظيفة حساب القيمة.

البيانات[البيانات['Wind Speed_km / h'] == 4].شكل

Que-3) تحقق مما إذا كانت هناك أية قيم NULL موجودة في مجموعة البيانات؟

القيم الخالية هي القيم المفقودة التي لا تحتوي على أي قيمة مناسبة للعمود المطلوب الذي يُشار إليه على أنه NA أو NULL في مجموعة البيانات. للعثور على القيم الفارغة ، يكون للباندا وظيفة مباشرة ولطباعة عدد القيم الخالية ، يمكننا استخدام وظيفة الجمع.

في بياناتنا ، توجد قيم nono NULL ، ولكن عندما تعمل على بيانات واقعية أو في الوقت الفعلي ، فسيكون هناك قدر كبير من القيم المفقودة وستحتاج إلى القيام بمعالجتها. إذا كنت ترغب في دراسة المزيد عن اكتشاف القيمة المفقودة وعلاجها ، يمكنك الرجوع إليها   المادة.

Que-4) إعادة تسمية العمود Weather إلى Weather_Condition؟

قد تعتقد أن إعادة تسمية عمود ليس جزءًا من تحليل البيانات ولكن بعض الأعمدة في مجموعة البيانات الخاصة بك تحتوي على بعض الكلمات المختلطة أو المسافات بينهما وتخلق مشكلة أثناء الوصول إليها بشكل أفضل لإعادة تسميتها. لشرح كيفية إعادة تسمية عمود ، نختار عمود الطقس.

data.rename (الأعمدة = {'Weather': 'Weather_Condition'} ، inplace = True)
# لإعادة تسمية col use inplace بشكل دائم

سؤال 5) ما هو متوسط ​​رؤية مجموعة بيانات معينة؟

المتوسط ​​هو متوسط ​​جميع القيم الموجودة في مجموعة البيانات. يتم حسابه على أنه مجموع كل القيم مقسومًا على إجمالي عدد القيم. للعثور على المتوسط ​​المباشر ، استخدم متوسط ​​دالة الباندا وللتحقق من المخرجات ، يمكنك أيضًا الحساب باستخدام دالة الجمع والقسمة باستخدام عدة صفوف.

البيانات['Visibility_km'].تعني()

تمامًا مثل المتوسط ​​، توفر Pandas وظائف التجميع والإحصاءات الأساسية التي يمكن استخدامها في أي عمود رقمي مثل الانحراف المعياري ، والتباين ، والقيمة القصوى ، والحد الأدنى للقيمة ، وعدد القيمة الإجمالية ، والانحراف ، وما إلى ذلك.

Que-6) أوجد عدد السجلات التي تكون فيها سرعة الرياح أكبر من 24 وتكون الرؤية فيها تساوي 25؟

يطلب السؤال مرة أخرى تصفية مجموعة البيانات ولكن التصفية بناءً على شرطين. وعندما يكون لدينا شرطان أو أكثر ، فإننا نستخدم العوامل المنطقية. في هذه الحالة ، يتعين علينا العثور على السجلات التي يجب أن تكون فيها سرعة الرياح أكبر من 24 والرؤية تساوي 25 بحيث يتم استخدام عامل التشغيل المنطقي وستكون صيغة التصفية المتبقية هي نفسها. لكتابة المزيد من الشروط بين قوسين مربعين ، نستخدم أيضًا الأقواس لسهولة قراءة الكود.

البيانات [(data ['Wind Speed_km / h']> 24) & (data ['Visibility_km'] == 25)]. الشكل

سؤال 7) ما هي القيمة المتوسطة لكل عمود مقابل كل حالة طقس؟

عندما يسأل السؤال "كل" ، يتعين عليك استخدام عبارة "تجميع حسب" في الاستعلام لأنك تحتاج إلى تجميع البيانات بناءً على كل قيمة فريدة للطقس وتجميع البيانات في أعمدة أخرى للعثور على المعنى.

بنفس الطريقة ، يمكنك العثور على الحد الأدنى أو الأقصى لقيمة جميع الأعمدة بناءً على كل قيمة طقس. هذا ما تحتاج إلى العثور عليه في دفتر ملاحظاتك.

Que-8) أوجد جميع الحالات التي يكون فيها الطقس صافياً وتكون الرطوبة النسبية أكبر من 50 أو تكون الرؤية فيها أعلى من 40؟

يطلب منك السؤال تصفية مجموعة البيانات بناءً على 3 شروط مختلفة. وأثناء تطبيق ثلاثة شروط ، تحتاج إلى استخدام عاملين منطقيين وفي هذا المقطع وفهم السؤال أولاً ، أين وكيف تريد فصل الشروط.

Que-9) أوجد عدد الأحوال الجوية حيث يوجد ثلج؟

لا يطالبك السؤال بالعثور على العديد من السجلات التي يكون فيها الطقس مساويًا للثلج ، بل إنه يطلب منك العثور على جميع الأحوال الجوية حيث توجد كلمة ثلجية مثل ضباب الثلج ، أو زخات الثلج ، أو هبوب الثلوج ، إلخ. - يحتوي على كلمة معينة في قائمة الجمل.

لحل المشكلة ، قدم Pandas وظيفة تسمى تحتوي على استخدام يمكننا التحقق من أن أي مكرر يحتوي على عنصر معين وأنه قابل للتطبيق فقط على السلاسل.

وفي الختام

تحليل البيانات هو عملية مستمرة تمثل مدى عمق وأفضل تمثيلك لتحليلك للعميل بحيث تكون الرؤى التي يمكن استخدامها لتوجيه قرارات العمل مفهومة. دعونا نختتم المقالة ببعض النقاط الرئيسية التي تعلمناها في هذه المقالة.

  • يقوم تحليل البيانات باستخدام عوامل منطقية بتصفية البيانات بناءً على شروط معينة واسترداد البيانات التي تكون صحيحة للحالة المحددة.
  • تمثل التقنيات الإحصائية مثل المتوسط ​​والوسيط والانحراف المعياري والتباين الكثير من المعلومات حول انتشار البيانات.
  • تعامل دائمًا مع القيم NULL بأفضل أسلوب احتساب وحاول عدم حذفها إذا كانت مجموعة البيانات صغيرة أو إذا كان لديك المزيد من القيم NULL في مجموعة البيانات.
  • تحليل البيانات هو عملية مستمرة وتتضمن تقنيات مختلفة وبعد t = اتباع هذه المقالة سأقترح اتباع هذا تحليل البيانات استكشافية مقالة لنقل البيانات إلى الأمام وتعلم كيفية تحليل البيانات باستخدام مخططات ورسوم بيانية أفضل لتصور البيانات التي تجعل تحليل البيانات وتمثيل البيانات خطوة بسيطة ومبسطة.

👉 آمل أن يكون من السهل التعامل مع كل خطوة ويمكن فهمها بسهولة. إذا كان لديك أي استفسارات ، فلا تتردد في نشرها في قسم التعليقات أدناه أو يمكنك التواصل معي. آمل أن تكون قد أحببت مقالتي عن لغة استعلام الخلية.

👉 تواصل معي على ينكدين.

👉 تحقق من مقالاتي الأخرى على تحليلات Vidhya و مجنون فني

الوسائط الموضحة في هذه المقالة ليست مملوكة لـ Analytics Vidhya ويتم استخدامها وفقًا لتقدير المؤلف.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة