شعار زيفيرنت

البدء باستخدام لغة بايثون لعلوم البيانات - KDnuggets

التاريخ:

الشروع في العمل مع بايثون لعلوم البيانات
صورة المؤلف
 

انتهى الصيف ورجعت للدراسة أو العمل على خطة تطوير ذاتك. ربما كان لدى الكثير منكم وقت الصيف للتفكير في الخطوات التالية، وإذا كان ذلك يتعلق بعلم البيانات - فأنت بحاجة إلى قراءة هذه المدونة. 

Geneative AI، وChatGPT، وGoogle Bard - ربما تكون هذه الكثير من المصطلحات التي سمعتها خلال الأشهر القليلة الماضية. مع هذه الضجة، يفكر الكثير منكم في الدخول في مجال التكنولوجيا، مثل علوم البيانات.

يرغب الأشخاص من مختلف الأدوار في الحفاظ على وظائفهم، لذلك يهدفون إلى تطوير مهاراتهم لتناسب السوق الحالي. إنه سوق تنافسي ونحن نرى المزيد والمزيد من الأشخاص يهتمون بعلوم البيانات؛ حيث يوجد الآلاف من الدورات التدريبية عبر الإنترنت والمعسكرات التدريبية والماجستير (MSc) المتاحة في هذا القطاع. 

إذا كنت تريد معرفة الدورات التدريبية المجانية التي يمكنك الالتحاق بها في مجال علوم البيانات، فاقرأ عنها أفضل دورات علوم البيانات المجانية عبر الإنترنت لعام 2023

ومع ذلك، إذا كنت تريد الدخول إلى عالم علوم البيانات، فأنت بحاجة إلى التعرف على لغة بايثون. 

بايثون تم تطويره في فبراير 1991 بواسطة المبرمج الهولندي غيدو فان روسوم. يؤكد التصميم بشكل كبير على سهولة قراءة التعليمات البرمجية. يساعد بناء اللغة والنهج الموجه للكائنات المبرمجين الجدد والحاليين على كتابة تعليمات برمجية واضحة ومفهومة، من المشاريع الصغيرة إلى المشاريع الكبيرة، إلى استخدام البيانات الصغيرة إلى البيانات الكبيرة. 

وبعد مرور 31 عامًا، تعتبر بايثون واحدة من أفضل لغات البرمجة التي يمكن تعلمها اليوم.

تحتوي لغة Python على مجموعة متنوعة من المكتبات والأطر، بحيث لا يتعين عليك القيام بكل شيء من الصفر. تحتوي هذه المكونات المعدة مسبقًا على تعليمات برمجية مفيدة وقابلة للقراءة يمكنك تنفيذها في برامجك. على سبيل المثال، نمباي, ماتبلوتليب, SciPy, شوربة جميلة، وأكثر من ذلك. 

إذا كنت ترغب في معرفة المزيد عن مكتبات بايثون، اقرأ المقال التالي: يجب أن يعرف علماء بيانات مكتبات بايثون بحلول عام 2022

تتميز لغة Python بالكفاءة والسرعة والموثوقية مما يسمح للمطورين بإنشاء التطبيقات وإجراء التحليل وإنتاج مخرجات مرئية بأقل جهد. كل ما تحتاجه لتصبح عالم بيانات!

إذا كنت تتطلع إلى أن تصبح عالم بيانات، فسنستعرض دليلًا خطوة بخطوة لمساعدتك على البدء في استخدام لغة بايثون:

تثبيت بايثون

أولاً، ستحتاج إلى تنزيل أحدث إصدار من لغة بايثون. يمكنك معرفة الإصدار الأحدث من خلال التوجه إلى الموقع الرسمي هنا

بناءً على نظام التشغيل الخاص بك، اتبع تعليمات التثبيت حتى النهاية. 

اختر IDE أو محرر التعليمات البرمجية الخاص بك

IDE هي بيئة تطوير متكاملة، وهي عبارة عن تطبيق برمجي يستخدمه المبرمجون لتطوير كود البرنامج بشكل أكثر كفاءة. محرر التعليمات البرمجية له نفس الغرض، ولكنه برنامج محرر نصوص.

إذا لم تكن متأكدًا من الخيار الذي تختاره، فسأقدم لك قائمة بالخيارات الشائعة:

عندما بدأت مسيرتي المهنية في مجال علوم البيانات، عملت مع VSC وJupyter Notebook، وهو ما وجدته مفيدًا جدًا في تعلم علوم البيانات والبرمجة التفاعلية. بمجرد اختيار واحد يناسب احتياجاتك، قم بتثبيته وتصفح الإرشادات حول كيفية استخدامه. 

قبل أن تغوص في أعماق المشاريع الشاملة، عليك أولاً أن تتعلم الأساسيات. لذلك دعونا نتعمق فيها.

المتغيرات وأنواع البيانات

المتغيرات هي المصطلحات المستخدمة للحاويات التي تخزن قيم البيانات. تحتوي قيم البيانات على أنواع بيانات مختلفة، مثل الأعداد الصحيحة وأرقام الفاصلة العائمة والسلاسل والقوائم والصفوف والقواميس والمزيد. تعلم هذه الأشياء مهم جدًا ويبني معرفتك الأساسية. 

في المثال التالي، المتغير هو اسم ويحتوي على القيمة "John". نوع البيانات عبارة عن سلسلة: name = "John" .

العوامل والتعبيرات

العوامل هي رموز تسمح بمهام حسابية مثل الجمع والطرح والضرب والقسمة والأسي وما إلى ذلك. التعبير في بايثون هو مزيج من العوامل والمعاملات.

مثلا x = x + 1 0x = x + 10 x = x+ 10

جمل التحكم

تجعل هياكل التحكم حياتك البرمجية أسهل من خلال تحديد تدفق التنفيذ في التعليمات البرمجية الخاصة بك. في بايثون، هناك عدة أنواع من هياكل التحكم التي تحتاج إلى تعلمها مثل العبارات الشرطية، والحلقات، ومعالجة الاستثناءات.

فمثلا:

if x > 0: print("Positive") else: print("Non-positive")

وظائف

الوظيفة عبارة عن كتلة من التعليمات البرمجية، ولا يمكن تشغيل هذه الكتلة من التعليمات البرمجية إلا عند استدعائها. يمكنك إنشاء وظيفة باستخدام def الكلمة.

مثلا 

def greet(name): return f"Hello, {name}!"

الوحدات والمكتبات

الوحدة النمطية في Python عبارة عن ملف يحتوي على تعريفات وبيانات Python. يمكنه تحديد الوظائف والفئات والمتغيرات. المكتبة عبارة عن مجموعة من الوحدات أو الحزم ذات الصلة. يمكن استخدام الوحدات النمطية والمكتبات عن طريق استيرادها باستخدام ملف import بيان.

على سبيل المثال، ذكرت أعلاه أن لغة Python تحتوي على مجموعة متنوعة من المكتبات والأطر مثل NumPy. يمكنك استيراد هذه المكتبات المختلفة عن طريق تشغيل:

import numpy as np
import pandas as pd
import math
import random 

هناك العديد من المكتبات والوحدات النمطية التي يمكنك استيرادها باستخدام Python.

بمجرد أن يكون لديك فهم أفضل للأساسيات وكيفية عملها، فإن خطوتك التالية هي استخدام هذه المهارات للعمل مع البيانات. سوف تحتاج إلى تعلم كيفية:

استيراد وتصدير البيانات باستخدام الباندا

الباندا هي مكتبة بايثون شائعة الاستخدام في عالم علم البيانات، حيث توفر طريقة مرنة وبديهية للتعامل مع مجموعات البيانات بجميع أحجامها. لنفترض أن لديك بيانات ملف CSV، يمكنك استخدام الباندا لاستيراد مجموعة البيانات عن طريق:

import pandas as pd example_data = pd.read_csv("data/example_dataset1.csv")

تنظيف البيانات ومعالجتها

يعد تنظيف البيانات ومعالجتها خطوات حيوية في مرحلة المعالجة المسبقة للبيانات في مشروع علم البيانات، حيث تقوم بأخذ البيانات الأولية وفحص جميع التناقضات والأخطاء والقيم المفقودة لتحويلها إلى تنسيق منظم يمكن استخدامه للتحليل.

تتضمن عناصر تنظيف البيانات ما يلي:

  • معالجة القيم المفقودة
  • بيانات مكررة
  • القيم المتطرفة
  • تحويل البيانات
  • تنظيف نوع البيانات

تتضمن عناصر معالجة البيانات ما يلي:

  • اختيار وتصفية البيانات
  • فرز البيانات
  • تجميع البيانات 
  • ضم ودمج البيانات
  • خلق متغيرات جديدة
  • التمحور والتبويب المتقاطع

سوف تحتاج إلى معرفة كل هذه العناصر وكيفية استخدامها في بايثون. تريد أن تبدأ الآن، يمكنك تعلم تنظيف البيانات ومعالجتها مسبقًا لعلوم البيانات باستخدام هذا الكتاب الإلكتروني المجاني.

التحليل الإحصائي

كجزء من وقتك كعالم بيانات، ستحتاج إلى معرفة كيفية تمشيط بياناتك لتحديد الاتجاهات والأنماط والرؤى. يمكنك تحقيق ذلك من خلال التحليل الإحصائي. هذه هي عملية جمع وتحليل البيانات من أجل تحديد الأنماط والاتجاهات.

تُستخدم هذه المرحلة لإزالة التحيز من خلال التحليل الرقمي، مما يسمح لك بمواصلة بحثك وتطوير النماذج الإحصائية والمزيد. يتم استخدام الاستنتاجات في عملية صنع القرار لعمل تنبؤات مستقبلية بناءً على الاتجاهات السابقة. 

هناك 6 أنواع من التحليل الإحصائي:

  1. التحليل الوصفي
  2. تحليل استنتاجي
  3. التحليل التنبئي
  4. التحليل الوصفي
  5. تحليل البيانات استكشافية
  6. التحليل السببي

في هذه المدونة، سأتعمق أكثر في تحليل البيانات الاستكشافية.

تحليل البيانات الاستكشافية (EDA)

بمجرد الانتهاء من تنظيف البيانات ومعالجتها، تصبح جاهزة للخطوة التالية: تحليل البيانات الاستكشافية. يحدث هذا عندما يقوم علماء البيانات بتحليل مجموعة البيانات والتحقيق فيها وإنشاء ملخص للخصائص/المتغيرات الرئيسية التي يمكن أن تساعدهم في اكتساب المزيد من المعرفة وإنشاء تصورات للبيانات. 

تتضمن أدوات EDA

  • النمذجة التنبؤية مثل الانحدار الخطي
  • تقنيات التجميع مثل K- تعني التجميع
  • تقنيات تقليل الأبعاد مثل تحليل المكونات الرئيسية (PCA)
  • تصورات أحادية المتغير وثنائية المتغير ومتعددة المتغيرات

يمكن أن تكون هذه المرحلة من علم البيانات هي الجانب الأكثر صعوبة وتتطلب الكثير من الممارسة. يمكن للمكتبات والوحدات مساعدتك، ولكنك ستحتاج إلى فهم المهمة التي بين يديك وما تريد أن تكون عليه النتيجة لمعرفة أداة EDA التي تحتاجها. 

يتم استخدام EDA للحصول على مزيد من المعرفة وإنشاء تصور للبيانات. باعتبارك عالم بيانات، يُتوقع منك إنشاء تصورات لنتائجك. يمكن أن تكون هذه تصورات أساسية مثل المخططات الخطية، والمخططات الشريطية، والمخططات المبعثرة، ولكن بعد ذلك يمكنك أن تكون مبدعًا للغاية مثل الخرائط الحرارية، والخرائط التصحيحية، والمخططات الفقاعية. 

هناك العديد من مكتبات تصور البيانات التي يمكنك استخدامها، ولكن هذه هي الأكثر شيوعًا:

تسمح تصورات البيانات بتواصل أفضل، خاصة بالنسبة لأصحاب المصلحة الذين لا يتمتعون بخبرة فنية عالية. 

تهدف هذه المدونة إلى توجيه المبتدئين بشأن الخطوات التي سيتعين عليهم اتخاذها لتعلم لغة بايثون في حياتهم المهنية في مجال علوم البيانات. كل مرحلة تتطلب الوقت والاهتمام لإتقانها. وبما أنني لم أتمكن من الخوض في تفاصيل شاملة عن كل منها، فقد قمت بإنشاء قائمة قصيرة يمكن أن ترشدك بشكل أكبر:

 
 
نيشا آريا هو عالم بيانات وكاتب تقني مستقل ومدير المجتمع في KDnuggets. وهي مهتمة بشكل خاص بتقديم المشورة المهنية في علوم البيانات أو البرامج التعليمية والمعرفة القائمة على النظرية حول علوم البيانات. إنها ترغب أيضًا في استكشاف الطرق المختلفة التي يمكن للذكاء الاصطناعي من خلالها الاستفادة من طول عمر حياة الإنسان. متعلمة حريصة ، تسعى إلى توسيع معرفتها التقنية ومهارات الكتابة لديها ، بينما تساعد في توجيه الآخرين.
 

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة