شعار زيفيرنت

دليل المبتدئين لأفضل 10 خوارزميات لتعلم الآلة – KDnuggets

التاريخ:

دليل المبتدئين لأفضل 10 خوارزميات للتعلم الآلي
صورة المؤلف
 

أحد المجالات التي تدعم علم البيانات هو التعلم الآلي. لذلك، إذا كنت ترغب في الدخول في علم البيانات، فإن فهم التعلم الآلي هو إحدى الخطوات الأولى التي يتعين عليك اتخاذها.

ولكن من أين تبدأ؟ عليك أن تبدأ بفهم الفرق بين النوعين الرئيسيين من خوارزميات التعلم الآلي. بعد ذلك فقط، يمكننا التحدث عن الخوارزميات الفردية التي يجب أن تكون على قائمة أولوياتك للتعلم كمبتدئ.

يعتمد الاختلاف الرئيسي بين الخوارزميات على كيفية تعلمها.

 

دليل المبتدئين لأفضل 10 خوارزميات للتعلم الآلي
صورة المؤلف
 

خوارزميات التعلم تحت الإشراف يتم تدريبهم على أ مجموعة البيانات المسماة. تعمل مجموعة البيانات هذه بمثابة إشراف (ومن هنا الاسم) للتعلم لأن بعض البيانات التي تحتوي عليها تم تصنيفها بالفعل على أنها إجابة صحيحة. وبناءً على هذا الإدخال، يمكن للخوارزمية أن تتعلم وتطبق هذا التعلم على بقية البيانات.

من ناحية أخرى، خوارزميات التعلم غير الخاضعة للرقابة تعلم على مجموعة بيانات غير مسماةمما يعني أنهم ينخرطون في العثور على أنماط في البيانات دون إعطاء البشر التوجيهات.

يمكنك قراءة المزيد من التفاصيل حول خوارزميات التعلم الآلي وأنواع التعلم .

هناك أيضًا بعض الأنواع الأخرى من التعلم الآلي، ولكنها ليست للمبتدئين.

تُستخدم الخوارزميات لحل مشكلتين رئيسيتين متميزتين في كل نوع من أنواع التعلم الآلي.

مرة أخرى، هناك بعض المهام الأخرى، لكنها ليست للمبتدئين.

 

دليل المبتدئين لأفضل 10 خوارزميات للتعلم الآلي
صورة المؤلف

مهام التعلم الخاضعة للإشراف

تراجع هي مهمة التنبؤ أ القيمة العدديةودعا متغير النتيجة المستمرة أو المتغير التابع. يعتمد التنبؤ على متغير (متغيرات) التوقع أو متغير (متغيرات) مستقلة.

فكر في التنبؤ بأسعار النفط أو درجة حرارة الهواء.

تصنيف يستخدم للتنبؤ الفئة (الطبقة) من بيانات الإدخال. ال متغير النتيجة ها هو قاطعة أو منفصلة.

فكر في توقع ما إذا كان البريد بريدًا عشوائيًا أم لا، أو ما إذا كان المريض سيصاب بمرض معين أم لا.

مهام التعلم غير الخاضعة للرقابة

التكتل يعني تقسيم البيانات إلى مجموعات فرعية أو مجموعات. الهدف هو تجميع البيانات بشكل طبيعي قدر الإمكان. وهذا يعني أن نقاط البيانات الموجودة داخل نفس المجموعة تتشابه مع بعضها البعض أكثر من نقاط البيانات الموجودة في مجموعات أخرى.

تخفيض الأبعاد يشير إلى تقليل عدد متغيرات الإدخال في مجموعة البيانات. يعني في الأساس تقليل مجموعة البيانات إلى عدد قليل جدًا من المتغيرات مع الاستمرار في التقاط جوهرها.

فيما يلي نظرة عامة على الخوارزميات التي سأغطيها.

 

دليل المبتدئين لأفضل 10 خوارزميات للتعلم الآلي
صورة المؤلف

خوارزميات التعلم الخاضعة للإشراف

عند اختيار الخوارزمية لمشكلتك، من المهم معرفة المهمة التي يتم استخدام الخوارزمية من أجلها.

باعتبارك عالم بيانات، من المحتمل أن تقوم بتطبيق هذه الخوارزميات في لغة بايثون باستخدام مكتبة scikit-Learn. على الرغم من أنه يفعل كل شيء (تقريبًا) من أجلك، إلا أنه من المستحسن أن تعرف على الأقل المبادئ العامة للعمل الداخلي لكل خوارزمية.

أخيرًا، بعد تدريب الخوارزمية، يجب عليك تقييم مدى جودة أدائها. ولهذا السبب، تحتوي كل خوارزمية على بعض المقاييس القياسية.

1. الانحدار الخطي

يستعمل ل: تراجع

الوصف: الانحدار الخطي يرسم خطا مستقيما يسمى خط الانحدار بين المتغيرات. يمر هذا الخط تقريبًا عبر منتصف نقاط البيانات، مما يقلل من خطأ التقدير. يوضح القيمة المتوقعة للمتغير التابع بناءً على قيمة المتغيرات المستقلة.

مقاييس التقييم: 

  • متوسط ​​الخطأ التربيعي (MSE): يمثل متوسط ​​مربع الخطأ، والخطأ هو الفرق بين القيم الفعلية والمتوقعة. كلما انخفضت القيمة، كان أداء الخوارزمية أفضل.
  • مربع R: يمثل نسبة تباين المتغير التابع التي يمكن التنبؤ بها بواسطة المتغير المستقل. لهذا الإجراء، يجب أن تسعى جاهدة للوصول إلى 1 في أقرب وقت ممكن.

2. الانحدار اللوجستي

يستعمل ل: تصنيف

الوصف: ويستخدم أ وظيفة لوجستية لترجمة قيم البيانات إلى فئة ثنائية، أي 0 أو 1. ويتم ذلك باستخدام العتبة، التي يتم تعيينها عادةً عند 0.5. النتيجة الثنائية تجعل هذه الخوارزمية مثالية للتنبؤ بالنتائج الثنائية، مثل نعم/لا، صواب/خطأ، أو 0/1.

مقاييس التقييم:

  • الدقة: النسبة بين التوقعات الصحيحة والإجمالية. كلما اقترب من 1، كلما كان ذلك أفضل.
  • الدقة: قياس دقة النموذج في التنبؤات الإيجابية؛ يظهر على أنه النسبة بين التوقعات الإيجابية الصحيحة وإجمالي النتائج الإيجابية المتوقعة. كلما اقترب من 1، كلما كان ذلك أفضل.
  • تذكر: إنه أيضًا يقيس دقة النموذج في التنبؤات الإيجابية. ويتم التعبير عنها كنسبة بين التنبؤات الإيجابية الصحيحة وإجمالي الملاحظات التي تم إجراؤها في الفصل. اقرأ المزيد عن هذه المقاييس هنا.
  • نقاط F1: الوسط التوافقي لاسترجاع النموذج ودقته. كلما اقترب من 1، كلما كان ذلك أفضل.

3. أشجار القرار

يستعمل ل: الانحدار والتصنيف

الوصف: أشجار القرار هي خوارزميات تستخدم البنية الهرمية أو الشجرية للتنبؤ بالقيمة أو الفئة. تمثل العقدة الجذرية مجموعة البيانات بأكملها، والتي تتفرع بعد ذلك إلى عقد القرار والفروع والأوراق بناءً على القيم المتغيرة.

مقاييس التقييم: 

  • الدقة والضبط والاستدعاء ودرجة F1 -> للتصنيف
  • MSE، R-squared -> للانحدار

4. ساذج بايز

يستعمل ل: تصنيف

الوصف: هذه عائلة من خوارزميات التصنيف التي تستخدم مبرهنة بايز، مما يعني أنهم يفترضون الاستقلال بين الميزات داخل الفصل.

مقاييس التقييم:  

  • دقة
  • دقة
  • تذكر
  • نتيجة F1

5. أقرب الجيران (KNN)

يستعمل ل: الانحدار والتصنيف

الوصف: يقوم بحساب المسافة بين بيانات الاختبار و k-عدد أقرب نقاط البيانات من بيانات التدريب. تنتمي بيانات الاختبار إلى فئة ذات عدد أكبر من "الجيران". فيما يتعلق بالانحدار، فإن القيمة المتوقعة هي متوسط ​​نقاط التدريب المختارة.

مقاييس التقييم: 

  • الدقة والضبط والاستدعاء ودرجة F1 -> للتصنيف
  • MSE، R-squared -> للانحدار

6. دعم آلات المتجهات (SVM)

يستعمل ل: الانحدار والتصنيف

الوصف: ترسم هذه الخوارزمية أ مستوي مفرط لفصل فئات مختلفة من البيانات. يتم وضعه على أكبر مسافة من أقرب النقاط من كل فئة. كلما زادت مسافة نقطة البيانات من المستوى الزائد، كلما كانت تنتمي إلى فئتها. بالنسبة للانحدار، المبدأ مشابه: تعمل الطائرة الفائقة على زيادة المسافة بين القيم المتوقعة والفعلية.

مقاييس التقييم: 

  • الدقة والضبط والاستدعاء ودرجة F1 -> للتصنيف
  • MSE، R-squared -> للانحدار

7. الغابة العشوائية

يستعمل ل: الانحدار والتصنيف

الوصف: خوارزمية الغابة العشوائية يستخدم مجموعة من أشجار القرار، والتي تشكل بعد ذلك غابة القرار. يعتمد تنبؤ الخوارزمية على تنبؤ العديد من أشجار القرار. سيتم تخصيص البيانات للفئة التي تحصل على أكبر عدد من الأصوات. بالنسبة للانحدار، القيمة المتوقعة هي متوسط ​​جميع القيم المتوقعة للأشجار.

مقاييس التقييم: 

  • الدقة والضبط والاستدعاء ودرجة F1 -> للتصنيف
  • MSE، R-squared -> للانحدار

8. تعزيز التدرج

يستعمل ل: الانحدار والتصنيف

الوصف: هذه الخوارزميات استخدام مجموعة من النماذج الضعيفة، بحيث يتعرف كل نموذج لاحق على أخطاء النموذج السابق ويصححها. يتم تكرار هذه العملية حتى يتم تقليل الخطأ (وظيفة الخسارة).

مقاييس التقييم: 

  • الدقة والضبط والاستدعاء ودرجة F1 -> للتصنيف
  • MSE، R-squared -> للانحدار

خوارزميات التعلم غير الخاضعة للرقابة

9. K-يعني التجميع

يستعمل ل: التكتل

الوصف: الخوارزمية يقسم مجموعة البيانات إلى مجموعات ذات أرقام k، يتم تمثيل كل منها بواسطة النقطه الوسطى أو المركز الهندسي. من خلال العملية التكرارية لتقسيم البيانات إلى عدد k من المجموعات، فإن الهدف هو تقليل المسافة بين نقاط البيانات والنقطه الوسطى لمجموعتها. ومن ناحية أخرى، فإنه يحاول أيضًا تعظيم مسافة نقاط البيانات هذه من النقطه الوسطى للمجموعات الأخرى. ببساطة، يجب أن تكون البيانات التي تنتمي إلى نفس المجموعة متشابهة قدر الإمكان ومختلفة عن البيانات الموجودة في المجموعات الأخرى.

مقاييس التقييم: 

  • القصور الذاتي: مجموع المسافة المربعة لمسافة كل نقطة بيانات من أقرب مركز مركزي للكتلة. كلما انخفضت قيمة القصور الذاتي، كلما كانت الكتلة أكثر إحكاما.
  • نقاط الصورة الظلية: تقيس التماسك (تشابه البيانات داخل مجموعتها الخاصة) والانفصال (اختلاف البيانات عن المجموعات الأخرى) بين المجموعات. تتراوح قيمة هذه النتيجة من -1 إلى +1. كلما ارتفعت القيمة، زادت مطابقة البيانات بشكل جيد لمجموعتها، وكلما كانت مطابقتها للمجموعات الأخرى أسوأ.

10. تحليلات المكونات الرئيسية (PCA)

يستعمل ل: تخفيض الأبعاد

الوصف: الخوارزمية يقلل من عدد المتغيرات المستخدمة عن طريق إنشاء متغيرات جديدة (المكونات الرئيسية) مع الاستمرار في محاولة تعظيم التباين الملتقط للبيانات. بمعنى آخر، فهو يحصر البيانات في مكوناتها الأكثر شيوعًا مع عدم فقدان جوهر البيانات.

مقاييس التقييم: 

  • التباين الموضح: النسبة المئوية للتباين الذي يغطيه كل مكون رئيسي.
  • إجمالي التباين الموضح: النسبة المئوية للتباين الذي تغطيه جميع المكونات الرئيسية.

يعد التعلم الآلي جزءًا أساسيًا من علم البيانات. باستخدام هذه الخوارزميات العشر، ستغطي المهام الأكثر شيوعًا في التعلم الآلي. وبطبيعة الحال، هذه النظرة العامة تعطيك فكرة عامة فقط عن كيفية عمل كل خوارزمية. إذن، هذه مجرد البداية.

الآن، أنت بحاجة إلى تعلم كيفية تنفيذ هذه الخوارزميات في بايثون وحل المشكلات الحقيقية. وفي ذلك أنصح باستخدام scikit-Learn. ليس فقط لأنها مكتبة ML سهلة الاستخدام نسبيًا ولكن أيضًا بسبب خصائصها مواد واسعة النطاق على خوارزميات ML.
 
 

نيت روزيدي هو عالم بيانات وفي استراتيجية المنتج. وهو أيضًا أستاذ مساعد يقوم بتدريس التحليلات، وهو مؤسس StrataScratch، وهي منصة تساعد علماء البيانات على الاستعداد للمقابلات الخاصة بهم من خلال أسئلة المقابلة الحقيقية من الشركات الكبرى. يكتب نيت عن أحدث الاتجاهات في سوق العمل، ويقدم نصائح للمقابلة، ويشارك مشاريع علوم البيانات، ويغطي كل شيء SQL.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة