شعار زيفيرنت

10 أنواع من خوارزميات التجميع في التعلم الآلي

التاريخ:

المُقدّمة

هل تساءلت يومًا كيف يمكن فك تشابك كميات هائلة من البيانات، والكشف عن الأنماط والرؤى المخفية؟ تكمن الإجابة في التجميع، وهو أسلوب قوي في التعلم الآلي وتحليل البيانات. تسمح لنا خوارزميات التجميع بتجميع نقاط البيانات بناءً على أوجه التشابه بينها، مما يساعد في مهام تتراوح من تجزئة العملاء إلى تحليل الصور.

في هذه المقالة، سنستكشف عشرة أنواع مختلفة من خوارزميات التجميع في التعلم الآلي، ونقدم نظرة ثاقبة حول كيفية عملها وأين تجد تطبيقاتها.

التعلم الآلي | خوارزمية التجميع
المصدر: Freepik

جدول المحتويات

ما هو التجميع؟

تخيل أن لديك مجموعة متنوعة من نقاط البيانات، مثل سجلات شراء العملاء، أو قياسات الأنواع، أو وحدات بكسل الصورة. يمكّنك التجميع من تنظيم هذه النقاط في مجموعات فرعية حيث تكون العناصر الموجودة في كل مجموعة فرعية أقرب إلى بعضها البعض من تلك الموجودة في مجموعات فرعية أخرى. يتم تعريف هذه المجموعات من خلال السمات أو السمات أو العلاقات المشتركة التي قد لا تكون واضحة على الفور.

يعد التجميع مهمًا في العديد من التطبيقات، بدءًا من تجزئة السوق وأنظمة التوصية وحتى اكتشاف الحالات الشاذة وتجزئة الصور. ومن خلال التعرف على التجمعات الطبيعية داخل البيانات، يمكن للشركات استهداف شرائح محددة من العملاء، ويمكن للباحثين تصنيف الأنواع، ويمكن لأنظمة الرؤية الحاسوبية فصل الأشياء داخل الصور. وبالتالي، فإن فهم التقنيات والخوارزميات المتنوعة المستخدمة في التجميع يعد أمرًا ضروريًا لاستخلاص رؤى قيمة من مجموعات البيانات المعقدة.

الآن، دعونا نفهم الأنواع العشرة المختلفة لخوارزميات التجميع.

أ. التجميع القائم على النقطه الوسطى

التجميع القائم على النقطه الوسطى هو فئة من خوارزميات التجميع التي تعتمد على مفهوم النقط الوسطى، أو النقاط التمثيلية، لتحديد المجموعات داخل مجموعات البيانات. تهدف هذه الخوارزميات إلى تقليل المسافة بين نقاط البيانات والنقط الوسطى العنقودية الخاصة بها. ضمن هذه الفئة، هناك خوارزميتان تجميعيتان بارزتان هما K-means وK-modes.

1. K- يعني التجميع

يعني K هي تقنية تجميع مستخدمة على نطاق واسع تقوم بتقسيم البيانات إلى مجموعات k، مع تعريف k مسبقًا من قبل المستخدم. يقوم بشكل متكرر بتعيين نقاط البيانات إلى أقرب النقطه الوسطى ويعيد حساب النقطه الوسطى حتى التقارب. تعد وسائل K فعالة وفعالة للبيانات ذات السمات العددية.

2. تجميع أوضاع K (متغير تجميع البيانات الفئوية)

أوضاع K عبارة عن تعديل لوسائل K المصممة للبيانات الفئوية. بدلاً من استخدام النقط الوسطى، فإنه يستخدم أوضاعًا تمثل القيم الفئوية الأكثر شيوعًا في كل مجموعة. تعد أوضاع K لا تقدر بثمن بالنسبة لمجموعات البيانات ذات السمات غير الرقمية، مما يوفر وسيلة فعالة لتجميع البيانات الفئوية بشكل فعال.

خوارزمية التجميع الميزات الرئيسية أنواع البيانات المناسبة حالات الاستخدام الأولية
K- يعني التجميع سمات رقمية قائمة على النقطه الوسطى وقابلة للتطوير البيانات العددية (الكمية). تجزئة العملاء، تحليل الصور
تجميع أوضاع K تعتمد على الوضع، والبيانات الفئوية، وفعالة البيانات الفئوية (النوعية). تحليل سلة السوق وتجميع النص

ب. التجميع على أساس الكثافة

التجميع على أساس الكثافة هو فئة من خوارزميات التجميع التي تحدد المجموعات بناءً على كثافة نقاط البيانات داخل منطقة معينة. يمكن لهذه الخوارزميات اكتشاف مجموعات ذات أشكال وأحجام مختلفة، مما يجعلها مناسبة لمجموعات البيانات ذات الأنماط غير المنتظمة. ثلاث خوارزميات تجميعية بارزة قائمة على الكثافة هي DBSCAN وMean-Shift Clustering وAffinity Propagation.

1. DBSCAN (التجميع المكاني للتطبيقات مع الضوضاء على أساس الكثافة)

DBSCAN تجميع نقاط البيانات عن طريق تحديد المناطق الكثيفة التي تفصلها مناطق متناثرة. لا يتطلب تحديد عدد المجموعات مسبقًا كما أنه مقاوم للضوضاء. يناسب DBSCAN بشكل خاص مجموعات البيانات ذات الكثافات العنقودية المتفاوتة والأشكال التعسفية.

2. تجميع متوسط ​​التحول

تحدد مجموعات Mean-Shift المجموعات عن طريق تحديد وضع توزيع البيانات، مما يجعلها فعالة في العثور على مجموعات ذات أشكال غير موحدة. غالبًا ما يتم استخدامه في تجزئة الصور وتتبع الكائنات وتحليل الميزات.

3. نشر التقارب

Affinity Propagation عبارة عن خوارزمية تجميع قائمة على الرسم البياني تحدد الأمثلة داخل البيانات وتجد استخدامها في تطبيقات مختلفة، بما في ذلك تجميع الصور والنص. لا يتطلب الأمر تحديد عدد المجموعات ويمكنه تحديد المجموعات ذات الأحجام والأشكال المختلفة بشكل فعال.

خوارزمية التجميع الميزات الرئيسية أنواع البيانات المناسبة حالات الاستخدام الأولية
DBSCAN يعتمد على الكثافة، ومقاوم للضوضاء، ولا يوجد عدد محدد مسبقًا من المجموعات البيانات الرقمية والفئوية كشف الشذوذ، وتحليل البيانات المكانية
تجميعة التحول المتوسط شكل كتلة قابل للتكيف يعتمد على الوضع، ومعالجة في الوقت الفعلي البيانات الرقمية تجزئة الصورة، وتتبع الكائنات
نشر التقارب يعتمد على الرسم البياني، ولا يوجد عدد محدد مسبقًا من المجموعات، ويعتمد على النموذج البيانات الرقمية والفئوية تجميع الصور والنص، والكشف عن المجتمع

تعد خوارزميات التجميع القائمة على الكثافة مفيدة بشكل خاص عند التعامل مع مجموعات البيانات المعقدة وغير الخطية، حيث قد تواجه الطرق التقليدية القائمة على النقطه الوسطى صعوبة في العثور على مجموعات ذات معنى.

ج. التجميع القائم على التوزيع

تقوم خوارزميات التجميع القائمة على التوزيع بنمذجة البيانات كتوزيعات احتمالية، على افتراض أن نقاط البيانات تنشأ من خليط من التوزيعات الأساسية. هذه الخوارزميات فعالة بشكل خاص في تحديد المجموعات ذات الخصائص الإحصائية. هناك طريقتان بارزتان للتجميع على أساس التوزيع هما نموذج الخليط الغاوسي (GMM) وتجميع التوقعات إلى الحد الأقصى (EM).

1. نموذج الخليط الغوسي

نموذج الخليط الغوسي يمثل البيانات كمجموعة من التوزيعات الغوسية المتعددة. ويفترض أن نقاط البيانات يتم إنشاؤها من هذه المكونات الغوسية. يمكن لـ GMM تحديد المجموعات ذات الأشكال والأحجام المختلفة وتجد استخدامًا واسعًا في التعرف على الأنماط وتقدير الكثافة وضغط البيانات.

2. تجميع التوقعات وتعظيمها (EM).

خوارزمية تعظيم التوقعات هو نهج التحسين التكراري المستخدم للتجميع. وهو يصمم توزيع البيانات كخليط من التوزيعات الاحتمالية، مثل التوزيعات الغوسية. تقوم EM بتحديث معلمات هذه التوزيعات بشكل متكرر، بهدف العثور على المجموعات الأكثر ملائمة ضمن البيانات.

خوارزمية التجميع الميزات الرئيسية أنواع البيانات المناسبة حالات الاستخدام الأولية
نموذج الخليط الغوسي (GMM) نمذجة التوزيع الاحتمالي، خليط من التوزيعات الغوسية البيانات الرقمية تقدير الكثافة، ضغط البيانات، التعرف على الأنماط
تجميع التوقعات وتعظيمها (EM). التحسين التكراري، خليط التوزيع الاحتمالي، مناسب تمامًا لأنواع البيانات المختلطة البيانات الرقمية تجزئة الصور، تحليل البيانات الإحصائية، التعلم غير الخاضع للرقابة

تعد خوارزميات التجميع القائمة على التوزيع ذات قيمة عند التعامل مع البيانات التي يمكن للنماذج الإحصائية وصفها بدقة. وهي مناسبة بشكل خاص للسيناريوهات التي يتم فيها إنشاء البيانات من مجموعة من التوزيعات الأساسية، مما يجعلها مفيدة في التطبيقات المختلفة، بما في ذلك التحليل الإحصائي ونمذجة البيانات.

د. التجميع الهرمي

في التعلم الآلي غير الخاضع للرقابة، التجميع الهرمي هو تقنية تقوم بترتيب نقاط البيانات في هيكل هرمي أو مخطط شجري. يسمح باستكشاف العلاقات على مستويات متعددة. يمكّن هذا النهج، الذي توضحه طريقة التجميع الطيفي وطريقة بيرش وطريقة وارد، محللي البيانات من التعمق في هياكل وأنماط البيانات المعقدة.

1. التجميع الطيفي

التجمعات الطيفية يستخدم المتجهات الذاتية لمصفوفة التشابه لتقسيم البيانات إلى مجموعات. إنه يتفوق في تحديد المجموعات ذات الأشكال غير المنتظمة ويجد تطبيقات شائعة في مهام مثل تجزئة الصور واكتشاف مجتمع الشبكة وتقليل الأبعاد.

2. البتولا (الاختزال التكراري المتوازن والتكتل باستخدام التسلسلات الهرمية)

بيرش عبارة عن خوارزمية تجميع هرمية تقوم ببناء بنية مجموعات تشبه الشجرة. إنها فعالة بشكل خاص ومناسبة للتعامل مع مجموعات البيانات الكبيرة. وبالتالي مما يجعلها ذات قيمة في استخراج البيانات، والتعرف على الأنماط، وتطبيقات التعلم عبر الإنترنت.

3. طريقة وارد (التكتل الهرمي التكتل)

طريقة وارد هي طريقة تجميع هرمية تكتلية. هذا يبدأ بنقاط بيانات فردية ويدمج المجموعات تدريجيًا لإنشاء تسلسل هرمي. التوظيف المتكرر في العلوم البيئية والبيولوجيا ينطوي على تصنيفات تصنيفية.

المجموعات الهرمية تمكن محللي البيانات من فحص الروابط بين نقاط البيانات على مستويات مختلفة من التفاصيل. وهكذا بمثابة أداة قيمة لفهم هياكل البيانات وأنماطها عبر مستويات متعددة. يكون ذلك مفيدًا بشكل خاص عند التعامل مع البيانات التي تعرض علاقات هرمية معقدة أو عندما تكون هناك حاجة لتحليل البيانات بدقة مختلفة.

خوارزمية التجميع الميزات الرئيسية أنواع البيانات المناسبة حالات الاستخدام الأولية
التجميع الطيفي التضمين الطيفي والأشكال العنقودية غير المحدبة والقيم الذاتية والمتجهات الذاتية البيانات الرقمية، بيانات الشبكة تجزئة الصورة، الكشف عن المجتمع، تقليل الأبعاد
جلد هيكل هرمي وقابلية للتوسع، مناسب لمجموعات البيانات الكبيرة البيانات الرقمية استخراج البيانات، التعرف على الأنماط، التعلم عبر الإنترنت
طريقة وارد التسلسل الهرمي التجميعي، والتصنيفات التصنيفية، ودمج المجموعات تدريجيا البيانات الرقمية، البيانات الفئوية العلوم البيئية، الأحياء، التصنيف

وفي الختام

تقدم خوارزميات التجميع في التعلم الآلي مجموعة واسعة ومتنوعة من الأساليب لمعالجة المهمة المعقدة المتمثلة في تصنيف نقاط البيانات بناءً على أوجه التشابه بينها. سواء كانت الأساليب التي تركز على النقطه الوسطى مثل K-means وK-modes، أو التقنيات المعتمدة على الكثافة مثل DBSCAN وMean-Shift، أو المنهجيات التي تركز على التوزيع مثل GMM وEM، أو أساليب التجميع الهرمية المتمثلة في Spectral Clustering، Birch وطريقة وارد، فإن كل خوارزمية تجلب مزاياها المميزة إلى المقدمة. يعتمد اختيار خوارزمية التجميع على خصائص البيانات والمشكلة المحددة المطروحة. باستخدام أدوات التجميع هذه، يمكن لعلماء البيانات ومتخصصي التعلم الآلي اكتشاف الأنماط المخفية والحصول على رؤى قيمة من مجموعات البيانات المعقدة.

أسئلة شائعة

س1. ما هي أنواع التجمعات؟

الجواب. لا يوجد سوى عدد قليل من أنواع التجميع: التجميع الهرمي، والمجموعات K-means، وDBSCAN (التجميع المكاني القائم على الكثافة للتطبيقات ذات الضوضاء)، والمجموعات التكتلية، وانتشار التقارب، وتجميع التحول المتوسط.

س2. ما هو التجميع في التعلم الآلي؟

الجواب. التجميع في التعلم الآلي هو أسلوب تعلم غير خاضع للرقابة يتضمن تجميع نقاط البيانات في مجموعات بناءً على أوجه التشابه أو الأنماط، دون معرفة مسبقة بالفئات. ويهدف إلى العثور على التجمعات الطبيعية داخل البيانات، مما يسهل فهم وتحليل مجموعات البيانات الكبيرة.

س3. ما هي الأنواع الثلاثة الأساسية للمجموعات؟

الجواب. 1. المجموعات الحصرية: تنتمي نقاط البيانات إلى مجموعة واحدة فقط.
2. المجموعات المتداخلة: يمكن أن تنتمي نقاط البيانات إلى مجموعات متعددة.
3. المجموعات الهرمية: يمكن تنظيم المجموعات في هيكل هرمي، مما يسمح بمستويات مختلفة من التفاصيل.

س 4. ما هي أفضل خوارزمية التجميع؟

الجواب. لا توجد خوارزمية تجميع "أفضل" عالميًا، حيث يعتمد الاختيار على مجموعة البيانات والمشكلة المحددة. يعد K-means خيارًا شائعًا للبساطة، لكن DBSCAN قوي لسيناريوهات مختلفة. تختلف أفضل خوارزمية بناءً على خصائص البيانات، مثل توزيع البيانات والأبعاد والأشكال العنقودية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة