شعار زيفيرنت

3 أسباب لماذا يجب على علماء البيانات استخدام LightGBM

التاريخ:


المُقدّمة

 
هناك العديد من مكتبات Python المعززة لعلماء البيانات لجني الفوائد منها. يتضمن بعضها XGBoost وخوارزمية CatBoost الجديدة. ومع ذلك ، هناك خوارزمية واحدة تجمع بين بعض خصائص الخوارزمية الأخرى ، مما يجعلها ضرورية لعلماء البيانات. الفوائد بالطبع رائعة في التعلم والتعليم ، ولكن الأهم من ذلك ، للعمل في بيئة مهنية سريعة تتطلب خوارزمية سريعة. أدناه ، سأناقش LightGBM [1] الفوائد ومدى ارتباطها بوظيفة علم البيانات الخاصة بك.

التشفير القاطع

 

3 أسباب لاستخدام LightGBM
تصوير ميخائيل فاسيليف on Unsplash [2]

 

ربما تكون أفضل ميزة لهذه المكتبة هي دعم الميزة الفئوية. في حين أن الكثير من علماء البيانات قد يستخدمون ترميزًا واحدًا ساخنًا لإنشاء أطنان من الأعمدة الجديدة لميزة فئوية واحدة فقط ، تتيح لك هذه المكتبة تحديد الميزات الفئوية باستخدام المعلمة categorical_feature.

في حين أن الترميز الساخن مفيد ، في الأوساط الأكاديمية ، داخل دفتر Jupyter الخاص بك ، على سبيل المثال ، يمكن أن يكون أقل فائدة في الإعداد الاحترافي. لنفترض أن لديك 10 ميزات فئوية مع 100 حاوية فريدة يمكن توسيعها إلى 1,000 عمود جديد. لا يؤدي ذلك إلى جعل إطار البيانات متناثرًا فحسب ، بل يجعل نموذجك أيضًا أبطأ بشكل لا يصدق. هناك نتيجة أخرى مرهقة لهذا التباين عندما يتعين عليك ترجمة ميزاتك إلى كود إنتاج لمهندسي البرمجيات الذين يعملون على خدمة التنبؤ والنشر. هذا النقل للمسؤوليات (إذا كان لديك هذا الإعداد ، بالطبع) ، يمكن أن يكون مربكًا ومربكًا لكلا الطرفين للتعامل معه. 

 
فيما يلي بعض مزايا التشفير الفئوي باستخدام LightGBM:

  • أسهل لتشفير الميزات الفئوية
  • أسهل للاستخدام
  • أسهل في العمل مع علماء البيانات الآخرين ومهندسي البرمجيات ومهندسي الخلفية ومديري المنتجات
  • يمكن الاحتفاظ بأسماء الأعمدة الأصلية
  • يمكنه جني فوائد الميزات الفئوية بدلاً من التحويل الرقمي التقليدي باستخدام تشفير واحد ساخن
  • يمكن لهذه الفوائد أن تجعل نموذجك أسرع وأكثر دقة في النهاية

سريع

 

3 أسباب لاستخدام LightGBM
تصوير آندي بيلز on Unsplash [3].

 

لا يؤدي ترميز الميزات الفئوية فقط إلى جعل نموذجك أسرع ، ولكن لدى LightGBM أيضًا بعض الحيل الأخرى لتحسين سرعات التدريب والتنبؤ. يستخدم LigthGBM كلاً من GOSS و EFB ، أو أخذ العينات من جانب واحد على أساس التدرج ، وربط الميزة الحصري ، بالإضافة إلى التقسيم القائم على الرسم البياني. 

 
هذا هو سبب كون نموذج LightGBM السريع مفيدًا للمحترفين:

  • لن تسمح لك كل وظيفة بأسابيع أو أشهر للتوصل إلى نموذج ، وقد يرغب البعض في الحصول على نموذج واحد في نفس الأسبوع - أو على الأقل ، دليل على نموذج المفهوم
  • يمكن أن تسمح لك هذه النمذجة الأسرع باختبار الميزات والمعلمات بشكل أسرع ، مما يسمح لك في النهاية بالعمل بشكل أفضل في بيئة أسرع
  • يمكنك اختبار المزيد من الميزات دون إبطاء النموذج كما هو الحال في الخوارزميات الأخرى

إنه بسيط وسريع ، وعندما يكون لديك الكثير من الأشخاص اعتمادًا على نموذجك ، فإن السرعة ستسمح لك بمساعدة الأعمال التجارية بكفاءة أكبر. 

دقيق

 

3 أسباب لاستخدام LightGBM
تصوير سيلفان أرنت on Unsplash [4].

 

تعد جميع نماذج XGBoost و CatBoost و LightGBM نماذج دقيقة. نعم ، يعتمد ذلك على مشكلتك وميزاتك وبياناتك في النهاية ، ولكن بشكل عام ، تؤدي هذه الخوارزميات إلى نتائج دقيقة بعد تنفيذ الخطوات اللازمة. 

نظرًا لأنه يمكنك استخدام ميزات فئوية ، فمن المحتمل أن يكون لديك نموذج دقيق ، أكثر من خوارزمية يمكنها تنفيذ تشفير واحد ساخن فقط. الطريقة التي يمكن أن تؤدي بها انقسامات LightGBM إلى نماذج أكثر دقة أيضًا. من المهم ملاحظة أنك سترغب في منع فرط التجهيز بالرغم من ذلك. 

 
فيما يلي بعض الأسباب التي تجعل LightGBM أكثر دقة ، وكيف يمكن أن يساعدك مهنيًا:

  • طريقة التقسيم
  • دعم الميزة الفئوية
  • بالطبع ، الكل يريد نموذجًا أكثر دقة ، خاصة في الأعمال التجارية (فقط تأكد من أنك لا تفرط في ارتداء الملابس)

نبذة عامة

 
على الرغم من أن هذه الفوائد بسيطة ، إلا أنها مهمة للغاية وتجعل عملك أسهل كثيرًا. نتيجة لذلك ، ستكون شركتك - أصحاب المصلحة والمهندسين ، راضية عن استخدامك لـ LightGBM.

للتلخيص ، فيما يلي بعض الفوائد الرئيسية لاستخدام LightGBM بشكل احترافي:

  • التشفير القاطع
  • سريع
  • دقيق

أتمنى أن تكون قد وجدت مقالتي ممتعة ومفيدة. لا تتردد في التعليق أدناه إذا كنت توافق أو لا توافق على هذه المزايا. لما و لما لا؟ ما هي المزايا الأخرى التي تعتقد أنه من المهم الإشارة إليها في LightGBM؟ يمكن بالتأكيد توضيح ذلك بشكل أكبر ، لكنني آمل أن أتمكن من إلقاء بعض الضوء على LightGBM.

رجاء خذ حريتك في تحقق من ملف التعريف الخاص بي ميديوم كذلك.

مراجع حسابات

 
[1] شركة مايكروسوفت ، وثائق LightGBM(2022)
[2] تصوير ميخائيل فاسيليف on Unsplash(2017)
[3] تصوير آندي بيلز on Unsplash(2015)
[4] تصوير سيلفان أرنت on Unsplash(2020)

 
 
ماثيو برزيبيلا (متوسط) هو أحد كبار علماء البيانات في شركة Favor Delivery ومقرها تكساس. حصل على درجة الماجستير في علوم البيانات من جامعة Southern Methodist. إنه يستمتع بالكتابة عن الموضوعات الشائعة والبرامج التعليمية في مجال علوم البيانات ، بدءًا من الخوارزميات الجديدة إلى النصائح حول تجارب العمل اليومية لعلماء البيانات. يحب مات إبراز الجانب التجاري لعلم البيانات بدلاً من الجانب التقني فقط. لا تتردد في التواصل مع مات على هاتفه لينكدين:.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة