Zephyrnet-Logo

3 Gründe, warum Data Scientists LightGBM verwenden sollten

Datum:


Einleitung

 
Es gibt viele großartige Python-Bibliotheken, von denen Data Scientists profitieren können. Einige beinhalten XGBoost und den neuen CatBoost-Algorithmus. Es gibt jedoch einen Algorithmus, der einige dieser beiden anderen Algorithmusmerkmale kombiniert, was ihn zu einem Muss für Datenwissenschaftler macht. Die Vorteile sind natürlich beim Lernen und in der Ausbildung groß, aber noch wichtiger für die Arbeit in einem schnellen, professionellen Umfeld, das einen schnellen Algorithmus erfordert. Unten werde ich diskutieren LichtGBM [1] Vorteile und wie sie für Ihren Data-Science-Job spezifisch sind.

Kategoriale Kodierung

 

3 Gründe für die Verwendung von LightGBM
Photo by Michail Wassiljew on Unsplash [2]

 

Das vielleicht beste Feature dieser Bibliothek ist die kategoriale Feature-Unterstützung. Während viele Data Scientists One-Hot-Codierung verwenden, um unzählige neue Spalten für nur ein kategoriales Merkmal zu erstellen, können Sie mit dieser Bibliothek die kategorialen Merkmale mit dem Parameter categorycal_feature angeben.

Während die One-Hot-Codierung in der Wissenschaft beispielsweise in Ihrem Jupyter-Notebook nützlich ist, kann sie im professionellen Umfeld weniger nützlich sein. Angenommen, Sie haben 10 kategoriale Features mit 100 eindeutigen Bins, die auf 1,000 neue Spalten erweitert werden können. Dadurch wird Ihr Datenrahmen nicht nur spärlich, sondern Ihr Modell wird auch unglaublich langsamer. Ein weiteres stressiges Ergebnis dieser Sparsamkeit ist, wenn Sie Ihre Funktionen in Produktionscode für Softwareingenieure übersetzen müssen, die an Ihrem Vorhersagedienst und Ihrer Bereitstellung arbeiten. Diese Übertragung von Verantwortlichkeiten (wenn du das Setup hast, natürlich), kann für beide Parteien verwirrend und überwältigend sein. 

 
Hier sind einige der Vorteile der kategorialen Codierung mit LightGBM:

  • Einfachere Codierung kategorialer Merkmale
  • Einfacher zu verwenden
  • Einfachere Zusammenarbeit mit anderen Datenwissenschaftlern, Softwareentwicklern, Backend-Ingenieuren und Produktmanagern
  • Kann ursprüngliche Spaltennamen beibehalten
  • Kann die Vorteile von kategorialen Funktionen anstelle der traditionellen numerischen Konvertierung mit One-Hot-Codierung nutzen
  • Diese Vorteile können Ihr Modell letztendlich schneller und genauer machen

Schnell

 

3 Gründe für die Verwendung von LightGBM
Photo by Andy Beales on Unsplash [3].

 

Die Kodierung Ihrer kategorialen Merkmale macht Ihr Modell nicht nur schneller, LightGBM hat auch ein paar andere Tricks, um Ihre Trainings- und Vorhersagegeschwindigkeiten zu verbessern. LigthGBM verwendet sowohl GOSS als auch EFB oder Gradient-based One-Side Sampling und Exclusive Feature Binding sowie histogrammbasiertes Splitting. 

 
Deshalb ist ein schnelles LightGBM-Modell für Profis nützlich:

  • Nicht bei jedem Job können Sie wochen- oder monatelang ein Modell erstellen, und einige möchten vielleicht sogar noch in derselben Woche eines – oder zumindest ein Proof-of-Concept-Modell
  • Diese schnellere Modellierung ermöglicht es Ihnen, Funktionen und Parameter schneller zu testen, wodurch Sie letztendlich in einer schnelleren Umgebung besser arbeiten können
  • Kann mehr Funktionen testen, ohne Ihr Modell so stark zu verlangsamen wie bei anderen Algorithmen

Es ist einfach, es ist schnell, und wenn Sie abhängig von Ihrem Modell viele Leute haben, können Sie mit schnell dem Unternehmen effizienter helfen. 

Genaue

 

3 Gründe für die Verwendung von LightGBM
Photo by Silvan Arnet on Unsplash [4].

 

Alle XGBoost, CatBoost und LightGBM sind genaue Modelle. Ja, es hängt letztendlich von Ihrem Problem, Ihren Funktionen und Daten ab, aber im Allgemeinen führen diese Algorithmen zu genauen Ergebnissen, nachdem Sie die erforderlichen Schritte ausgeführt haben. 

Da Sie kategoriale Merkmale verwenden können, haben Sie wahrscheinlich eher ein genaues Modell als einen Algorithmus, der nur One-Hot-Codierung durchführen kann. Die Art und Weise, wie LightGBM aufteilt, kann auch zu genaueren Modellen führen. Es ist jedoch wichtig zu beachten, dass Sie eine Überanpassung verhindern möchten. 

 
Hier sind einige der Gründe, warum LightGBM genauer ist und wie es Ihnen beruflich helfen kann:

  • Aufteilungsmethode
  • Kategorische Feature-Unterstützung
  • Natürlich möchte jeder ein genaueres Modell, insbesondere in einem Unternehmen (Sie müssen nur darauf achten, dass Sie nicht überanstrengen)

Zusammenfassung

 
Obwohl diese Vorteile einfach sind, sind sie unglaublich wichtig und erleichtern Ihre Arbeit erheblich. Infolgedessen wird Ihr Unternehmen – Interessengruppen und Ingenieure – zufrieden sein, wenn Sie LightGBM verwenden.

Zusammenfassend sind hier einige der Hauptvorteile der professionellen Verwendung von LightGBM:

  • Kategoriale Kodierung
  • Schnell
  • Genaue

Ich hoffe, Sie fanden meinen Artikel sowohl interessant als auch nützlich. Bitte zögern Sie nicht, unten einen Kommentar abzugeben, wenn Sie diesen Vorteilen zustimmen oder nicht zustimmen. Warum oder warum nicht? Welche anderen Vorteile sind Ihrer Meinung nach bei LightGBM hervorzuheben? Diese lassen sich sicherlich noch weiter verdeutlichen, aber ich hoffe, ich konnte etwas Licht ins Dunkel bringen.

Wenden Sie sich bitte an Schauen Sie sich auch mein Medium-Profil an.

Bibliographie

 
[1] Microsoft Corporation, LightGBM-Dokumentation(2022)
[2] Foto von Michail Wassiljew on Unsplash(2017)
[3] Foto von Andy Beales on Unsplash(2015)
[4] Foto von Silvan Arnet on Unsplash(2020)

 
 
Matthäus Przybyla (Medium) ist Senior Data Scientist bei Favor Delivery mit Sitz in Texas. Er hat einen Master-Abschluss in Data Science von der Southern Methodist University. Er schreibt gerne über Trendthemen und Tutorials im Bereich Data Science, die von neuen Algorithmen bis hin zu Ratschlägen zu alltäglichen Arbeitserfahrungen für Data Scientists reichen. Matt betont gerne die geschäftliche Seite der Datenwissenschaft und nicht nur die technische Seite. Fühlen Sie sich frei, Matt auf seinem zu kontaktieren LinkedIn.

spot_img

Neueste Intelligenz

spot_img