Zephyrnet-logo

6 veelvoorkomende fouten in datawetenschap en hoe u ze kunt vermijden

Datum:

6 veelvoorkomende fouten in datawetenschap en hoe u ze kunt vermijden

Als beginnende of doorgewinterde Data Scientist hangt je werk af van de data, die zelden perfect is. Het op de juiste manier aanpakken van de typische problemen met de kwaliteit en volledigheid van gegevens is van cruciaal belang, en we bekijken hoe u zes van deze veelvoorkomende scenario’s kunt vermijden.


Foto door chuttersnap on Unsplash.

Introductie

Bij datawetenschap of machinaal leren gebruiken we gegevens voor beschrijvende analyses om zinvolle conclusies uit de gegevens te trekken, of we kunnen gegevens gebruiken voor voorspellende doeleinden om modellen te bouwen die voorspellingen kunnen doen op basis van onzichtbare gegevens. De betrouwbaarheid van elk model hangt af van het expertiseniveau van de datawetenschapper. Het bouwen van een machine learning-model is één ding. Het is iets anders om ervoor te zorgen dat het model optimaal en van de hoogste kwaliteit is. Dit artikel bespreekt zes veelvoorkomende fouten die de kwaliteit of voorspellende kracht van een machine learning-model negatief kunnen beïnvloeden, met verschillende casestudies.

6 veelvoorkomende fouten in datawetenschap

In deze sectie bespreken we zes veelvoorkomende fouten die ernstige gevolgen kunnen hebben voor de kwaliteit van een data science-model. Er zijn links naar verschillende echte applicaties opgenomen.

  1. Vaak gaan we ervan uit dat onze dataset van goede kwaliteit en betrouwbaar is

Data zijn de sleutel tot elke data science- en machine learning-taak. Gegevens zijn er in verschillende smaken, zoals numerieke gegevens, categorische gegevens, tekstgegevens, afbeeldingsgegevens, spraakgegevens en videogegevens. De voorspellende kracht van een model hangt af van de kwaliteit van de gegevens die worden gebruikt bij het bouwen van het model. Het is daarom uiterst belangrijk dat u, voordat u een data science-taak uitvoert, zoals verkennende data-analyse of het bouwen van een model, de bron en betrouwbaarheid van uw data controleert, omdat zelfs datasets die perfect lijken fouten kunnen bevatten. Er zijn verschillende factoren die de kwaliteit van uw gegevens kunnen verminderen:

  • Verkeerde data
  • Ontbrekende gegevens
  • Uitschieters in gegevens
  • Redundantie in gegevens
  • Onevenwichtige gegevens
  • Gebrek aan variabiliteit in gegevens
  • Dynamische gegevens
  • Grootte van gegevens

Raadpleeg het volgende artikel voor meer informatie: Gegevens zijn altijd imperfect.

Vanuit mijn persoonlijke ervaring met het werken aan een industrieel datawetenschappelijk project, moest mijn team gedurende een periode van drie maanden samenwerken met systeemingenieurs, elektrotechnici, werktuigbouwkundigen, veldingenieurs en technici om de beschikbare dataset te begrijpen en hoe we deze konden gebruiken. om de juiste vragen te formuleren die met behulp van de gegevens moeten worden beantwoord. Door ervoor te zorgen dat uw gegevens foutloos en van hoge kwaliteit zijn, kunt u de nauwkeurigheid en betrouwbaarheid van uw model verbeteren.

  1. Richt u niet op het gebruik van de gehele dataset

Als je als data science-aspirant aan een data science-project moet werken, kom je soms in de verleiding om de volledige aangeboden dataset te gebruiken. Zoals hierboven echter al vermeld, kan een dataset verschillende onvolkomenheden vertonen, zoals de aanwezigheid van uitbijters, ontbrekende waarden en overtollige kenmerken. Als de fractie van uw dataset die onvolkomenheden bevat erg klein is, kunt u eenvoudigweg de subset van imperfecte gegevens uit uw dataset verwijderen. Als het aandeel onjuiste gegevens echter aanzienlijk is, kunnen methoden zoals data-imputatietechnieken worden gebruikt om ontbrekende gegevens te benaderen.

Voordat een machine learning-algoritme wordt geïmplementeerd, is het noodzakelijk om alleen relevante functies in de trainingsdataset te selecteren. Het proces van het transformeren van een dataset om alleen relevante kenmerken te selecteren die nodig zijn voor training, wordt dimensionaliteitsreductie genoemd. Functieselectie en dimensionaliteitsreductie zijn belangrijk vanwege drie belangrijke redenen:

a) Voorkomt overfitting: Een hoogdimensionale dataset met te veel functies kan soms leiden tot overfitting (het model legt zowel reële als willekeurige effecten vast).

b) Eenvoud: Een te complex model met te veel kenmerken kan moeilijk te interpreteren zijn, vooral wanneer kenmerken met elkaar gecorreleerd zijn.

c) Computationele efficiëntie: Een model dat is getraind op een lager-dimensionale dataset is computationeel efficiënt (uitvoering van algoritme vereist minder rekentijd).

Raadpleeg de volgende artikelen voor meer informatie over technieken voor dimensionaliteitsreductie:

Het gebruik van dimensionaliteitsreductietechnieken om onnodige correlaties tussen functies te verwijderen, kan de kwaliteit en de voorspellende kracht van uw machine learning-model helpen verbeteren.

  1. Schaal uw gegevens voordat u deze gebruikt voor het bouwen van modellen

Door uw functies te schalen, kunt u de kwaliteit en de voorspellende kracht van uw model verbeteren. Stel dat u bijvoorbeeld een model wilt bouwen om een ​​doelvariabele te voorspellen kredietwaardigheid gebaseerd op voorspellende variabelen zoals inkomen en credit score. Omdat de kredietscores variëren van 0 tot 850, terwijl het jaarinkomen kan variëren van €25,000 tot €500,000, zal het model, zonder uw kenmerken te schalen, een voorkeur hebben voor de inkomen functie. Dit betekent de gewichtsfactor die is gekoppeld aan de inkomen parameter zal erg klein zijn, waardoor het voorspellende model voorspellend zal zijn kredietwaardigheid uitsluitend gebaseerd op de inkomen parameter.

Om functies op dezelfde schaal te brengen, kunnen we besluiten om gebruik te maken van normalisatie of standaardisatie van functies. Meestal gaan we ervan uit dat gegevens normaal verdeeld zijn en standaardiseren, maar dat is niet altijd het geval. Het is belangrijk dat u, voordat u besluit of u standaardisatie of normalisatie gaat gebruiken, eerst bekijkt hoe uw kenmerken statistisch verdeeld zijn. Als het kenmerk de neiging heeft uniform verdeeld te zijn, kunnen we normalisatie gebruiken (MinMaxSchaalR). Als het kenmerk ongeveer Gaussiaans is, kunnen we standaardisatie gebruiken (Standaardscaler). Houd er opnieuw rekening mee dat, of u nu normalisatie of standaardisatie toepast, dit ook benaderingsmethoden zijn en ongetwijfeld zullen bijdragen aan de algehele fout van het model.

  1. Stem hyperparameters in uw model af

Het gebruik van de verkeerde hyperparameterwaarden in uw model kan leiden tot een niet-optimaal model van lage kwaliteit. Het is belangrijk dat u uw model traint tegen alle hyperparameters om het model met optimale prestaties te bepalen. Een goed voorbeeld van hoe de voorspellende kracht van een model afhangt van hyperparameters vind je in onderstaande figuur (bron: Slechte en goede regressieanalyse).

Figuur 1. Regressieanalyse met behulp van verschillende waarden van de leersnelheidparameter. Bron: Slechte en goede regressieanalyse, Gepubliceerd in Towards AI, februari 2019, door Benjamin O. Tayo.

Houd er rekening mee dat het gebruik van standaard hyperparameters niet altijd tot een optimaal model zal leiden. Zie dit artikel voor meer informatie over hyperparameters: Modelparameters en hyperparameters in machine learning – wat is het verschil.

  1. Vergelijk verschillende algoritmen

Het is belangrijk om de voorspellende kracht van verschillende algoritmen te vergelijken voordat u uw definitieve model selecteert. Als u bijvoorbeeld een classificatiemodel, kunt u de volgende algoritmen proberen:

  • Logistieke regressieclassificatie
  • Ondersteuning van vectormachines (SVM)
  • Beslissingsboomclassificatie
  • Classificator K-dichtstbijzijnde buur
  • Naïeve Bayes-classificatie

Als u een lineair regressiemodel, kunt u de volgende algoritmen vergelijken:

  • Lineaire regressie
  • K-buren regressie (KNR)
  • Ondersteuning van vectorregressie (SVR)

Raadpleeg de volgende artikelen voor meer informatie over het vergelijken van verschillende algoritmen:

  1. Kwantificeer willekeurige fouten en onzekerheden in uw model

Elk machine learning-model heeft een inherente willekeurige fout. Deze fout komt voort uit de inherente willekeurige aard van de dataset; uit de willekeurige aard waarin de dataset tijdens het bouwen van modellen wordt opgedeeld in trainings- en testsets; of door randomisatie van de doelkolom (een methode die wordt gebruikt voor het detecteren van overfitting). Het is belangrijk om altijd te kwantificeren hoe willekeurige fouten de voorspellende kracht van uw model beïnvloeden. Dit zou de betrouwbaarheid en kwaliteit van uw model helpen verbeteren. Raadpleeg het volgende artikel voor meer informatie over de kwantificering van willekeurige fouten: Kwantificering van willekeurige fouten bij machinaal leren.

Samengevat

Samenvattend hebben we zes veelvoorkomende fouten besproken die de kwaliteit of de voorspellende kracht van een machine learning-model kunnen beïnvloeden. Het is handig om er altijd voor te zorgen dat uw model optimaal is en van de hoogste kwaliteit. Het vermijden van de hierboven besproken fouten kan een data science-aspirant in staat stellen betrouwbare modellen te bouwen.

Zie ook:

Bron: https://www.kdnuggets.com/2020/09/6-common-data-science-mistakes.html

spot_img

Laatste intelligentie

spot_img