Zephyrnet-logo

Onderwaarderen we eenvoudige modellen? – KDnuggets

Datum:

Onderwaarderen we eenvoudige modellen?
Afbeelding gegenereerd door DALL-E 2
 

De huidige trend in de wereld van machine learning draait helemaal om geavanceerde modellen. De beweging die voornamelijk wordt aangewakkerd door het go-to-model van veel cursussen is het complexe model, en het ziet er veel ongelooflijker uit om een ​​model als Deep Learning of LLM's te gebruiken. De zakenmensen hielpen ook niet met dit idee, omdat ze alleen de populaire trend zagen.

Eenvoud betekent niet tegenvallende resultaten. Een eenvoudig model betekent alleen dat de stappen die worden gebruikt om de oplossing te leveren minder ingewikkeld zijn dan het geavanceerde model. Het gebruikt misschien minder parameters of eenvoudigere optimalisatiemethoden, maar een eenvoudig model is nog steeds geldig. 

Verwijzend naar het filosofieprincipe, Occam's scheermes of de Wet van Parsimony stelt dat de eenvoudigste verklaring meestal de beste is. Het houdt in dat de meeste problemen meestal kunnen worden opgelost via de meest eenvoudige aanpak. Dat is de reden waarom eenvoudige modelwaarde in zijn eenvoudige aard het probleem kan oplossen.

Een eenvoudig model is net zo belangrijk als welk model dan ook. Dat is de cruciale boodschap die het artikel wil overbrengen, en we zullen onderzoeken waarom. Laten we er dus op ingaan.

Als we het hebben over eenvoudige modellen, wat is dan een eenvoudig model? Logistieke regressie of naïef Bayes wordt vaak een eenvoudig model genoemd, terwijl neurale netwerken complex zijn; Hoe zit het met willekeurig bos? Is het een eenvoudig of complex model?

Over het algemeen classificeerden we Random Forest niet als een eenvoudig model, maar aarzelden we vaak om het als complex te classificeren. Dit komt doordat er geen strikte regels gelden voor de eenvoudige niveauclassificatie van het model. Er zijn echter een paar aspecten die kunnen helpen om het model te classificeren. Zij zijn:

– Aantal parameters,

– interpreteerbaarheid,

– Rekenefficiëntie.

Deze aspecten hebben ook invloed op het voordelenmodel. Laten we ze in meer detail bespreken.

Aantal parameters

De parameter is een inherente modelconfiguratie die tijdens het trainingsproces wordt geleerd of geschat. Anders dan het concept van de hyperparameter, kan de parameter in eerste instantie niet door de gebruiker worden ingesteld, maar wordt deze beïnvloed door de keuzes van de hyperparameter.

Voorbeelden van parameters zijn onder meer de lineaire regressiecoëfficiënt, het gewicht en de biases van het neurale netwerk, en het K-gemiddelde clusterzwaartepunt. Zoals u kunt zien, veranderen de waarden van de modelparameters onafhankelijk naarmate we van de gegevens leren. De parameterwaarde wordt voortdurend bijgewerkt in de modeliteratie totdat het definitieve model aanwezig is.

Lineaire regressie is een eenvoudig model omdat het weinig parameters heeft. De lineaire regressieparameters zijn hun coëfficiënten en snijpunten. Afhankelijk van het aantal functies dat we trainen, zou Lineaire Regressie bestaan n + 1 parameters (n is het aantal kenmerkcoëfficiënten plus 1 voor het snijpunt).

Vergeleken met het neurale netwerk is het model complexer om te berekenen. De parameter in NN bestaat uit de gewichten en biases. Het gewicht zou afhangen van de invoer van de laag (n) en de neuronen (p), en het gewichtsparameternummer zou n*p zijn. Elk neuron zou zijn bias hebben, dus voor elk neuron p, zou er een zijn p vooroordeel. In totaal zouden de parameters rond zijn (n*p) + p nummer. De complexiteit neemt vervolgens toe met elke toevoeging van lagen, terwijl elke extra laag zou toenemen (n*p) + p parameters.

We hebben gezien dat het aantal parameters de complexiteit van het model beïnvloedt, maar hoe beïnvloedt dit de algehele prestaties van het model? Het meest cruciale concept is dat het de risico's van overfitting beïnvloedt. 

Overfitting vindt plaats wanneer ons modelalgoritme een slecht generalisatievermogen heeft, omdat het de geluiden in een dataset leert. Met meer parameters zou het model complexere patronen in de gegevens kunnen vastleggen, maar het omvat ook de ruis omdat het model ervan uitgaat dat deze significant zijn. Een kleiner parametermodel heeft daarentegen een beperkt vermogen, wat betekent dat het moeilijker te overpassen is.

Er zijn ook directe effecten op de interpreteerbaarheid en de rekenefficiëntie, die we verder zullen bespreken.

Interpreteerbaarheid

Interpreteerbaarheid is een machine learning-concept dat verwijst naar het vermogen van machine learning om de output te verklaren. Kortom, het is hoe de gebruiker de output van het modelgedrag kan begrijpen. De significante waarde van een eenvoudig model ligt in de interpreteerbaarheid ervan, en het is een direct effect dat voortkomt uit een kleiner aantal parameters. 

Met minder parameters wordt de interpreteerbaarheid van een eenvoudig model groter naarmate het model gemakkelijker uit te leggen is. Bovendien is de interne werking van het model transparanter, omdat het gemakkelijker is om de rol van elke parameter te begrijpen dan de complexe. 

De lineaire regressiecoëfficiënt is bijvoorbeeld eenvoudiger uit te leggen, omdat de coëfficiëntparameter het kenmerk rechtstreeks beïnvloedt. Een complex model als NN daarentegen is een uitdaging om de directe bijdrage van de parameter aan de voorspellingsoutput te verklaren. 

De waarde van de interpreteerbaarheid is enorm in veel bedrijfsonderdelen of projecten, omdat een bepaald bedrijf vereist dat de output kan worden verklaard. Voorspellingen in het medische veld vereisen bijvoorbeeld verklaarbaarheid, aangezien de medisch expert vertrouwen moet hebben in het resultaat; het beïnvloedt tenslotte het individuele leven.

Het vermijden van vertekening bij de modelbeslissing is ook de reden waarom velen de voorkeur geven aan een eenvoudig model. Stel je voor dat een kredietbedrijf een model traint met een dataset vol vooroordelen, en de output weerspiegelt deze vooroordelen. We willen de vooroordelen wegnemen, omdat ze onethisch zijn. Verklaarbaarheid is dus essentieel om ze op te sporen.

Computationele efficiëntie

Een ander direct effect van minder parameters is een toename van de rekenefficiëntie. Een kleiner aantal parameters betekent minder tijd om de parameters te vinden en minder rekenkracht. 

In productie zou een model met een hogere rekenefficiëntie toegankelijker worden om te implementeren en een kortere inferentietijd in de toepassing hebben. Het effect zou er ook toe leiden dat eenvoudige modellen gemakkelijker kunnen worden ingezet op apparaten met beperkte middelen, zoals smartphones.

Over het geheel genomen zou een eenvoudig model minder middelen gebruiken, wat zich vertaalt in minder geld dat wordt uitgegeven aan de verwerking en implementatie.

We kunnen een eenvoudig model onderwaarderen omdat het er niet fraai uitziet of niet de meest optimale meetresultaten oplevert. Er zijn echter veel waarden die we uit het eenvoudige model kunnen halen. Door te kijken naar het aspect dat de eenvoud van een model classificeert, brengt het Simple-model deze waarden met zich mee:

– Eenvoudige modellen hebben een kleiner aantal parameters, maar verminderen ook het risico op overfitting,

– Met minder parameters biedt het Simple-model een hogere verklaarbaarheidswaarde,

– Minder parameters betekenen ook dat het Simple-model computationeel efficiënt is.
 
 

Cornellius Yudha Wijaya is een data science assistent-manager en dataschrijver. Terwijl hij fulltime bij Allianz Indonesia werkt, deelt hij graag Python- en Data-tips via sociale media en schrijvende media.

spot_img

Laatste intelligentie

spot_img