Zephyrnet-logo

Verschillende soorten kruisvalidaties in machine learning

Datum:

Dit artikel is gepubliceerd als onderdeel van het Data Science-blogathon.

Introductie

Modelontwikkeling is een kritieke fase in de levenscyclus van een Data Science-project. We proberen onze dataset te trainen met behulp van verschillende vormen van Machine Learning-modellen, al dan niet onder toezicht, afhankelijk van het bedrijfsprobleem.

Aangezien er veel modellen beschikbaar zijn voor het oplossen van zakelijke problemen, moeten we ervoor zorgen dat het model dat we kiezen na deze fase ook effectief presteert op onbekende gegevens. Als gevolg hiervan kunnen we niet alleen vertrouwen op beoordelingscriteria om het best presterende model te selecteren.

Afgezien van de statistiek, willen we andere informatie om ons te helpen bij het selecteren van het uiteindelijke Machine Learning-model voor implementatie in productie.

Validatie is het proces waarbij wordt beoordeeld of de wiskundige bevindingen die zijn verkregen door het berekenen van verbindingen tussen variabelen acceptabel zijn als representaties van de gegevens. Meestal wordt een foutschatting voor het model uitgevoerd nadat het is getraind op de treingegevensset, een proces dat bekend staat als residuele evaluatie.

Deze stap berekent de trainingsfout door het voorspelde antwoord te vergelijken met de initiële respons. Er kan echter niet op deze statistiek worden vertrouwd omdat deze alleen effectief is met trainingsgegevens. Het is denkbaar dat het model te klein of te groot is voor de data.

Elke statistiek die wordt gebruikt om de prestaties van het model te evalueren, kan u niet vertellen hoe goed het zal presteren als het wordt toegepast op een geheel nieuwe gegevensset. Het is Cross-Validation, een methode die ons in staat stelt dit feit over ons model te ontdekken.

Dit bericht leert over de vele soorten kruisvalidatieprocedures, hun voordelen en hun nadelen. Laten we beginnen met het definiëren van kruisvalidatie.

Kruisvalidaties

Kruisvalidaties zijn een resampling-strategie die de efficiëntie en correctheid van ons model verzekert wanneer toegepast op voorheen onbekende gegevens. Het is een techniek voor het beoordelen van Machine Learning-modellen waarbij nog veel meer Machine Learning-modellen worden getraind op subsets van de beschikbare invoergegevensset en deze worden geëvalueerd in de subgroep.

Er zijn verschillende benaderingen voor kruisvalidatie, maar laten we eens kijken naar de fundamentele functionaliteit van kruisvalidatie: de eerste stap is het opsplitsen van de opgeschoonde dataset in K segmenten van gelijke grootte.

  1. Vervolgens beschouwen we Fold-1 als een testfold en de andere K-1 als trainfolds en berekenen de testscore. fold's

  2. Herhaal stap 2 voor alle vouwen, gebruik een andere vouw als controle terwijl u in de trein blijft.

  3. De laatste stap zou zijn om de scores van alle plooien te middelen.

Doel van kruisvalidaties

Cross-validatie is een machine learning-benadering waarbij de trainingsgegevens worden opgedeeld in twee sets: één voor training en één voor testen. De trainingsset wordt gebruikt om het model te construeren, terwijl de testset wordt gebruikt om de prestaties van het model in productie te beoordelen. Dit komt omdat er een mogelijkheid is dat het model dat u hebt gebouwd niet goed zal presteren in de echte wereld. Zonder kruisvalidatie bestaat het gevaar dat u een model bouwt dat goed presteert op trainingsgegevens, maar niet op gegevens uit de echte wereld.

Soorten kruisvalidaties

1. Holdout-methode

Kruisvalidaties in ML

Image Source

Deze benadering genereert voorspellingen door een subset van de trainingsgegevensset te verwijderen en deze door te geven aan een getraind model op de resterende gegevensset. Vervolgens berekenen we de foutschatting, die aangeeft hoe goed ons model presteert op voorheen onbekende datasets. Dit wordt de Holdout-techniek genoemd.

Voorbeeld- E-mails in onze inbox worden geclassificeerd als spam of geen spam.

VOORDELEN

  • Deze methode is volledig data-onafhankelijk.
  • Deze methode vereist slechts één uitvoering, wat resulteert in goedkopere rekenkosten.

NADELEN

  • Door de lagere hoeveelheid gegevens zijn de prestaties meer variabel.

2. K-voudige kruisvalidaties

In een datagedreven wereld zijn er nooit genoeg data om een ​​model te trainen; bovendien verhoogt het elimineren van een deel ervan voor validatie het gevaar van Underfitting en stelt het ons bloot aan cruciale patronen en trends in onze gegevensverzameling, wat de vooringenomenheid vergroot. We zoeken dus een strategie die voldoende gegevens levert voor het trainen van het model, terwijl er voldoende gegevens overblijven voor validatiesets.

K-Fold kruisvalidatie verdeelt de gegevens in k subsets. We kunnen het beschouwen als een holdout-techniek die k keer wordt herhaald, waarbij een van de k subsets elke keer als de validatieset dient en de overige k-1 subsets als de trainingsset. De fout wordt gemiddeld over alle k-proeven om de algehele efficiëntie van ons model te bepalen.

Zoals te zien is, zal elk gegevenspunt precies één keer voorkomen in een validatieset en k-1 keer in een trainingsset. Dit helpt ons om vertekening te minimaliseren, aangezien de meeste gegevens worden gebruikt voor aanpassing en variantie, aangezien de meeste informatie ook wordt gebruikt in de validatieset.

VOORDELEN

  • Dit zal helpen bij het oplossen van het probleem met de rekenkracht.
  • Modellen worden mogelijk niet beïnvloed door de aanwezigheid van een uitbijter in de gegevens.
  • Het helpt ons het probleem van onvoorspelbaarheid te overwinnen.

NADELEN

  • Onjuist gebalanceerde datasets zullen ons model beïnvloeden.

3. Gestratificeerde K-Fold kruisvalidatie

De K Fold Cross Validation-aanpak werkt niet zoals voorspeld voor een ongebalanceerde dataset. Wanneer een gegevensset onstabiel is, is een bescheiden wijziging van de K Fold-kruisvalidatieprocedure vereist om ervoor te zorgen dat elke vouw bijna hetzelfde aantal monsters van elke uitvoerklasse heeft als de volledige. Gestratificeerde K Fold Cross-validatie omvat het gebruik van een stratum in K Fold Cross-Validation.

VOORDELEN

  • Het kan veel modellen verbeteren door middel van hyperparameteraanpassing.
  • Helpt ons bij het vergelijken van modellen.
  • Het draagt ​​bij aan het verminderen van zowel vertekening als variantie.

NADELEN

  • Uitvoering is duur.

4. Leave-P-Out kruisvalidatie

Bij deze methode sluiten we p-gegevenspunten uit van de trainingsset uit een totaal van n gegevenspunten, trainen het model vervolgens met behulp van np-monsters en valideren met behulp van p-punten. Deze procedure wordt uitgevoerd voor alle mogelijke combinaties en de fout wordt vervolgens gemiddeld.

VOORDELEN

  • Het bevat geen willekeur.
  • Bias wordt verminderd.

NADELEN

  • Dit is een complete procedure die rekenkundig onhaalbaar is.

Conclusie

In het artikel Kruisvalidatie in ML hebben we geleerd over de noodzaak van validatie in de levenscyclus van het Data Science-project, validatie en kruisvalidatie gedefinieerd, de vele soorten kruisvalidatiebenaderingen bestudeerd en enkele van hun voor- en nadelen besproken.

Ik hoop dat je dit artikel over kruisvalidaties in ML met plezier hebt gelezen. Lees meer blogs hier.

De in dit artikel getoonde media zijn geen eigendom van Analytics Vidhya en worden naar goeddunken van de auteur gebruikt. 

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?