Zephyrnet-logo

5 Machine Learning-modellen uitgelegd in 5 minuten

Datum:

5 Machine Learning-modellen uitgelegd in 5 minuten
Afbeelding door auteur
 

Machine learning is een type computeralgoritme dat machines helpt te leren zonder dat expliciete programmering nodig is.

Tegenwoordig zien we overal toepassingen van machinaal leren: in navigatiesystemen, filmstreamingplatforms en e-commercetoepassingen.

Vanaf het moment dat u 's ochtends opstaat tot het moment dat u naar bed gaat, heeft u waarschijnlijk met tientallen machine learning-modellen te maken gehad zonder dat u het zich realiseerde.

De machine learning-industrie zal naar verwachting tussen 36 en 2024 met ruim 2030% groeien.

Aangezien bijna elke grote organisatie actief investeert in AI, profiteert u alleen maar van het aanscherpen van uw machine learning-vaardigheden.

Of u nu een data science-liefhebber, ontwikkelaar of een gewoon persoon bent die uw kennis over dit onderwerp wil verbeteren, hier zijn 5 veelgebruikte machine learning-modellen die u moet kennen:
 

1. Lineaire regressie

 
Lineaire regressie is het populairste machine learning-model dat wordt gebruikt om kwantitatieve taken uit te voeren.

Dit algoritme wordt gebruikt om een ​​continue uitkomst (y) te voorspellen met behulp van een of meer onafhankelijke variabelen (X).

U zou bijvoorbeeld lineaire regressie gebruiken als u de taak krijgt huizenprijzen te voorspellen op basis van hun omvang.

In dit geval is de huisgrootte uw onafhankelijke variabele X, die zal worden gebruikt om de huizenprijs, de onafhankelijke variabele, te voorspellen.

Dit wordt gedaan door een lineaire vergelijking toe te passen die de relatie tussen X en y modelleert, weergegeven door y=mX+c.

Hier is een diagram dat een lineaire regressie weergeeft die de relatie tussen de huizenprijs en de omvang ervan modelleert:
 

Visuele weergave van lineaire regressie
Afbeelding door auteur
 

Leermiddel

Om meer te leren over de intuïtie achter lineaire regressie en hoe het wiskundig werkt, raad ik aan om te kijken De YouTube-tutorial van Krish Naik over het onderwerp.
 

2. Logistieke regressie

 
Logistische regressie is een classificatiemodel dat wordt gebruikt om een ​​discrete uitkomst te voorspellen op basis van een of meer onafhankelijke variabelen.

Gegeven het aantal uitsluitingszoekwoorden in een zin kan logistische regressie bijvoorbeeld worden gebruikt om te voorspellen of een bepaald bericht als legitiem of als spam moet worden geclassificeerd.

Hier is een grafiek die laat zien hoe logistische regressie werkt:
 

Visuele weergave van de logistieke curve
Afbeelding door auteur
 

Merk op dat, in tegenstelling tot lineaire regressie die een rechte lijn vertegenwoordigt, logistieke regressie wordt gemodelleerd als een S-vormige curve.

Zoals aangegeven in de bovenstaande curve, neemt naarmate het aantal uitsluitingszoekwoorden toeneemt, ook de kans toe dat het bericht als spam wordt geclassificeerd.

De x-as van deze curve vertegenwoordigt het aantal uitsluitingszoekwoorden, en de y-as toont de waarschijnlijkheid dat de e-mail spam is.

Bij logistieke regressie duidt een waarschijnlijkheid van 0.5 of groter doorgaans op een positief resultaat. In deze context betekent dit dat het bericht spam is.

Omgekeerd duidt een waarschijnlijkheid van minder dan 0.5 op een negatieve uitkomst, wat betekent dat het bericht geen spam is.

Leermiddel

Als je meer wilt weten over logistische regressie, StatQuest's logistische regressie-tutorial is een geweldige plek om te beginnen.
 

3. Beslisbomen

 
Beslissingsbomen zijn een populair machine learning-model dat wordt gebruikt voor zowel classificatie- als regressietaken.

Ze werken door de dataset op te splitsen op basis van de kenmerken ervan, waardoor een boomachtige structuur ontstaat om deze gegevens te modelleren.

Simpel gezegd stellen beslissingsbomen ons in staat om gegevens voortdurend te splitsen op basis van specifieke parameters totdat er een definitieve beslissing is genomen.

Hier is een voorbeeld van een eenvoudige beslissingsboom die bepaalt of iemand op een bepaalde dag ijs moet eten:
 

Visuele weergave van beslissingsbomen
Afbeelding door auteur
 

  • De boom begint met het weer en geeft aan of het bevorderlijk is om ijs te eten.
  • Als het warm weer is, ga je naar het volgende knooppunt, gezondheid. Anders is de beslissing nee en zijn er geen splitsingen meer.
  • Bij het volgende knooppunt kan de persoon, als hij gezond is, het ijsje eten. Anders moeten ze dit niet doen.

Merk op hoe de gegevens zich op elk knooppunt in de beslissingsboom splitsen, waardoor het classificatieproces wordt opgedeeld in eenvoudige, beheersbare vragen.

Je kunt een soortgelijke beslissingsboom tekenen voor regressietaken met een kwantitatieve uitkomst, en de intuïtie achter het proces zou hetzelfde blijven.

Leermiddel

Voor meer informatie over beslisbomen raad ik aan om te kijken StatsQuest's video-tutorial over het onderwerp.
 

4. Willekeurige bossen

 
Het willekeurige bosmodel combineert de voorspellingen van meerdere beslissingsbomen en retourneert één enkele uitvoer.

Intuïtief zou dit model beter moeten presteren dan een enkele beslissingsboom, omdat het gebruik maakt van de mogelijkheden van meerdere voorspellende modellen.

Dit gebeurt met behulp van een techniek die bekend staat als bagging of bootstrap-aggregatie.

Zo werkt het inpakken:

Een statistische techniek genaamd bootstrap wordt gebruikt om de dataset meerdere keren te bemonsteren met vervanging.

Vervolgens wordt op elke voorbeeldgegevensset een beslissingsboom getraind. De uitvoer van alle bomen wordt uiteindelijk gecombineerd om één enkele voorspelling te maken.

In het geval van een regressieprobleem wordt de uiteindelijke output gegenereerd door het middelen van de voorspellingen van elke beslissingsboom. Voor classificatieproblemen wordt een meerderheidsklassevoorspelling gedaan.

Leermiddel
Je kan kijken Krish Naik's tutorial over willekeurige bossen om meer te leren over de theorie en intuïtie achter het model.
 

5. K-betekent clustering

 
Tot nu toe vallen alle machine learning-modellen die we hebben besproken onder de paraplu van een methode die begeleid leren wordt genoemd.

Begeleid leren is een techniek die een gelabelde dataset gebruikt om algoritmen te trainen om een ​​uitkomst te voorspellen.

Leren zonder toezicht is daarentegen een techniek die zich niet bezighoudt met gelabelde gegevens. In plaats daarvan identificeert het patronen in gegevens zonder te worden getraind in de specifieke uitkomsten waarnaar moet worden gezocht.

K-Means-clustering is een leermodel zonder toezicht dat in wezen ongelabelde gegevens opneemt en elk gegevenspunt aan een cluster toewijst.

De waarnemingen behoren tot het cluster met het dichtstbijzijnde gemiddelde.

Hier is een visuele weergave van het K-Means-clustermodel:
 

Visuele weergave van K-Means Clustering
Afbeelding door auteur
 

Merk op hoe het algoritme elk datapunt in drie afzonderlijke clusters heeft gegroepeerd, elk weergegeven door een andere kleur. Deze clusters zijn gegroepeerd op basis van hun nabijheid tot het zwaartepunt, aangegeven door een rode X-markering.

Simpel gezegd: alle datapunten binnen Cluster 1 hebben vergelijkbare kenmerken en zijn daarom gegroepeerd. Hetzelfde principe geldt voor Clusters 2 en 3.

Wanneer u een K-Means-clustermodel bouwt, moet u expliciet het aantal clusters opgeven dat u wilt genereren.

Dit kan worden bereikt met behulp van een techniek die de elleboogmethode wordt genoemd, waarbij eenvoudigweg de foutscores van het model met verschillende clusterwaarden in een lijndiagram worden weergegeven. Vervolgens kiest u het buigpunt van de curve, of de ‘elleboog’, als het optimale aantal clusters.

Hier is een visuele weergave van de elleboogmethode:
 

Visuele weergave van de elleboogmethode
Afbeelding door auteur
 

Merk op dat het buigpunt van deze curve zich op de 3-clustermarkering bevindt, wat betekent dat het optimale aantal clusters voor dit algoritme 3 is.

Leermiddel

Als je meer wilt weten over dit onderwerp, heeft StatQuest een
8minuut video dat verklaart duidelijk de werking achter K-Means-clustering.

Volgende stappen

 
De machine learning-algoritmen die in dit artikel worden uitgelegd, worden vaak gebruikt in branchebrede toepassingen zoals prognoses, spamdetectie, goedkeuring van leningen en klantsegmentatie.

Als je het tot hier hebt kunnen volgen: gefeliciteerd! Je hebt nu een goed inzicht in de meest gebruikte voorspellende algoritmen en hebt de eerste stap gezet om je op het gebied van machinaal leren te begeven.

Maar de reis eindigt hier niet.

Om uw begrip van machine learning-modellen te versterken en deze toe te passen op toepassingen in de echte wereld, raad ik aan een programmeertaal zoals Python of R te leren.

Freecodecamp's Python voor beginners cursus
cursus is een prima startpunt. Als je merkt dat je vastloopt in je programmeerreis, heb ik een YouTube-video waarin wordt uitgelegd hoe u helemaal opnieuw kunt leren coderen.

Zodra u leert coderen, kunt u deze modellen in de praktijk implementeren met behulp van bibliotheken als Scikit-Learn en Keras.

Om uw vaardigheden op het gebied van datawetenschap en machine learning te verbeteren, raad ik u aan een leertraject op maat voor uzelf te creëren met behulp van generatieve AI-modellen zoals ChatGPT. Hier vindt u een gedetailleerder stappenplan om u op weg te helpen met het gebruik ervan ChatGPT om datawetenschap te leren.

 
 

Natasha Selvaraj is een autodidactische datawetenschapper met een passie voor schrijven. Natassha schrijft over alles wat met data science te maken heeft, een echte meester in alle dataonderwerpen. Je kunt contact met haar opnemen via LinkedIn of bekijk haar Youtube kanaal.

spot_img

Laatste intelligentie

spot_img