7 stappen om machine learning onder de knie te krijgen met Python in 2022

Originele foto door Hitesh Choudhary op Unsplash

Introductie

Probeer je jezelf machine learning vanaf het begin te leren, maar weet je niet waar je moet beginnen? Of misschien heb je een of twee online cursussen gevolgd, maar ben je tijdens je leertraject op een wegversperring gestuit en weet je niet hoe je verder moet.

Twee jaar geleden zat ik in een soortgelijke situatie. Ik had meer dan $ 25K aan universiteitsgeld uitgegeven, maar was nog steeds onervaren en niet voorbereid op de arbeidsmarkt.

Het kostte me veel vallen en opstaan om met een machine learning roadmap te komen. Ik bekeek online cursussen, YouTube-video's en downloadde talloze e-books. De kennis die ik online opdeed overtrof alles wat ik op de universiteit leerde. En het beste deel - het kwam voor een fractie van de kosten!

In dit artikel zal ik proberen alle bronnen die ik in de loop der jaren heb gebruikt samen te vatten in 7 stappen die je kunt volgen om jezelf machine learning te leren.

Stap 1: Leer programmeren voor machine learning

Je moet een praktische kennis van programmeren hebben voordat je in machine learning duikt. De meeste datawetenschappers gebruiken Python of R om ML-modellen te bouwen.

Ik begon met Python, omdat het een programmeertaal voor algemene doeleinden is en er meer vraag naar is dan R.

Python-vaardigheden zijn ook overdraagbaar naar verschillende domeinen, dus het zou gemakkelijker zijn om de overstap te maken als je in de toekomst zou uitbreiden naar gebieden zoals webontwikkeling of data-analyse.

De 2022 Volledige Python Bootcamp cursus door Jose Portilla is een geweldige introductie tot Python als je nieuw bent in programmeren. Deze cursus is op Udemy en ze bieden vaak promoties die de cursusprijzen kunnen verlagen tot slechts $ 10. Het is een goed idee om op een van deze promoties te wachten voordat u een aankoop doet.

Een ander voordeel van het volgen van deze cursus is dat deze volledig wordt gegeven met behulp van een Jupyter Notebook. Dit is de meest populaire Python IDE die wordt gebruikt door datawetenschappers, en Jose zal je vertrouwd maken met de interface, zodat je geen tijd hoeft te besteden aan het zelf leren ervan.

Als je echter gratis alternatieven voor de bovenstaande cursus wilt, raad ik je het volgende aan:

Jupyter Notebook-zelfstudie: inleiding, installatie en uitleg — Deze cursus helpt u vertrouwd te raken met de interface van Jupyter.
Leer Python: volledige cursus voor beginners [Tutorial] — Deze cursus neemt je mee door de basisprincipes van Python-programmering, zoals variabelen, gegevenstypen, functies, voorwaardelijke instructies en loops. Het wordt aangeleerd met behulp van de Pycharm IDE, maar u kunt in plaats daarvan een Jupyter Notebook gebruiken.
Python voor Iedereen — Dit is een e-book dat u gratis kunt downloaden. Dit boek is niet zoals elke andere Python-tutorial die je online vindt. Het laat je kennismaken met programmeerconcepten door de lens van het oplossen van dataproblemen, waardoor het een ideaal boek is voor aspiranten op het gebied van datawetenschap.

Zodra je de basis van Python onder de knie hebt, kun je deze concepten toepassen om problemen op te lossen. Ik heb nooit goed leren coderen ondanks het behalen van een 3-jarige bachelor in informatica, en dat komt omdat ik de concepten die ik heb geleerd nooit op echte problemen heb toegepast.

Hierdoor had ik een theoretisch begrip van hoe te coderen, maar miste ik het vermogen om een probleem op te lossen en een oplossing te coderen.

Een hulpmiddel dat hielp bij het verbeteren van mijn probleemoplossende vaardigheden was: HackerRank. HackerRank is een platform dat gebruikers een reeks programmeeruitdagingen biedt met verschillende moeilijkheidsgraden. Probeer minstens 2-3 HackerRank-problemen per dag op te lossen. Begin met de gemakkelijkste en verhoog de moeilijkheidsgraad naarmate je verder gaat.

Als je ooit vastloopt op een probleem, kun je altijd verwijzen naar de oplossing van iemand anders om te begrijpen hoe ze het hebben opgelost. Probeer vervolgens hun denkproces te repliceren met uw eigen code.

Terwijl je deze oefenproblemen blijft doen, zul je meer vertrouwen krijgen in je vermogen om te coderen.

U kunt dan doorgaan naar de volgende stap: leren werken met gegevens in Python.

Stap 2: Gegevensverzameling en voorverwerking in Python

Nu u weet hoe u in Python moet coderen, kunt u beginnen met het verzamelen en voorverwerken van gegevens.

Een ding dat me is opgevallen aan de meeste beginners in de datawetenschapsindustrie, is dat ze meteen beginnen met het onder de knie krijgen van machine learning. Ze leggen niet veel nadruk op het verzamelen of analyseren van gegevens, wat op zichzelf een aparte vaardighedenset is.

Hierdoor hebben ze vaak moeite op de werkplek wanneer ze worden gevraagd om taken uit te voeren zoals sourcing voor gegevens van derden of het voorbereiden van gegevens voor machine learning-modellering.

Hier zijn enkele cursussen die ik aanbeveel voor het uitvoeren van de bovenstaande taken. Ik zal ook gratis alternatieven bieden die u in plaats daarvan kunt kiezen.

Gegevensverzameling — Veel bedrijven hebben externe gegevensverzameling nodig om hun datawetenschapsworkflows te ondersteunen. U kunt API's gebruiken om deze gegevens te verzamelen of helemaal opnieuw webschrapers te maken, afhankelijk van het type taak dat aan u is toegewezen. De Webscraping en API-grondbeginselen cursus van 365datascience leert je om webdata te verzamelen in Python. Als je een gratis alternatief wilt, raad ik aan om mee te coderen met de Python API tutorial, gevolgd door de Python-webschrapen zelfstudie over Dataquest.
Voorbewerking van gegevens — De gegevens die u verzamelt, kunnen in veel verschillende formaten aanwezig zijn. U moet deze gegevens kunnen omzetten in een indeling die kan worden opgenomen door modellen voor machine learning. Dit wordt over het algemeen gedaan met behulp van een Python-bibliotheek genaamd Pandas, en het is een goed idee om deze bibliotheek goed te begrijpen voordat u begint met het leren van ML-modellering. Om te beginnen, kun je dit nemen Voorverwerking van gegevens met Panda's cursus aangeboden door 365datascience. Als je een alternatief wilt voor de bovenstaande cursus, kun je een gratis YouTube-video bekijken met de titel Inleiding tot gegevensvoorverwerking met Python.

Stap 3: Gegevensanalyse in Python

Vervolgens is het een goed idee om te beginnen met het leren van data-analyse met Python. Data-analyse is het proces van het identificeren van patronen in grote hoeveelheden data en het ontdekken van inzichten die waarde toevoegen.

Voordat u een machine learning-model maakt, moet u de gegevens begrijpen waarmee u te maken hebt. Kijk naar de relaties tussen verschillende variabelen in je dataset. Welke informatie vertelt de ene variabele je over de andere? Kunt u aanbevelingen doen op basis van de inzichten die u binnen de dataset ontdekt?

Ik raad aan om een cursus te volgen met de titel Leer Python voor gegevensanalyse en -visualisatie, ook door Jose Portilla, om je vaardigheden op dit gebied aan te scherpen.

Er zijn vier bibliotheken in Python die voornamelijk worden gebruikt voor gegevensanalyse: Pandas, Numpy, Matplotlib en Seaborn. In de cursus van Jose leer je gegevens te analyseren met behulp van al deze bibliotheken. Het beste van deze cursus is dat hij voorbeeldprojecten bevat die vergelijkbaar zijn met voorbeelden die u in de echte wereld zult tegenkomen.

Als u op zoek bent naar gratis alternatieven, kunt u FreeCodeCamp's nemen Gegevensanalyse met Python cursus, of download de Verkennende gegevensanalyse met Python e-boek.

Afbeelding van de Scikit-leer documentatie

Stap 4: Machine learning met Python

Eindelijk kun je beginnen met machine learning te leren! Ik raad altijd aan om een top-down benadering te gebruiken als het gaat om het leren van ML.

In plaats van de theorie en diepgaande werking van machine learning-modellen te leren, begin je met een implementatie-eerst-aanpak.

Leer Python-pakketten te gebruiken om eerst voorspellende modellen te bouwen. Voer modellen uit op real-world datasets en observeer de output. Als je eenmaal een idee hebt hoe machine learning er in de praktijk uitziet, kun je dieper in de werking van elk algoritme duiken.

Python voor datawetenschap en machine learning is een geweldige cursus die u kunt volgen om de implementatie van ML-modellen in Python te leren. Nogmaals, dit wordt gegeven door Jose Portilla, en een van de beste inleidende cursussen voor machinaal leren die ik ooit heb gevolgd.

Jose leidt je door de end-to-end workflow voor machine learning. Je leert ML-modellen bouwen, trainen en evalueren in Python met behulp van een bibliotheek genaamd Scikit-Learn.

Jose zal je helpen met machine learning-concepten zonder in overweldigende details te gaan, waardoor het een geweldige introductiecursus is om mee te beginnen.

FreeCodeCamp's Machine Learning met Scikit-Learn cursus is een geweldig gratis alternatief voor de bovenstaande cursus. Als je liever leest, kun je een gratis e-book downloaden met de titel Machine learning-systemen bouwen met Python. Dit is een kort, praktisch leerboek dat je een heleboel praktische voorbeelden zal geven zonder te diep in de werking van elk algoritme te duiken.

Stap 5: Machine learning-algoritmen in de diepte

Als je eenmaal een idee hebt van de verschillende modellen en hoe ze worden geïmplementeerd, kun je beginnen met het leren van de onderliggende algoritmen achter deze modellen.

Ik stel hiervoor twee bronnen voor:

Statistisch leren — edX: deze cursus geeft je een diepgaand inzicht in hoe verschillende algoritmen voor machine learning werken. Er wordt in deze cursus minder vertrouwd op complexe wiskundige formules, waardoor het makkelijker te volgen is als je geen wiskundige achtergrond hebt.

Deze cursus behandelt gesuperviseerde en niet-gesuperviseerde machine learning-technieken, zoals lineaire regressie, logistische regressie, lineaire discriminantanalyse, K-Means-clustering en hiërarchische clustering. De instructeurs behandelen ook concepten zoals kruisvalidatie en regularisatie om overfitting van het model te voorkomen - wat handig zal zijn bij het werken met real-world datasets.

Sommige van de praktische colleges in deze cursus worden gegeven in R, die u gerust kunt overslaan, aangezien de belangrijkste toegevoegde waarde van de cursus de theoretische stof is.

Deze cursus is gebaseerd op een boek geschreven door zijn instructeurs genaamd Een inleiding tot statistisch leren. Dit is ook een bron met codevoorbeelden geschreven in R. Ik vond echter een: GitHub-repository dat alle codevoorbeelden naar Python vertaalt, zodat je in plaats daarvan het boek en de code kunt lezen met de Python-voorbeelden.

Alle bovenstaande bronnen zijn gratis verkrijgbaar. Hoewel edX-cursussen kosten met zich meebrengen, kunt u financiële steun aanvragen om vrijgesteld te worden van het cursusgeld. Bovenstaand e-book kunt u ook gratis downloaden.

In deze afspeellijst heeft hij video's die de leerling door de wiskundige intuïtie achter verschillende machine learning-modellen leiden. Hij legt het onderliggende algoritme uit achter lineaire en logistische regressie, concepten als bagging en boosting, en leertechnieken zonder toezicht zoals K-means en hiërarchische clustering.

Net als bij de cursus Statistical Learning legt hij dit allemaal niet uit met complexe wiskundige notatie. In plaats daarvan legt hij de werking van elk algoritme uit in gewoon Engels, zodat het gemakkelijk kan worden begrepen door leerlingen met verschillende achtergronden.

Afbeelding door Geralt op Pixabay

Stap 6: Diep leren

Tot nu toe waren alle bovenstaande bronnen gericht op traditionele algoritmen voor machine learning, of 'ondiepe leeralgoritmen'. U kunt nu beginnen met het leren van een andere klasse van machine learning-algoritmen: deep learning.

Deep learning-algoritmen zijn in staat representaties in gegevens te identificeren met weinig tot geen feature-engineering. Deep learning-algoritmen zijn in staat representaties in gegevens te identificeren en er direct kenmerken van af te leiden. Daarom wordt deep learning vaak gebruikt om gegevens te verwerken die geen expliciete functies hebben, zoals beeld-, spraak- en tekstgegevens.

Er zijn twee bronnen die ik aanraad om aan de slag te gaan met diep leren:

Andrew Ng's Deep Learning-specialisatie — Coursera: dit is een van de meest populaire online bronnen om deep learning te leren. Andrew Ng zal je leren neurale netwerken te bouwen en te trainen, en deep learning-technieken toe te passen op beeld- en tekstgegevens. Coursera brengt een maandelijks bedrag in rekening wanneer je je inschrijft voor een cursus, en ze zullen je een certificaat bezorgen zodra je deze hebt voltooid. U kunt er echter voor kiezen om deze cursus te auditen en al het cursusmateriaal gratis te krijgen.
Diep leren met Python — Dit is mijn favoriete bron voor diep leren die er is. Dit leerboek leidt je door de theorie en implementatie van deep learning-modellen. Nogmaals, de auteur van dit boek gaat ervan uit dat de lezer geen wiskundige achtergrond heeft, en alle concepten worden uitgelegd in gewoon Engels. Ik gaf de voorkeur aan dit boek boven de deep learning-cursus van Andrew Ng, omdat er meer praktijkvoorbeelden en Python-code werden gegeven. Ik was in staat om wat ik heb geleerd toe te passen op projecten in het echte leven, in vergelijking met de cursus van Andrew Ng, die zeer theoretisch was.

Stap 7: Projecten

De laatste stap: projecten bouwen!

Hierboven staat veel materiaal. Als je er niets van toepast op echte projecten, vergeet je wat je hebt geleerd. U kunt concepten uit het hoofd leren, certificeringen verzamelen en zoveel examens afleggen als u wilt. Maar je leert pas echt als je begint te bouwen.

Here is een artikel met een compilatie van machine learning-projecten die zijn gemaakt door andere datawetenschappers, met broncode ter referentie. U kunt met sommige van deze projecten meecoderen en er kleine wijzigingen in aanbrengen, voordat u uw eigen project helemaal opnieuw begint.

Hier zijn nog een paar bronnen die ik heb gevonden en die u op weg kunnen helpen:

Jezelf machine learning aanleren kan tijdrovend en overweldigend zijn. Het is echter ook een zeer dankbare reis. Elke keer dat u een nieuw concept leert of een probleem oplost waarvan u dacht dat het niet mogelijk was, bent u een stap dichter bij het bereiken van uw doel van machine learning-vaardigheid.

Natasha Selvaraj is een autodidactische datawetenschapper met een passie voor schrijven. Je kunt contact met haar opnemen op LinkedIn.

Generatieve data-intelligentie

7 stappen om machine learning onder de knie te krijgen met Python in 2022

Introductie

Stap 1: Leer programmeren voor machine learning

Stap 2: Gegevensverzameling en voorverwerking in Python

Stap 3: Gegevensanalyse in Python

Stap 4: Machine learning met Python

Stap 5: Machine learning-algoritmen in de diepte

Stap 6: Diep leren

Stap 7: Projecten

Hoe grote trends in de computertechnologie de wetenschap vormgeven – deel twee » CCC Blog

Geschiedenis: DEA stemt ermee in om marihuana naar Schedule III te verplaatsen

Laatste intelligentie

Zondagavond Berwick-verkeersstop wegens te hard rijden eindigt in marihuana-arrestatie - Medical Marijuana Program Connection

De groei van realtime betalingen in opkomende markten

Ontbrekende gammastraling doet twijfel rijzen over de oorsprong van kosmische straling – Physics World

RIV Capital rapporteert financiële resultaten voor het fiscale kwartaal en de negen maanden

Grown Rogue Reports gecontroleerde financiële resultaten

Een overzicht van geautomatiseerde methoden voor het vastleggen van gegevens