Zephyrnet-logo

Data Science Journey Walkthrough – van beginner tot expert

Datum:

Wat is data science?

Datawetenschap is het analyseren en voorspellen van gegevens. Het is een opkomend veld. Domeinexperts van alle vakgebieden gebruiken het. Enkele van de toepassingen van datawetenschap zijn auto's zonder bestuurder, gaming-AI, filmaanbevelingen en winkelaanbevelingen. Omdat het veld zo'n breed scala aan diensten omvat, datawetenschappers kunnen een heleboel geweldige kansen in hun vakgebied vinden.

Datawetenschappers gebruiken algoritmen voor het maken van datamodellen. Deze datamodellen voorspellen uitkomsten van nieuwe data.

Datawetenschap is een van de best betaalde banen van de 21e eeuw.

Waar te beginnen?

Datawetenschap heeft kennis nodig op verschillende gebieden, waaronder statistiek, wiskunde, programmeren en het transformeren van gegevens. Dus de overweldigende vraag voor beginners is: waar te beginnen?

Dit zijn de chronologische stappen voor de data science-reis.

1. De grondbeginselen

Allereerst is het belangrijk om te begrijpen wat data science wel en niet is. Gegevenswetenschap mag niet synoniem worden gebruikt met datamining. De twee concepten overlappen elkaar, maar verschillen in veel opzichten.

Wiskunde, statistiek en programmeren zijn pijlers van datawetenschap.

Wiskunde

De volgende takken van wiskunde zijn belangrijk voor data science.


Lineaire algebra

Lineaire algebra is de studie van lineaire vergelijkingen en grafieken van lineaire vergelijkingen. Lineaire algebra is de basis voor vele andere takken van de wiskunde. Gebruik in datawetenschap lineaire algebra om de statistische grafieken te begrijpen.

Waarschijnlijkheid

Waarschijnlijkheid is de meting van de waarschijnlijkheid van gebeurtenissen. Het is de bouwsteen van statistieken. Het helpt bij het begrijpen van de statistische resultaten.

Kansverdelingen

Kansverdelingen zijn verzamelingen van alle gebeurtenissen en hun kansen. Voor het begrijpen en voorspellen van data is kennis van kansverdelingen nodig.

Statistieken

Statistiek is het begrijpen, interpreteren en presenteren van gegevens. Basiskennis van statistiek is essentieel voor data science.

Statistieken kunnen grofweg worden onderverdeeld in twee soorten:

Beschrijvende statistiek – Beschrijvende statistiek beschrijft de gegevens. Visuele grafieken vormen de kern van beschrijvende statistieken.

Inferentiële statistieken – Inferentiële statistiek is het begrijpen van de patronen in de gegevens. Een belangrijk aspect van inferentiële statistiek is het controleren of de gegevenspatronen zijn ontstaan ​​door toeval of dat de gegevenspatronen zijn ontstaan ​​door relaties tussen gegevensvariabelen.

Programmeertaal (R of Python)

Programmeerkennis is nodig voor de typische taken van het transformeren van gegevens, het maken van grafieken en het maken van gegevensmodellen.

Programmeurs kunnen beginnen met R of Python. Voor academici en domeinexperts is R de voorkeurstaal. het is overweldigend om tegelijkertijd data science-concepten en een algemene taal zoals python te leren. R is een statistische taal is een gemakkelijkere optie. Python kan later aan de vaardigheden worden toegevoegd.

2. Verkennende gegevensanalyse

Verkennende gegevensanalyse is het analyseren en begrijpen van gegevens. Gebruik voor verkennende gegevensanalyse grafieken en statistische parameters gemiddelde, gemiddelde variantie. Zowel R (ggplot2) als python (Matplotlib) hebben uitstekende grafische mogelijkheden.

3. Basisprincipes van machinaal leren

Machine learning is de wetenschap van het automatisch bouwen van modellen. Het is een tak van kunstmatige intelligentie. Bij conventioneel programmeren begrijpt de programmeur de zakelijke behoeften, gegevens en schrijft hij de logica. Terwijl bij machine learning het algoritme de gegevens begrijpt en de logica creëert.

Het leren van de verschillende categorieën van machine learning, bijbehorende algoritmen en hun prestatieparameters is de eerste stap van machine learning.

Machine learning wordt grofweg ingedeeld in drie typen:

Begeleid

Bij begeleid leren wordt een variabele voorspeld. De kolom of variabele die wordt voorspeld, is de labelvariabele.

Ongecontroleerd

Bij onbewaakt machine learning, patronen in niet-gelabelde gegevens worden geïdentificeerd.

Versterking

Bij versterkingsleren leert het algoritme zichzelf hoe een taak te voltooien. De lijst met beloningen en risico's wordt gegeven als invoer voor het algoritme. Het algoritme leidt de beste benaderingen af ​​om beloningen te maximaliseren en risico's te minimaliseren.

Semi-begeleid leren

Semi-supervised learning is een combinatie van zowel gesuperviseerde als niet-gesuperviseerde technieken. Gebruik een kleine hoeveelheid gelabelde gegevens om patronen in een grote hoeveelheid ongelabelde gegevens te identificeren.

Gesuperviseerd, niet-gesuperviseerd en semi-gesuperviseerd leren worden verder ingedeeld in vijf typen op basis van het werk van de algoritmen.

Regressie (bewaakt)

Bij regressie wordt een numerieke variabele voorspeld met behulp van andere variabelen. Gebruik regressie om de relatie tussen gegevens te begrijpen en voor voorspellingen. Voorspel bijvoorbeeld de aandelenkoers met behulp van de prijs van de vorige dag, marktbewegingen en nieuws. Een ander voorbeeld van regressie is het voorspellen van het volume van bomen met boomhoogte en boomomtrek.

Onder regressietechnieken is lineaire regressie de meest populaire techniek. Bij lineaire regressie wordt de labelvariabele uitgedrukt als een lineaire vergelijking van andere variabelen.

Classificatie (begeleid)

Bij classificatie wordt de categorie van waarneming voorspeld. Voorspel bijvoorbeeld of een student een Engels examen zou halen door de grammatica van door hem geschreven opdrachten te controleren. Evenzo kunnen we voorspellen of een film die zou worden uitgebracht een kaskraker zou zijn op basis van het genre, de filmduur, de winst van eerdere films van de regisseurs en acteurs.

Clustering (zonder toezicht)

Bij Clustering worden de gegevens in groepen verdeeld. De leden van een groep lijken op elkaar. Stel dat de regering besluit gezondheidscentra te openen die voor alle dorpen toegankelijk zijn. Door clustering op afstand toe te passen, worden de dorpen in groepen verdeeld. Het centrum van elk cluster is de optimale locatie voor het opzetten van gezondheidscentra.

De onderstaande afbeelding toont een groep clusters samen met hun middelpunten.

Detectie van afwijkingen (semi-bewaakt)

Anomaliedetectie is de identificatie van onverwachte gebeurtenissen. Een van de meest voorkomende gevallen van anomaliedetectie is het identificeren van frauduleuze kaarttransacties. Stel dat een creditcardtransactie van een Amerikaans staatsburger plaatsvindt in India. Dit is een onverwachte gebeurtenis en er wordt een rode vlag gehesen. De klantenservice van de bank kan de gebruiker bellen of een bericht sturen om de transactie te verifiëren. In het geval van een geldige reden, zoals een toeristische reis, wordt de transactie geaccepteerd of wordt deze geweigerd.

In kaart brengen van associatieregels (semi-begeleid)

Het toewijzen van associatieregels is de identificatie van gelijktijdig voorkomende patronen. In de terminologie van datawetenschap staan ​​de gelijktijdig voorkomende patronen bekend als associatieregels. E-commercetoepassingen gebruiken bijvoorbeeld toewijzing van koppelingsregels om de productgroepen te vinden die vaak samen worden gekocht. Het algoritme neemt eerdere bestellingen als invoer en voert de associatieregels uit. Wanneer een van de vaak gekochte artikelen aan de winkelwagen wordt toegevoegd, zou de e-commerce-applicatie andere producten in de groep aanbevelen. Mozzarellakaas en pizzabodems worden vaak bij elkaar gebracht. Dus wanneer een gebruiker een pizzabodem aan de winkelwagen toevoegt, wordt de mozzarella kaas aanbevolen aan de gebruiker.

Evenzo, wanneer een gebruiker een film uit een serie bekijkt, beveelt de videohostingtoepassing andere films uit de serie aan.

4. Diep leren

Deep learning is een subset van machine learning die vergelijkbaar is met het biologische brein. Gebruik deep learning wanneer het aantal variabelen (kolommen) hoog is. Deep learning wordt gebruikt voor spraakherkenning, bordspellen AI, beeldherkenning en manipulatie.

Deep learning-algoritmen gebruiken kunstmatige neurale netwerken om problemen op te lossen. De neuronen zijn gerangschikt in een groep lagen. De uitvoer van een laag fungeert als invoer voor de volgende laag.

De afbeelding hieronder toont volledig verbonden neutronen gerangschikt in een groep lagen.

5. Geavanceerd machinaal leren

Geavanceerde machine learning-technieken geven de hoogste nauwkeurigheid. Gebruik deze technieken wanneer de vereiste is om de beste nauwkeurigheid te krijgen. Het is vrij gebruikelijk om geavanceerde technieken te gebruiken in wedstrijden. Enkele van de geavanceerde machine learning-technieken zijn:

Het stimuleren van

Boosting-algoritmen werken stapsgewijs door te focussen op fouten in de vorige voorspelling. Met elke stap neemt de nauwkeurigheid van het model toe. Gebruik boosting-algoritmen wanneer de steekproefomvang groot is. Enkele van de populaire boost-algoritmen zijn adaboost, catboost en lightgbm.

Ensembleren

Bij ensembling worden de outputs van verschillende algoritmen als input genomen en samengevoegd. Een gebruiker maakt bijvoorbeeld een machine learning-model en een deep learning-model voor hetzelfde probleem. De outputs van beide modellen worden samengevoegd om de uiteindelijke output te geven.

Over het algemeen geeft ensembling meer nauwkeurigheid dan individuele algoritmen. Enkele van de meest voorkomende ensembling-technieken zijn het middelen van outputs, het selecteren van de meest herhaalde output en het toepassen van opschepperij op outputs.

Hieronder is een voorbeeld van ensembling met behulp van de techniek van het selecteren van de meest herhaalde uitvoer.

6. Complementaire vaardigheden

Naast datawetenschap zijn er andere gerelateerde vaardigheden nodig om aan datawetenschapsprojecten te werken. Vaardigheden waar veel vraag naar is voor datawetenschapsfuncties zijn big data (spark), geen sql (mongo db) en cloud computing. Populaire opties onder cloud computing zijn Amazon-webservices, Google Cloud en Microsoft Azure.

7. Gebruik gevallen van datawetenschap.

Het is belangrijk om te leren hoe data science wordt gebruikt in real-world scenario's. Leer wanneer je welke techniek moet gebruiken. Door de bestaande use-cases te leren, krijgt de datawetenschapper een idee van hoe nieuwe use-cases kunnen worden opgelost.

Enkele van de populaire use-cases van data science zijn:

Tijdreeksen

Tijdreeksen zijn gegevens die zijn toegewezen aan de tijd. In de datawetenschap zijn verschillende technieken beschikbaar om tijdreeksen te begrijpen en te voorspellen. Tijdreekstechnieken geven goede voorspellingen voor seizoensgegevens. Gebruik bijvoorbeeld tijdreeksen voor voorspelling van getijden, verkoopvoorspelling en voorspelling van aandelenkoersen. Enkele van de populaire technieken voor het voorspellen van tijdreeksen zijn arima-modellen, exponentiële afvlakking en profeetbibliotheek van Facebook.

Hieronder zijn gegevens en een grafiek van het aantal vliegtuigreizigers in duizenden in kaart gebracht in de tijd. Uit de grafiek blijkt dat het aantal reizigers piekt van juni tot augustus. Omdat de gegevens seizoensgebonden zijn, zijn tijdreekstechnieken een goede optie om het aantal passagiers in de toekomst te voorspellen.

Natuurlijke taalverwerking (NLP)

Natuurlijke taalverwerking creëert logica voor het begrijpen van menselijke talen. In sommige gevallen reageert het algoritme in menselijke taal. Het gaat om zowel tekst- als spraakgegevens. Enkele voorbeelden van natuurlijke taalverwerking zijn directe vertaling, geautomatiseerde virtuele assistenten (Siri, Alexa), grammaticacontrole, autocorrectie en automatisch aanvullen.

Sentiment analyse

Sentimentanalyse is het bepalen van de houding en emotie in tekst. Een algoritme zou bijvoorbeeld de tweets van producten lezen en deze in drie groepen indelen: positief, neutraal en negatief. Het bedrijf kan de schadebeperking beperken door direct te focussen op de negatieve opmerkingen. Evenzo zou het bedrijf weten welke functies het meest geliefd zijn bij klanten.

Het is gebruikelijk om machine learning-technieken te koppelen aan big data voor sentimentanalyse. Gegevens van sociale media en nieuwspagina's worden gelezen met big data-tools en gegeven als input voor algoritmen voor sentimentanalyse. Tegenwoordig zijn algoritmen voor sentimentanalyse geavanceerd genoeg om sarcasme te begrijpen.

Hieronder vindt u een eenvoudig voorbeeld van sentimentanalyse.

Beeldherkenning

Beeldherkenning is het identificeren van kenmerken in afbeeldingen. Enkele voorbeelden van beeldherkenning zijn het lezen van tekst uit afbeeldingen, het identificeren van objecten in afbeeldingen en gezichtsherkenning. Facebook- en Google-foto's identificeren mensen uit afbeeldingen en bevelen tags aan. Gebruik deep learning-technieken voor beeldherkenning.

Voor voorbeelden van het lezen van tekst is de meest voorkomende dataset MNIST. De MNIST-dataset bevat foto's van het handschrift van Amerikaanse studenten. Hieronder ziet u een screenshot van de MNIST-dataset.

Fashion MNIST is een andere populaire dataset voor beeldherkenning. Het bevat foto's van tien kledingstukken, waaronder schoenen, broeken, tassen. Hieronder ziet u een screenshot van de fashion MNIST-dataset.

8. Bouwprofiel

Het is tijd om uw datawetenschapsvaardigheden te demonstreren.

Verdien Kaggle-medailles

Doe mee aan kaggle-wedstrijden. Kaggle kent medailles toe voor wedstrijdscores, deelname aan discussies en het publiceren van codenotitieboekjes. Notebooks die meer dan vijf stemmen krijgen, krijgen een bronzen medaille. Kaggle-medailles worden vereerd door collega-datawetenschappers en datawetenschapsbedrijven.

Hieronder is een afbeelding met een kaggle-profiel samen met medailles en stemmen.

Artikelen publiceren

Publiceren geeft zichtbaarheid en herkenning. Van datawetenschappers wordt verwacht dat ze met andere teams communiceren over hun vondsten in data. Communicatie is een van de belangrijkste principes van datawetenschapsfuncties. Publiceren en seminars zijn de beste manieren om communicatieve vaardigheden te demonstreren.

Gepubliceerde artikelen zijn een mooie aanvulling op het cv. Publiceren helpt bij het vinden van vacatures, met name voor senior posities.

CV maken

Een goed cv vergroot het aantal kansen. Het moet een duidelijke doelstelling en relevante projecten hebben. Markeer de technische problemen waarmee u bent geconfronteerd en hoe u deze hebt opgelost. Beschrijf hoe uw data science-werk de bedrijfsstroom heeft verbeterd.

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://www.smartdatacollective.com/data-science-journey-walkthrough-from-beginner-to-expert/

spot_img

Laatste intelligentie

spot_img