Zephyrnet-logo

Hoe u een datawetenschapper wordt

Datum:

Een worden data scientist vereist niet per se een masterdiploma. Er is een aanzienlijk tekort aan datawetenschappers en sommige werkgevers nemen graag mensen aan die geen diploma hebben, maar wel de nodige ervaring hebben.

De meeste datawetenschappers in dienst hebben een masterdiploma, maar ruim 25% niet. Als je de ervaring hebt, is een diploma geen absolute noodzaak om als datawetenschapper aan de slag te gaan. (Als je echt goed bent in statistiek, is dit misschien een baan voor jou. Als je van nature niet goed bent in statistiek, is dit waarschijnlijk geen baan voor jou.)

GEBRUIK ANALYTICS EN MACHINE LEREN OM BEDRIJFSPROBLEMEN OP TE LOSSEN

Leer nieuwe analyse- en machine learning-vaardigheden die u direct kunt toepassen met ons online trainingsprogramma.

Data wetenschappers verwerken van grote hoeveelheden gegevens, vaak met als doel de winst van een bedrijf te vergroten. Idealiter heeft een datawetenschapper een goed begrip van statistiek en statistisch redeneren, computertalen en zaken. Ze verwerken en analyseren grote hoeveelheden gegevens om nuttige, zinvolle informatie te verstrekken aan hun werkgevers.

Deze interpretaties worden gebruikt voor de besluitvorming. Om deze informatie te verstrekken, werken datawetenschappers vaak met rommelige, ongestructureerde gegevens, afkomstig van e-mails, sociale media en slimme apparaten. Ze werken voornamelijk met big data, het verzamelen en analyseren van grote hoeveelheden ongestructureerde en gestructureerde gegevens.

Statistieken

Gegevens kunnen worden beschouwd als onbewerkte informatie, waarbij gegevenswetenschappers een combinatie van computeralgoritmen en statistische formules gebruiken om trends en patronen in de gegevens te vinden. Vervolgens interpreteren ze die patronen en passen ze toe op situaties in de echte wereld.

Er zijn heel veel statistische technieken beschikbaar, en een datawetenschapper moet de meeste onderzoeken en vinden geschikte statistische formules voor de situatie. Hieronder vindt u enkele zeer basale statistische technieken die een datawetenschapper zou moeten begrijpen en die een basis bieden voor begrip voor andere statistische technieken:

  • Basisstatistieken: Het meest basisconcepten in statistieken voor Data Science omvatten waarschijnlijkheid, variabiliteit, centrale tendens en kansverdeling.
  • Kansverdeling: Deze geeft de kans van een resultaat dat voorkomt uit een reeks van mogelijke uitkomsten. Weersvoorspellingen geven een mooi voorbeeld van kansverdelingen, bijvoorbeeld een berekening van de kans dat het de komende drie dagen gaat regenen.
  • Dimensie reductie: Het kan verminder het aantal van willekeurige variabelen door middel van "functieselectie" en "functie-extractie". Dit proces vereenvoudigt datamodellen en zal het proces van het werken met algoritmen stroomlijnen.
  • Over en onder bemonstering: Bemonsteringstechnieken worden gebruikt wanneer er te veel gegevens worden gebruikt voor classificatiedoeleinden. Algoritmen voor datamining hebben vaak beperkingen aan de hoeveelheid gegevens die ze kunnen analyseren.
  • Bayesiaanse statistieken: A techniek die toewijst "graden van geloof", ook bekend als Bayesiaanse waarschijnlijkheden, naar statistische modellen. Waarschijnlijkheden worden berekend door de "redelijke verwachting" van een gebeurtenis die zich voordoet, die de omstandigheden en/of het gedrag van mensen zal beïnvloeden, mee te nemen. Zo zouden de voorspellingen of minstens 150 klanten de komende zes maanden elke zondag een restaurant zullen bezoeken, worden beïnvloed door een nabijgelegen kunsttentoonstelling op zondag die over een paar weken begint. Het opnemen van deze informatie met historische gemiddelden zou een vorm van Bayesiaanse statistiek zijn.

Programmeertalen

Er is een grote verscheidenheid aan programmeertalen die nuttig zijn voor Data Science. Programmeertalen zijn formele talen die bestaan ​​uit instructies die verschillende soorten uitvoer van een computer produceren. Ze worden gebruikt in computerprogramma's om algoritmen uit te voeren. Een datawetenschapper zou ten minste één programmeertaal moeten hebben geleerd en onder de knie moeten hebben - het beheersen van twee of drie zou nog beter zijn.

Python

Het wordt beschouwd door velen beschouwd als de meest populaire Data Science-programmeertaal die tegenwoordig wordt gebruikt. Python is een taal voor algemene doeleinden die: Objectgeoriënteerde en gemakkelijk te gebruiken. Het is een open-sourcetaal en werd in 1991 gebruikt.

Python ondersteunt meerdere paradigma's, variërend van gestructureerd tot procedureel tot functioneel programmeren. Het is schaalbaarder dan veel talen en heeft een enorme variëteit aan Data Science-bibliotheken beschikbaar voor gebruik.

Omdat Python open-source is, wordt het geleverd met een behoorlijke hoeveelheid steun van enthousiastelingen en blijft het evolueren. Het is gemakkelijk te leren en er is veel vraag naar ervaring met Python. (Python is vernoemd naar de Britse “Monty Python” komediegroep.)

Python kan worden gebruikt voor een grote verscheidenheid aan toepassingen, zoals machine learning, kunstmatige intelligentie en financiële diensten. Verschillende websites zoals Google, Instagram, Pinterest en Netflix gebruiken Python. (Python werkt niet goed voor het ontwikkelen van mobiele applicaties.)

JavaScript

Deze programmeertaal is enorm populair voor het bouwen van interactieve websites. Het is een objectgeoriënteerde programmeertaal die populair is bij datawetenschappers en ook wordt gebruikt bij het ontwikkelen van mobiele applicaties.

Er zijn momenteel honderden JavaScript-bibliotheken beschikbaar, waarin alle soorten problemen worden behandeld die een programmeur kan tegenkomen. JavaScript kan meerdere taken tegelijk aan en is handig voor insluiting. Het schaalt gemakkelijk voor grote appl
icaties.

JavaScript is in de verte verwant aan Java. Beide zijn objectgeoriënteerde programmeertalen en een aantal programmeerstructuren is vergelijkbaar. JavaScript gebruikt kleinere en eenvoudigere opdrachten en is gemakkelijker te leren.

R

Het is een open source programmeertaal ontwikkeld door statistici. R wordt meestal gebruikt voor grafische en statistische berekeningen, maar het wordt ook geleverd met verschillende Data Science-toepassingen en meerdere nuttige bibliotheken. R kan worden gebruikt om gegevens te onderzoeken en data-analyses uit te voeren, indien nodig. Deze taal is echter complexer en moeilijker te leren dan Python.

R wordt veel gebruikt voor statistische analyses, evenals voor machine learning. Deze taal draait op veel besturingssystemen en is uitrekbaar. Veel grote bedrijven hebben R geadopteerd om enorme datasets te analyseren. Er is veel vraag naar programmeurs die R kennen.

Scala

Deze programmeertaal is ontwikkeld in 2003 en was oorspronkelijk ontworpen om problemen met Java op te lossen. Het heeft toepassingen die variëren van machine learning tot webprogrammering, en is goed voor het werken met big data-onderzoek, deels omdat het schaalbaar is. Scala ondersteunt zowel objectgeoriënteerd als functioneel programmeren.

SQL

Structured Query Language is een zeer populaire programmeertaal voor het beheren van gegevens en wordt veel gebruikt door verschillende bedrijven. SQL-tabellen en -query's zijn handig voor gegevenswetenschappers bij het werken met databasebeheersystemen. Deze taal is uitermate handig bij het opslaan, ophalen en werken met gegevens in relationele databases.

Bedrijfskunde en datawetenschap

Toekomstige markttrends: Verzamelen en analyseren enorme hoeveelheden gegevens kunnen helpen bij het identificeren van opkomende markttrends. Onderzoek naar zoekopdrachten van zoekmachines, het volgen van beroemdheden en influencers en het volgen van aankoopgegevens kan de producten onthullen waarin mensen geïnteresseerd zijn.

Bijvoorbeeld de trend van kleding upcycling is in opkomst als een manier voor milieubewuste mensen om hun kleding te vervangen. De kledingwinkel Patagonia, die sinds 1993 gerecycled plastic gebruikt, realiseerde deze opkomende trend en lanceerde Worn Wear, een website die speciaal is ontworpen om klanten te helpen hun gebruikte Patagonia-producten te upcyclen.

Klanten inzicht: gegevens over een klanten van het bedrijf kunnen informatie onthullen over hun voorkeuren, gewoonten, demografische kenmerken en ambities. Zo kunnen de gegevens van een klant worden verzameld telkens wanneer ze de website van het bedrijf (of fysieke winkel) bezoeken.

Telkens wanneer een klant een aankoop voltooit, een artikel aan zijn winkelwagentje toevoegt of een e-mail van het bedrijf opent, kunnen die gegevens worden vastgelegd voor toekomstige evaluatie (of realtime evaluaties). Nadat ervoor is gezorgd dat de gegevens nauwkeurig zijn, kunnen de gegevens worden gecombineerd in een proces dat gegevenswrangling wordt genoemd. Door de gegevens te combineren kunnen conclusies worden getrokken die (hopelijk) trends in het gedrag van klanten kunnen identificeren.

Interne Financiën: Een bedrijf' financieel team kan Data Science gebruiken voor het maken van rapporten, het analyseren van financiële trends en het genereren van prognoses. Gegevens over de activa, kasstromen en schulden van een bedrijf worden constant verzameld, waardoor financiële analisten algoritmisch (of handmatig) trends met betrekking tot financiële groei of achteruitgang kunnen vinden. Bovendien kan een risicobeheeranalyse bepalen of bepaalde zakelijke beslissingen een goed idee zijn of mogelijk schadelijk zijn.

Productie stroomlijnen: data Science kan worden gebruikt om conflicten en vertragingen in het productieproces te lokaliseren en te identificeren. Sensoren op productieapparatuur kunnen gegevens verzamelen uit het productieproces.

In situaties waarin de verzamelde gegevens zo omvangrijk zijn dat van een mens niet kan worden verwacht dat hij ze handmatig analyseert, kunnen algoritmen worden gemaakt om de gegevens snel en efficiënt op te schonen en te sorteren om inzicht te krijgen in het stroomlijnen van het productieproces.

Beveiliging verhogen: Data Science kan ook worden gebruikt om a zakelijke beveiliging en zijn gevoelige informatie te beschermen. Veel banken gebruiken bijvoorbeeld ingewikkelde machine learning-algoritmen om fraude op te sporen vanwege afwijkingen van het normale gedrag van een gebruiker. Deze algoritmen vangen fraude veel sneller en nauwkeuriger op dan een mens kan.

Gratis cursussen over datawetenschap

Class Central heeft een lijst met gratis Data Science-cursussen (789) uit verschillende bronnen verstrekt, variërend van John Hopkins die een cursus R-programmering aanbiedt tot de University of Illinois die een cursus aanbiedt met de titel "Patroondetectie in datamining. '

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img