Zephyrnet-logo

Wat is er nodig om een ​​succesvolle datawetenschapper te zijn?

Datum:

Wat is er nodig om een ​​succesvolle datawetenschapper te zijn?

Wat is de juiste aanpak om je strepen te verdienen en jezelf een succesvolle datawetenschapper te noemen?


By Michaël Berthold, CEO van MES

Beeld

Datawetenschappers zijn zeldzaam, dat is niet nieuw. Er duiken veel educatieve programma's op om meer te trainen om aan de vraag te voldoen. Universiteiten creëren data science-afdelingen, centra of zelfs hele divisies en scholen. Online universiteiten bieden links en rechts cursussen aan. Zelfs commerciële providers presenteren data science-certificeringen in slechts een paar weken of maanden (of soms in een weekend).

Maar wat is de juiste aanpak om je strepen te verdienen en jezelf een succesvolle data scientist te noemen?

1. Theorie of praktijk?

 
Op een bepaald moment in de afgelopen jaren was er hoop dat een enkele, eenvoudige oplossing iedereen in staat zou stellen om een ​​datawetenschapper te worden - als we ze maar de juiste tools gaven. Maar net als een arts die moet weten hoe het menselijk lichaam functioneert, moet een datawetenschapper de state-of-the-art modellen en algoritmen begrijpen om weloverwogen keuzes en aanbevelingen te kunnen maken. We hebben het hier tenslotte over datawetenschappers, niet alleen over gebruikers van zwarte dozen die zijn ontworpen door succesvolle datawetenschappers. Een dokter verandert ons ook niet in een dokter door ons te vertellen welk medicijn we moeten nemen.

Maar is een theoretische opleiding voldoende? Mijn antwoord is hier nee. Datawetenschap gaat net zo goed over het kennen van de tool als over ervaring hebben met het toepassen ervan op echte problemen, over dat 'onderbuikgevoel' hebben dat je wenkbrauwen doet fronsen als de resultaten verdacht positief (of gewoon raar) zijn. Ik heb dit talloze keren gezien bij studenten in onze data science-lessen. Als aspirant-datawetenschappers al vroeg aan praktische oefeningen beginnen, presenteren ze, hoe slim ze ook zijn, resultaten die totaal niet kloppen. Eens gevraagd: 'Weet u zeker dat dit logisch is?' ze realiseren zich en beginnen hun resultaten in twijfel te trekken, maar dit is aangeleerd gedrag. Dit zijn vaak dingen die zo simpel zijn als het in twijfel trekken van een 98% nauwkeurigheid van een kredietverloopbenchmark. In plaats van zich af te vragen of dit zou kunnen wijzen op een probleem met gegevensvervuiling (de testgegevens bevatten enige informatie over de uitkomst), presenteert de student met trots zijn marge van 25% ten opzichte van zijn medestudenten.

Om een ​​succesvolle datawetenschapper te worden, moet u zowel de theorie kennen als de ervaring hebben om te weten hoe u uw resultaten kunt bereiken en wanneer u deze kunt vertrouwen. De grote vraag is of we tijdens onze cursussen ook 'real-world experience' kunnen geven.

2. Spelen is voldoende trainen?

 
Veel wannabe datawetenschappers beweren dat ze die praktijkervaring hebben opgedaan door te werken aan online data-analyse-uitdagingen - Kaggle of anderen. Maar dat is maar ten dele waar, omdat deze uitdagingen zich richten op een klein, belangrijk, maar vrij statisch deel van de baan. Sommige trainers van datawetenschappers zijn begonnen met het bouwen van praktische oefeningen, waarbij ze enkele van die andere real-world vallen hebben gemodelleerd. KNIME kan bijvoorbeeld worden gebruikt om naast analyse ook data te creëren. We gebruiken dit voor onze eigen onderwijscursussen om real-world, look-alike databases te creëren over kunstmatige klanten met bepaalde distributies en afhankelijkheden van burgerlijke staat, inkomen, winkelgedrag, voorkeuren en andere functies. De gegevensgeneratiemodules stellen ons ook in staat om uitschieters, anomalieën en andere patronen te injecteren die standaardanalysemethoden doorbreken als ze niet eerder worden ontdekt. Maar dit lijkt nog steeds erg op het leren rijden op een speelplaats; het bereidt je niet voor op autorijden in het centrum van Manhattan. Op de een of andere manier kunnen we ons niet op het echte leven voorbereiden in de privacy van ons huis of klaslokaal.

Laten we wat dieper ingaan op wat een datawetenschapper eigenlijk doet. Veel artikelen hebben de horizontale spreiding van activiteiten al behandeld: alles van data sourcing, blending en transformatie tot het creëren van interactieve, analytische applicaties of het anderszins inzetten van modellen in productie (en ik heb het niet eens over het monitoren en continu updaten van die productiemodellen ). Veel van die online uitdagingen negeren deze omliggende activiteiten en richten zich uitsluitend op het modelleren. Maar dat is niet het enige probleem. Laten we ook kijken naar de verticale spreiding van taken: Waarom hebben we data science nodig?

3. Datawetenschap?

 
Datawetenschap is nodig voor verschillende soorten activiteiten, en die vereisen ook steeds geavanceerdere vaardigheden en expertise van de datawetenschappers.

 
Novice

Dit is de gemakkelijkste opstelling waar we, in ieder geval gedeeltelijk, afzonderlijk voor kunnen oefenen. Het probleem en het doel zijn goed gedefinieerd, de gegevens zijn meestal in goede staat (en bestaan!), En het doel is om een ​​model te optimaliseren om betere resultaten te bieden. Voorbeelden zijn taken als het voorspellen van klantverloop en het plaatsen van online advertenties. Dit zijn projecten die in wezen alleen maar ondersteunen en bevestigen wat de zakelijke stakeholder weet en deze kennis in praktijk brengen.

Om dit soort problemen het hoofd te bieden, moet een datawetenschapper de ins en outs van modellen en algoritmen begrijpen en de vele kleine knopjes kunnen aanpassen om de prestaties te optimaliseren. Dit is een taak die enigszins geautomatiseerd kan worden, en experimenten tonen aan dat automatisering vaak een niet zo ervaren datawetenschapper kan verslaan als het gaat om modelautomatisering voor standaardtaken.

Maar zelfs op dit basisniveau heeft onze datawetenschapper enige ervaring nodig om ervoor te zorgen dat het doel correct wordt vertaald in een te optimaliseren statistiek en om ervoor te zorgen dat de gegevens niet vervuild zijn. Klassieke voorbeelden van juniorfouten zijn het gebruik van een optimalisatiestatistiek die verschillende kosten voor verschillende soorten fouten negeert of niet beseft dat de gegevens die voor training worden gebruikt niet onbevooroordeeld zijn (bijv. Het trainen van uw model op bestaande klanten is geen goede basis voor het doen van aanbevelingen over of iemand die helemaal nieuw is wel of niet een goede klant kan zijn).

 
Leerling

In werkelijkheid is deze baan meestal veel minder duidelijk omschreven. De ondernemer weet wat hij wil optimaliseren, maar heeft geen duidelijke probleemformulering, en veel te vaak ontbreekt het aan de juiste data. Stereotiepe uitspraken voor deze opzet zijn projectbeschrijvingen van het type 'We hebben deze gegevens, beantwoord die vraag alstublieft!' Voorbeelden kunnen variëren van het voorspellen van machinestoringen ('We meten al die dingen, vertel het ons gewoon een dag voordat de machine kapot gaat.') Tot het voorspellen van klanttevredenheid ('We sturen elke maand een enquête, vertel me eens wie morgen hun contract zal opzeggen. . ').

Hier heeft onze datawetenschapper ervaring nodig bij het communiceren met belanghebbenden en domeinexperts om de te verzamelen data te identificeren en om de juiste modellen te vinden en te trainen om de antwoorden op de juiste vraag te geven. Dit brengt ook veel niet-theoretisch maar praktisch werk met zich mee rond het combineren en transformeren van gegevens en het waarborgen van de juiste implementatie en monitoring van modellen. Tijdens de training kunnen we de datawetenschapper helpen door blauwdrukken te leveren voor vergelijkbare applicaties, maar automatisering mislukt vaak omdat de datatypes niet helemaal worden gedekt of de modeloptimalisatieroutines de plank net een beetje missen. Dit is ook een probleem met de volwassenheid van het veld: we zijn nog niet alle soorten problemen tegengekomen, en veel van dit soort projecten vereisen een vleugje creativiteit bij het oplossen ervan. Een geautomatiseerde oplossing of een oplossing gemaakt door een onervaren datawetenschapper lijkt misschien het juiste type antwoord te bieden, maar het zal vaak een lange weg zijn om het best mogelijke antwoord te geven.

 
Expert

Het laatste type data science-activiteit is eigenlijk de echt interessante. Het doel is om nieuwe inzichten te creëren die vervolgens nieuwe analytische activiteiten triggeren en die de manier waarop dingen in de toekomst worden gedaan, volledig kunnen veranderen. Opstellingen van deze soort zijn in eerste instantie vaak slecht beschreven ('Ik weet niet hoe de oplossing eruitziet, maar ik weet het als ik het zie!'), En het is de taak van de datawetenschapper om dit soort verkennende hypothesen te ondersteunen. . In het verleden waren we beperkt tot eenvoudige, interactieve datavisualisatieomgevingen, maar tegenwoordig kan een ervaren datawetenschapper helpen om snel verschillende soorten algoritmen voor patroondetectie of voorspellende modellen uit te proberen en die opstelling te verfijnen op basis van feedback van gebruikers. Meestal is veel van deze feedback van het type 'We weten dit' of 'Dat maakt ons niet uit', wat zal leiden tot voortdurende verfijning. De echte doorbraak wordt echter vaak geïnitieerd door opmerkingen van het type 'Dit is raar, ik vraag me af…', waardoor een nieuwe hypothese ontstaat over onderliggende afhankelijkheden.

Voor dit soort activiteiten heeft onze datawetenschapper ervaring nodig met het omgaan met open vragen (vaak onderzoekstypes) en het vermogen om snel verschillende soorten analysemethoden en modellen te herhalen. Het vereist out-of-the-box denken en het vermogen om verder te gaan dan een bestaande blauwdruk, en het vereist natuurlijk leren van ervaringen uit het verleden. In dit soort scenario's zijn de inzichten die gisteren zijn gegenereerd, vandaag vaak niet interessant, omdat de inzichten uit het verleden de kennis van zowel de datawetenschapper als de domeinexpert hebben veranderd en veranderd!

Vermoedelijk is deze segmentatie een beetje wazig; sommige leerlingen zullen nooit de ambitie hebben om een ​​expert te worden, omdat ze functievereisten hebben die goed zijn gedefinieerd en die kunnen worden opgelost met behulp van standaardtechnieken. En uiteraard zal dit in de loop van de tijd veranderen naarmate het datawetenschapsveld volwassen wordt. Van wat we zien bij KNIME (onze ingebouwde aanbevelingsengine vertrouwt op anonieme informatie over gereedschapsgebruik), is de beroemde 90-9-1 hier niet helemaal van toepassing, maar het is nog steeds maar een vrij klein percentage van onze gebruikers (<10 %) die regelmatig knooppunten gebruiken die we expertmodules zouden noemen. De overgrote meerderheid van onze gebruikers begint met een van de voorbeeldworkflows (die op hun beurt weer afhankelijk zijn van expertknooppunten) of gebruiken zelf relatief standaardmodules. Dit is ook een mening die wordt gevalideerd door gesprekken met onze grotere klanten: veel van de gebruikers daar vertrouwen op workflows als sjablonen om vanaf te starten in plaats van vanaf het begin complexe workflows te creëren.

4. Waarheen?

 
Datawetenschap vereist, net als informatica, een mix van theorie en praktijk. Net zoals we nu softwareprojecten uitvoeren als onderdeel van de meeste computerwetenschappelijke curricula, moeten we praktische projecten toevoegen aan datawetenschappelijke curricula. Maar net als succesvolle programmeurs zullen succesvolle datawetenschappers jarenlange praktische, praktijkervaring nodig hebben voordat ze echte problemen zelfstandig kunnen aanpakken.

Voor enkele van de eenvoudigere taken kunnen we junior datawetenschappers aan het werk zetten of mogelijk zelfs (delen van) het proces automatiseren. Maar voor de werkelijk interessante discipline datawetenschap - die ons helpt onze kennis en begrip van hoe dingen werken te vergroten - hebben we echte master data-wetenschappers nodig met diep theoretisch inzicht, veel ervaring en het vermogen om verder te denken dan voor de hand liggende.

Dit artikel is © 2019 door Michael Berthold. Het artikel is gelicentieerd onder een Creative Commons Attribution (CC BY 4.0) Internationale licentie (https://creativecommons.org/licenses/by/4.0/legalcode), tenzij anders aangegeven met betrekking tot bepaald materiaal in het artikel. Het artikel moet worden toegeschreven aan de hierboven genoemde auteur.

 
Bio: Michaël Berthold is momenteel de CEO van KNIME.com AG en co-creator van KNIME, het open analyseplatform dat door duizenden data-experts over de hele wereld wordt gebruikt.

ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

Bron: https://www.kdnuggets.com/2020/09/successful-data-scientist.html

spot_img

Laatste intelligentie

spot_img