Logo Zephyrnet

5 rare competenze di data science che possono aiutarti a trovare lavoro – KDnuggets

Data:

5 rare competenze di data science che possono aiutarti a trovare lavoro
Immagine dell'autore
 

Se sai come creare un albero decisionale per l'apprendimento automatico, congratulazioni, ce l'hai stesso livello di competenza sul codice come ChatGPT e le migliaia di altri data scientist che competono per il lavoro che desideri.

Una tendenza affascinante tra i responsabili delle assunzioni ultimamente è che la semplice capacità di codifica non è più sufficiente. Per essere assunto, devi fare un passo avanti conoscendo linguaggi, framework e come effettuare ricerche su StackOverflow. È necessaria una comprensione concettuale molto maggiore e una comprensione del panorama odierno della scienza dei dati, comprese cose di cui ritieni che solo il CEO di un’azienda dovrebbe preoccuparsi, come la governance dei dati e l’etica.

Ci sono molti tecnici e non tecnici competenze di data science data che dovresti sapere, ma se hai difficoltà a essere assunto, queste competenze di scienza dei dati meno comuni potrebbero essere il biglietto per mettere piede nella porta del lavoro.

In precedenza, i data scientist lavoravano in isolamento, in bui scantinati sotterranei producendo modelli. I modelli creerebbero previsioni o approfondimenti; questi sarebbero stati trasmessi ai dirigenti di alto livello che avrebbero agito di conseguenza senza comprendere il modello che aveva prodotto queste previsioni. (Sto esagerando un po', ma non così tanto.)

Oggi la leadership assume un ruolo molto più attivo nella comprensione dei prodotti dei data scientist. Ciò significa che tu, come scienziato dei dati, devi essere in grado di spiegare perché i modelli fanno quello che fanno, come funzionano e perché hanno elaborato quella particolare previsione.

Anche se potresti mostrare al tuo capo il codice effettivo che esegue il tuo modello, è molto più utile (leggi: impiegabile) poter mostrare loro come funziona il tuo modello attraverso la visualizzazione. Ad esempio, immagina di aver sviluppato un modello ML che prevede l'abbandono dei clienti per un'azienda di telecomunicazioni. Invece di uno screenshot delle righe di codice, potresti utilizzare un diagramma di flusso o un diagramma ad albero decisionale per spiegare visivamente come il modello segmenta i clienti e identifica quelli a rischio di abbandono. Ciò rende la logica del modello trasparente e più facile da comprendere.

Saper illustrare il codice è un'abilità rara, ma sicuramente vale la pena svilupparla. Non ci sono ancora corsi, ma ti consiglio di provare uno strumento gratuito come Miro per creare un diagramma di flusso che documenti il ​​tuo albero decisionale. Meglio ancora, prova a spiegare il tuo codice a un amico o un familiare che non sia uno scienziato dei dati. Più laici è, meglio è.

5 rare competenze di data science che possono aiutarti a trovare lavoro
Immagine dell'autore
 

Molti data scientist tendono a concentrarsi più sugli algoritmi del modello che sulle sfumature dei dati di input. L'ingegneria delle funzionalità è il processo di selezione, modifica e creazione di funzionalità (variabili di input) per migliorare le prestazioni dei modelli di machine learning.

Ad esempio, se stai lavorando su un modello predittivo per i prezzi degli immobili, potresti iniziare con caratteristiche di base come metratura, numero di camere da letto e posizione. Tuttavia, attraverso l'ingegneria delle funzionalità, è possibile creare funzionalità più sfumate. Potresti calcolare la distanza dalla stazione dei trasporti pubblici più vicina o creare una caratteristica che rappresenti l'età della proprietà. Potresti anche combinare funzionalità esistenti per crearne di nuove, come un “punteggio di desiderabilità della posizione” basato sui tassi di criminalità, sulle valutazioni delle scuole e sulla vicinanza ai servizi.

È un'abilità rara perché richiede non solo know-how tecnico, ma anche una profonda conoscenza del settore e creatività. Devi davvero ottenere i tuoi dati e il problema in questione, quindi trasforma i dati in modo creativo per renderli più utili per la modellazione.

L'ingegneria delle funzionalità è spesso trattata come parte di corsi di machine learning più ampi su piattaforme come Coursera, edX o Udacity. Ma trovo che il modo migliore per imparare sia attraverso l’esperienza pratica. Lavora su dati del mondo reale e sperimenta diverse strategie di ingegneria delle funzionalità.

Ecco una domanda ipotetica: immagina di essere un data scientist presso un'azienda sanitaria. Ti è stato assegnato il compito di sviluppare un modello predittivo per identificare i pazienti a rischio di una determinata malattia. Quale sarà probabilmente la tua sfida più grande?

Se hai risposto "alle prese con le pipeline ETL", ti sbagli. La tua sfida più grande probabilmente sarà quella di assicurarti che il tuo modello non sia solo efficace ma anche conforme, etico e sostenibile. Ciò include la garanzia che tutti i dati raccolti per il modello siano conformi alle normative come HIPAA e GDPR, a seconda della tua posizione. Devi sapere quando è legale utilizzare tali dati, come renderli anonimi, quale consenso richiedi ai pazienti e come ottenere tale consenso.

Inoltre, è necessario essere in grado di documentare le origini dati, le trasformazioni e le decisioni relative al modello in modo che anche un non esperto possa verificare il modello. Questa tracciabilità è vitale non solo per la conformità normativa ma anche per futuri audit e miglioramenti dei modelli.

Dove imparare la governance dei dati: è denso, ma una grande risorsa è il Comunità globale di gestione dei dati.

 

5 rare competenze di data science che possono aiutarti a trovare lavoro
Immagine da dataedo

"So che la scienza dei dati fondamentalmente può conoscere statistiche, creare modelli, trovare tendenze, ma se me lo chiedessi, non potrei pensare a nessun vero dilemma etico, penso che la scienza dei dati si limiti a rivelare i fatti reali," disse L'utente Reddit Carlos_tec17, erroneamente.

Al di là della conformità legale, c'è un aspetto etico da considerare. È necessario assicurarsi che qualsiasi modello creato non introduca inavvertitamente pregiudizi che potrebbero portare a un trattamento ineguale di determinati gruppi.

Adoro l'esempio di Il vecchio modello di reclutamento di Amazon per illustrare perché l’etica è importante. Se non lo conosci, i data scientist di Amazon hanno cercato di accelerare il flusso di lavoro delle assunzioni creando un modello in grado di individuare potenziali assunzioni in base ai curriculum. Il problema era che hanno addestrato il modello sulla base di curriculum esistente, che era molto dominata dagli uomini. Il loro nuovo modello era sbilanciato verso le assunzioni maschili. Ciò è estremamente immorale.

Abbiamo ormai superato la fase del “muoversi velocemente e rompere le cose” della scienza dei dati. Ora, come data scientist, devi sapere che le tue decisioni avranno un impatto reale sulle persone. L'ignoranza non è più una scusa; devi essere pienamente consapevole di tutte le possibili ramificazioni che il tuo modello potrebbe avere e del motivo per cui prende le decisioni che prende.

UMichigan ha un aiuto utile corso sull’etica della scienza dei dati. Mi è anche piaciuto questo libro per illustrare perché e come l’etica emerge anche nella scienza “basata sui numeri” come la scienza dei dati.

Un trucco segreto è che meglio sai come fare marketing, più facile sarà trovare lavoro. E per “mercato” intendo “saper rendere le cose sexy”. Con la capacità di commercializzare, sarai più bravo a creare un curriculum che venda le tue capacità. Sarai più bravo ad affascinare un intervistatore. E nello specifico nella scienza dei dati, sarai più bravo a spiegare perché il tuo modello e i suoi risultati sono importanti.

Ricorda, non importa quanto sia buono il tuo modello se non riesci a convincere nessun altro che sia necessario. Ad esempio, immagina di aver sviluppato un modello in grado di prevedere i guasti alle apparecchiature in uno stabilimento di produzione. In teoria, il tuo modello potrebbe far risparmiare all’azienda milioni in tempi di inattività non pianificati. Ma se non riesci a comunicare questo fatto ai vertici aziendali, il tuo modello languirà inutilizzato sul tuo computer.

Con le competenze di marketing, puoi dimostrare l'utilizzo e la necessità del tuo modello con una presentazione avvincente che evidenzi i vantaggi finanziari, il potenziale di aumento della produttività e i vantaggi a lungo termine dell'adozione del tuo modello.

Questa è un'abilità molto rara nel mondo della scienza dei dati perché la maggior parte dei data scientist sono persone che hanno a cuore i numeri. La maggior parte degli aspiranti data scientist crede davvero che semplicemente fare del proprio meglio e tenere la testa bassa sia una strategia occupazionale vincente. Sfortunatamente non sono i computer ad assumerti, ma le persone. Essere in grado di commercializzare te stesso, le tue competenze e i tuoi prodotti è un vero vantaggio nel mercato del lavoro di oggi.

Per imparare a fare marketing, ti consiglio alcuni corsi gratuiti per principianti piace "Marketing in un mondo digitale", offerto da Coursera. Mi è piaciuta particolarmente la sezione "Offrire idee di prodotto che restano in un mondo digitale". Non ci sono corsi di marketing specifici per la scienza dei dati là fuori, ma mi sono piaciuti questo post del blog che illustra come commercializzarti come data scientist.

È dura là fuori. Nonostante ci sia un crescita prevista dell'occupazione dei data scientist, secondo il Bureau of Labor Statistics, molti altri aspiranti entry-level nel campo della scienza dei dati hanno difficoltà a trovare un lavoro, as di queste Reddit correlati illustrare. C'è la concorrenza di ChatGPT e gli avvoltoi del licenziamento girano in tondo.

Per competere e distinguersi nel mercato del lavoro, devi andare oltre le semplici competenze tecniche. La governance dei dati, l'etica, la visualizzazione dei modelli, l'ingegneria delle funzionalità e le competenze di marketing ti rendono un candidato più attento, robusto e intrigante per i responsabili delle assunzioni.
 
 

Nato Rosidi è un data scientist e nella strategia di prodotto. È anche un professore a contratto che insegna analisi ed è il fondatore di Strata Scratch, una piattaforma che aiuta i data scientist a prepararsi per le loro interviste con domande di interviste reali delle migliori aziende. Connettiti con lui su Twitter: Strata Scratch or LinkedIn.

spot_img

L'ultima intelligenza

spot_img