Logo Zéphyrnet

5 compétences rares en science des données qui peuvent vous aider à trouver un emploi – KDnuggets

Date :

5 compétences rares en science des données qui peuvent vous aider à trouver un emploi
Image par auteur
 

Si vous savez créer un arbre de décision en machine learning, félicitations, vous avez le même niveau d'expertise en code comme ChatGPT et les milliers d'autres data scientists en compétition pour le poste que vous souhaitez.

Une tendance fascinante parmi les responsables du recrutement ces derniers temps est que la capacité de codage brut ne suffit plus. Pour être embauché, vous devez aller plus loin en connaissant les langages, les frameworks et comment effectuer une recherche sur StackOverflow. Vous avez besoin d'une compréhension bien plus conceptuelle et d'une compréhension du paysage actuel de la science des données, y compris de choses dont vous pensez que seul le PDG d'une entreprise devrait se soucier, comme la gouvernance et l'éthique des données.

Il existe de nombreux techniques et non techniques compétences en science des données cela vous devriez le savoir, mais si vous avez du mal à être embauché, ces compétences moins courantes en science des données pourraient être la clé pour mettre le pied dans la porte de l'emploi.

Auparavant, les data scientists travaillaient de manière isolée, dans des sous-sols sombres et souterrains, pour produire des modèles. Les modèles créeraient des prédictions ou des informations ; celles-ci seraient transmises aux dirigeants de la suite C qui agiraient en conséquence sans aucune compréhension du modèle qui avait produit ces prédictions. (J'exagère un peu, mais pas tant que ça.)

Aujourd’hui, les dirigeants jouent un rôle beaucoup plus actif dans la compréhension des produits des data scientists. Cela signifie que vous, en tant que data scientist, devez être capable d'expliquer pourquoi les modèles font ce qu'ils font, comment ils fonctionnent et pourquoi ils ont abouti à cette prédiction particulière.

Bien que vous puissiez montrer à votre patron le code réel qui exécute votre modèle, il est beaucoup plus utile (lire : employable) de pouvoir lui montrer comment fonctionne votre modèle grâce à la visualisation. Par exemple, imaginez que vous avez développé un modèle ML qui prédit le taux de désabonnement des clients pour une entreprise de télécommunications. Au lieu d'une capture d'écran de vos lignes de code, vous pouvez utiliser un organigramme ou un arbre de décision pour expliquer visuellement comment le modèle segmente les clients et identifie ceux qui risquent de perdre leur clientèle. Cela rend la logique du modèle transparente et plus facile à comprendre.

Savoir illustrer du code est une compétence rare, mais qui mérite certainement d’être développée. Il n'y a pas encore de cours, mais je vous recommande d'essayer un outil gratuit comme Miro pour créer un organigramme documentant votre arbre de décision. Mieux encore, essayez d'expliquer votre code à un ami ou à un membre de votre famille non spécialiste des données. Plus il y a de couches, mieux c'est.

5 compétences rares en science des données qui peuvent vous aider à trouver un emploi
Image par auteur
 

De nombreux data scientists ont tendance à se concentrer davantage sur les algorithmes des modèles que sur les nuances des données d’entrée. L'ingénierie des fonctionnalités est le processus de sélection, de modification et de création de fonctionnalités (variables d'entrée) pour améliorer les performances des modèles d'apprentissage automatique.

Par exemple, si vous travaillez sur un modèle prédictif des prix de l'immobilier, vous pouvez commencer par des fonctionnalités de base telles que la superficie en pieds carrés, le nombre de chambres et l'emplacement. Cependant, grâce à l’ingénierie des fonctionnalités, vous pouvez créer des fonctionnalités plus nuancées. Vous pouvez calculer la distance jusqu'à la station de transports en commun la plus proche ou créer une caractéristique qui représente l'âge de la propriété. Vous pouvez même combiner des fonctionnalités existantes pour en créer de nouvelles, comme un « score d'opportunité d'emplacement » basé sur les taux de criminalité, les notes des écoles et la proximité des commodités.

Il s'agit d'une compétence rare car elle nécessite non seulement un savoir-faire technique, mais également une connaissance approfondie du domaine et de la créativité. Il faut vraiment obtenez vos données et le problème en question, puis transformez les données de manière créative pour les rendre plus utiles pour la modélisation.

L'ingénierie des fonctionnalités est souvent couverte dans le cadre de cours plus larges d'apprentissage automatique sur des plateformes telles que Coursera, edX ou Udacity. Mais je trouve que la meilleure façon d’apprendre est par l’expérience pratique. Travaillez sur des données du monde réel et expérimentez différentes stratégies d'ingénierie de fonctionnalités.

Voici une question hypothétique : imaginez que vous êtes un data scientist dans une entreprise de soins de santé. Vous avez été chargé de développer un modèle prédictif pour identifier les patients à risque de développer une certaine maladie. Quel sera probablement votre plus grand défi ?

Si vous avez répondu « aux prises avec les pipelines ETL », vous vous trompez. Votre plus grand défi sera probablement de vous assurer que votre modèle est non seulement efficace, mais également conforme, éthique et durable. Cela implique de garantir que toutes les données que vous collectez pour le modèle sont conformes aux réglementations telles que HIPAA et GDPR, en fonction de votre emplacement. Vous devez savoir quand il est même légal d'utiliser ces données, comment les anonymiser, quel consentement vous exigez des patients et comment obtenir ce consentement.

Et vous devez être en mesure de documenter les sources de données, les transformations et les décisions de modèle afin qu'un non-expert puisse auditer le modèle. Cette traçabilité est vitale non seulement pour la conformité réglementaire, mais également pour les futurs audits et améliorations des modèles.

Où apprendre la gouvernance des données : c'est dense, mais une excellente ressource est le Communauté mondiale de gestion des données.

 

5 compétences rares en science des données qui peuvent vous aider à trouver un emploi
Image de données

"Je sais que la science des données peut essentiellement connaître des statistiques, créer des modèles, trouver des tendances, mais si vous me le demandiez, je ne pourrais pas penser à de véritables dilemmes éthiques, je pense que la science des données ne fait que révéler les faits réels", a affirmé Valérie Plante. L'utilisateur de Reddit Carlos_tec17, à tort.

Au-delà de la conformité légale, il y a un aspect éthique à considérer. Vous devez vous assurer que tout modèle que vous créez n'introduit pas par inadvertance des préjugés susceptibles de conduire à un traitement inégal de certains groupes.

J'adore l'exemple de L'ancien modèle de recrutement d'Amazon pour illustrer pourquoi l’éthique est importante. Si vous ne le connaissez pas, les data scientists d'Amazon ont essayé d'accélérer leur flux de travail de recrutement en créant un modèle capable de sélectionner les embauches potentielles sur la base de CV. Le problème était qu’ils formaient le modèle sur leur base de CV existante, qui était très dominée par les hommes. Leur nouveau modèle était biaisé en faveur des embauches masculines. C'est extrêmement contraire à l'éthique.

Nous avons bien dépassé l’étape « agir vite et casser les choses » de la science des données. Désormais, en tant que data scientist, vous devez savoir que vos décisions auront un réel impact sur les gens. L'ignorance n'est plus une excuse ; vous devez être pleinement conscient de toutes les ramifications possibles que votre modèle pourrait avoir et des raisons pour lesquelles il prend les décisions qu'il prend.

UMichigan a un utile cours sur « l’éthique de la science des données ». j'ai aimé aussi ce livre pour illustrer pourquoi et comment l’éthique apparaît même dans la science « basée sur les chiffres » comme la science des données.

Une astuce secrète est que mieux vous savez comment commercialiser, plus il vous sera facile de trouver un emploi. Et par « marché », j’entends « savoir rendre les choses sexy ». Avec la capacité de commercialiser, vous serez plus à même de rédiger un CV qui vend vos compétences. Vous serez meilleur pour charmer un intervieweur. Et en science des données en particulier, vous saurez mieux expliquer pourquoi votre modèle – et les résultats de votre modèle – sont importants.

N'oubliez pas que la qualité de votre modèle n'a pas d'importance si vous ne parvenez pas à convaincre quelqu'un d'autre de sa nécessité. Par exemple, imaginez que vous avez développé un modèle capable de prédire les pannes d'équipement dans une usine de fabrication. En théorie, votre modèle pourrait permettre à l’entreprise d’économiser des millions en temps d’arrêt imprévus. Mais si vous ne parvenez pas à communiquer ce fait à la direction, votre modèle restera inutilisé sur votre ordinateur.

Avec des compétences en marketing, vous pouvez prouver votre utilisation et la nécessité de votre modèle avec une présentation convaincante qui met en évidence les avantages financiers, le potentiel d'augmentation de la productivité et les avantages à long terme de l'adoption de votre modèle.

Il s’agit d’une compétence très rare dans le monde de la science des données, car la plupart des data scientists ont dans l’âme des chiffres. La plupart des futurs data scientists croient réellement que le simple fait de faire de son mieux et de garder la tête baissée est une stratégie d'emploi gagnante. Malheureusement, ce ne sont pas les ordinateurs qui vous embauchent, mais les gens. Être capable de commercialiser vous-même, vos compétences et vos produits est un réel avantage sur le marché du travail d'aujourd'hui.

Pour apprendre à commercialiser, je recommande quelques cours gratuits pour débutants comme « Marketing dans un monde numérique », proposé par Coursera. J'ai particulièrement aimé la section « Proposer des idées de produits qui collent à un monde numérique ». Il n'existe pas de cours de marketing spécifiques à la science des données, mais j'ai aimé ce blog qui explique comment vous présenter en tant que data scientist.

C'est dur là-bas. Malgré l'existence d'un croissance projetée d'emploi de data scientist, selon le Bureau of Labor Statistics, de nombreux aspirants débutants en science des données ont du mal à décrocher un emploi, as ces Reddit des postes illustrer. Il y a la concurrence de ChatGPT et les vautours des licenciements tournent en rond.

Pour être compétitif et se démarquer sur le marché du travail, il faut aller au-delà des simples compétences techniques. La gouvernance des données, l'éthique, la visualisation de modèles, l'ingénierie des fonctionnalités et les compétences en marketing font de vous un candidat plus réfléchi, plus robuste et plus intrigant pour les responsables du recrutement.
 
 

Nate Rosidi est data scientist et en stratégie produit. Il est également professeur adjoint enseignant l'analytique et fondateur de StrataScratch, une plate-forme aidant les data scientists à préparer leurs entretiens avec de vraies questions d'entretien posées par les meilleures entreprises. Connectez-vous avec lui sur Twitter : StrataScratch or LinkedIn.

spot_img

Dernières informations

spot_img