ゼファーネットのロゴ

就職に役立つ5つの珍しいデータサイエンススキル – KDnuggets

日付:

就職に役立つ5つの珍しいデータサイエンススキル
著者による画像
 

機械学習デシジョン ツリーの作成方法をご存知の場合は、おめでとうございます。 同じレベルのコードの専門知識 ChatGPT や他の何千人ものデータ サイエンティストが、あなたが望む仕事を求めて競い合っているように。

最近の採用担当者の間での興味深い傾向の XNUMX つは、生のコーディング能力だけでは通用しなくなっているということです。 雇用されるには、言語、フレームワーク、StackOverflow での検索方法を理解するさらに一歩進む必要があります。 データ ガバナンスや倫理など、企業の CEO だけが気にすべきだと思われる事柄も含め、はるかに概念的な理解と、今日のデータ サイエンスの状況を把握する必要があります。

技術的なものも非技術的なものもたくさんあります データサイエンススキル 知っておくべきことですが、採用に苦労している場合は、これらのあまり一般的ではないデータ サイエンス スキルが、就職の扉に足を踏み入れるためのチケットになる可能性があります。

以前は、データ サイエンティストは暗い地下室で孤立してモデルを作成していました。 モデルは予測や洞察を作成します。 これらの情報は経営幹部に渡され、幹部はこれらの予測を生成したモデルを理解することなく、それに基づいて行動することになります。 (少し誇張してますが、それほどではありません。)

現在、リーダーはデータ サイエンティストの製品を理解する上で、より積極的な役割を果たしています。 つまり、データ サイエンティストとして、モデルがなぜそのような動作をするのか、どのように機能するのか、そしてなぜその特定の予測を思いついたのかを説明できる必要があります。

モデルを実行している実際のコードを上司に見せることもできますが、視覚化を通じてモデルがどのように機能するかを上司に示すことができる方がはるかに便利です (雇用可能です)。 たとえば、通信会社の顧客離れを予測する ML モデルを開発したと想像してください。 コード行のスクリーンショットの代わりに、フローチャートまたはデシジョン ツリー図を使用して、モデルがどのように顧客をセグメント化し、チャーンのリスクがある顧客を特定するかを視覚的に説明できます。 これにより、モデルのロジックが透明になり、理解しやすくなります。

コードを説明する方法を知ることは稀なスキルですが、開発する価値のあるスキルであることは確かです。 まだコースはありませんが、Miro などの無料ツールを試して、デシジョン ツリーを文書化するフローチャートを作成することをお勧めします。 さらに良いのは、データ サイエンティストではない友人や家族にコードを説明してみることです。 横になるほど良いです。

就職に役立つ5つの珍しいデータサイエンススキル
著者による画像
 

多くのデータ サイエンティストは、入力データのニュアンスよりもモデル アルゴリズムに重点を置く傾向があります。 特徴エンジニアリングは、機械学習モデルのパフォーマンスを向上させるために特徴 (入力変数) を選択、変更、作成するプロセスです。

たとえば、不動産価格の予測モデルに取り組んでいる場合は、平方フィート、寝室の数、場所などの基本的な特徴から始めるかもしれません。 ただし、特徴エンジニアリングを使用すると、より微妙な特徴を作成できます。 最寄りの公共交通機関の駅までの距離を計算したり、物件の築年数を表すフィーチャを作成したりできます。 既存の機能を組み合わせて、犯罪率、学校の評価、設備への近さに基づいた「場所の望ましさスコア」などの新しい機能を作成することもできます。

これは、技術的なノウハウだけでなく、深い分野の知識と創造性も必要とするため、希少なスキルです。 本当にそうする必要があります 取得する データと当面の問題を把握し、モデリングにさらに役立つようにデータを創造的に変換します。

特徴エンジニアリングは、Coursera、edX、Udacity などのプラットフォーム上の広範な機械学習コースの一部として取り上げられることがよくあります。 しかし、学ぶための最良の方法は、実践的な経験を通して学ぶことだと私は思います。 現実世界のデータに取り組み、さまざまな特徴量エンジニアリング戦略を試してください。

ここに仮定の質問があります。あなたがヘルスケア企業のデータ サイエンティストであると想像してください。 あなたは、特定の病気のリスクがある患者を特定するための予測モデルを開発する任務を負っています。 あなたの最大の課題は何でしょうか?

「ETL パイプラインに取り組んでいる」と答えたなら、それは間違いです。 最大の課題は、モデルが効果的であるだけでなく、コンプライアンス、倫理、持続可能であることを確認することでしょう。 これには、モデルのために収集したデータが、所在地に応じて HIPAA や GDPR などの規制に準拠していることを確認することが含まれます。 データの使用が合法となる場合、データをどのように匿名化する必要があるか、患者からどのような同意が必要か、そしてその同意を得る方法を知る必要があります。

また、専門家でなくてもモデルを監査できるように、データ ソース、変換、モデルの決定を文書化できる必要があります。 このトレーサビリティは、法規制への準拠だけでなく、将来のモデルの監査や改善にも不可欠です。

データ ガバナンスを学ぶ場所: 内容は濃いですが、優れたリソースの XNUMX つは次のとおりです。 グローバル データ管理コミュニティ.

 

就職に役立つ5つの珍しいデータサイエンススキル
Image from データエド

「データサイエンスが基本的に統計を知り、モデルを作成し、傾向を見つけることができることは知っていますが、私に言わせれば、本当の倫理的ジレンマは思いつきませんでした。データサイエンスは本当の事実を流出させるだけだと思います。」 Reddit ユーザー Carlos_tec17 さんの間違いです。

法令順守以外にも、倫理的な側面を考慮する必要があります。 作成するモデルが、特定のグループの不平等な扱いにつながる可能性のあるバイアスを誤って導入しないようにする必要があります。

私はこの例が大好きです Amazonの古い採用モデル なぜ倫理が重要なのかを説明するために。 よく知らない方のために説明すると、Amazon のデータ サイエンティストは、履歴書に基づいて採用候補者を選択できるモデルを作成することで、採用ワークフローを高速化しようとしました。 問題は、非常に男性優位の既存の履歴書ベースに基づいてモデルをトレーニングしたことでした。 彼らの新しいモデルは男性の採用に偏っていました。 それは極めて非倫理的です。

私たちはデータ サイエンスの「迅速に行動して物事を打ち破る」段階をはるかに過ぎています。 さて、データサイエンティストとして、あなたは自分の決定が人々に実際の影響を与えることを知る必要があります。 無知はもはや言い訳にはなりません。 モデルが及ぼす可能性のあるすべての影響と、モデルが決定を下す理由を十分に認識する必要があります。

ミシガン州には役に立つものがあります ここから 「データサイエンスの倫理」について。 私も気に入りました 本書 データ サイエンスのような「数値ベースの」科学においても、なぜ倫理がどのように発生するのかを説明します。

秘密のライフハックの XNUMX つは、マーケティング方法をよく知れば知るほど、仕事を得るのが容易になるということです。 「マーケット」とは、「物事をセクシーにする方法を知っている」という意味です。 マーケティング能力があれば、自分のスキルを売り込む履歴書を作成するのが上手になります。 面接官を魅了するのが上手になります。 特にデータ サイエンスでは、モデルとモデルの結果が重要な理由をよりうまく説明できるようになります。

あなたのモデルがどれほど優れていても、他の人にそれが必要であると説得できなければ意味がないことを覚えておいてください。 たとえば、製造工場の機器の故障を予測できるモデルを開発したと想像してください。 理論的には、あなたのモデルにより、会社は計画外のダウンタイムを何百万ドルも節約できる可能性があります。 しかし、その事実を経営幹部に伝えられなければ、モデルはコンピュータ上で使われずに放置されてしまいます。

マーケティング スキルがあれば、モデルを採用することによる経済的メリット、生産性向上の可能性、長期的な利点を強調する説得力のあるプレゼンテーションで、モデルの使用と必要性を証明できます。

ほとんどのデータ サイエンティストは本質的に数字を扱う人間であるため、これはデータ サイエンスの世界では非常にまれなスキルです。 データサイエンティスト志望者のほとんどは、ただ最善を尽くし、頭を下げ続けることが雇用戦略の成功につながると本気で信じています。 残念ながら、あなたを雇うのはコンピュータではなく、人間です。 自分自身、自分のスキル、製品をマーケティングできることは、今日の雇用市場において大きな利点です。

マーケティングの方法を学ぶには、いくつかの初心者向けの無料コースをお勧めします ような Coursera が提供する「デジタル世界のマーケティング」。 特に気に入ったのは、「デジタル世界に刺さる製品アイデアの提供」に関するセクションです。 データサイエンスに特化したマーケティングコースはありませんが、私は好きでした このブログ記事 データサイエンティストとして自分自身を売り込む方法を説明します。

外は大変だよ。 があるにもかかわらず、 予測される成長 労働統計局によると、データ サイエンティストの雇用の割合は、さらに多くの初心者レベルのデータ サイエンス志望者が仕事を見つけるのが難しいと感じています。 as これらの Reddit 投稿 説明します。 ChatGPT との競争があり、解雇のハゲワシが飛び交っています。

雇用市場で競争し、目立つためには、単なる技術的な能力を超える必要があります。 データ ガバナンス、倫理、モデル Viz、特徴量エンジニアリング、マーケティング スキルを備えているあなたは、より思慮深く、堅牢で、魅力的な採用マネージャー候補者となります。
 
 

ネイト・ロシディ データサイエンティストであり、製品戦略に携わっています。 彼はまた、分析を教える非常勤教授であり、 ストラタスクラッチ、データサイエンティストがトップ企業からの実際の面接の質問で面接の準備をするのを支援するプラットフォーム。 彼とつながる Twitter:StrataScratch or LinkedIn.

スポット画像

最新のインテリジェンス

スポット画像