ゼファーネットのロゴ

データサイエンスを学ぶためのGoogleのリサーチアドバイスディレクター

日付:

データサイエンスを学ぶためのGoogleのリサーチアドバイスディレクター

データ サイエンスのプロフェッショナルとしてのキャリアの波に乗るのは、世界でキャリアをスタートさせようとしている多くの人にとって熱い展望です。 デジタル革命は、多くの刺激的な新しい機会を生み出し続けています。 ただし、Google のリサーチ ディレクターである Peter Norvig 氏によるデータ サイエンスの初心者向けのアドバイスで示唆されているように、基礎スキルを完全に確立せずに急いで取り組みすぎると、成功に悪影響を与える可能性があります。


による写真 ミッチェル・ルオ on Unsplash.

2021 年、デジタル市場分野の専門家はデータに慣れていなければなりません。 データの操作方法、データの収集方法、分析方法、解釈方法を理解している必要があります。 意思決定の未来はデータサイエンスに基づいています」 — ウェンディ モー、メリーランド大学マーケティング教授

マーケティングやビジネスなど、かつては統計とはほとんど関係がなかった仕事において、データ サイエンスのスキルの重要性がますます高まっています。 データ サイエンスのスキルをポートフォリオに追加すると、今年の市場における現在の役割で優位に立つことができます。

データ サイエンスをポートフォリオに追加することに興味がある場合は、次のような疑問を一度は考えたことがあるでしょう。

  1. データサイエンスの基礎を学ぶにはどれくらい時間がかかりますか?
  2. データサイエンスを学ぶためのリソースは何ですか?

この記事では、からの一般的なアドバイスについて説明します。 Peter Norvig データサイエンスを検討している方へ。

Peter Norvig (Google リサーチ ディレクター) の背景

上記のタイトルを選択した動機は、プログラミングの専門家になるまでに必要な時間についての Peter Norvig の考えに基づいています。 この記事をまだ読んでいない場合は、次のようにします。 10年以内にプログラミングを独学するピーター・ノーヴィグ著, ぜひそうしてみてください。

ここで重要なのは、データ サイエンスの基礎を学ぶのに 10 年は必要ないということですが、データ サイエンスを急いで学習しても決して役に立ちません。 データサイエンティストになるには、時間、努力、エネルギー、忍耐、そして献身が必要です。

Peter Norvig 氏の提案は、学習には時間、忍耐、そして献身が必要であるということです。 データ サイエンスを 4 週間で学べるという記事、書籍、Web サイトには注意してください。

ベンジャミン・O・タヨによる画像。

データ サイエンスの基礎を学ぶことに興味がある場合は、適切な量の時間とエネルギーを投資する準備をしてください。 そうすることで、データ サイエンスの表面的な概念だけでなく、より深い概念を習得することができます。

私はデータサイエンスの基礎を(独学で)マスターするまでに2年間の徹底的な勉強を要し、毎日新しいことを学ぶために挑戦し続けています。 データ サイエンスの基礎を習得するのにどれくらいの時間がかかるかは、あなたのバックグラウンドによって異なります。 一般に、数学、統計、コンピュータサイエンス、エンジニアリング、経済学などの分析分野のしっかりした背景があると有利です。

Peter Norvig の「3 年でプログラミングを独学する」から得た XNUMX つの教訓

1) データ サイエンスの基礎を習得するには、時間、努力、エネルギー、忍耐、そして取り組みが必要です。

データ サイエンスは非常に学際的な分野であり、高度な数学、統計、プログラミング、およびデータ分析、データ視覚化、モデル構築、機械学習などのその他の関連スキルの確かな背景が必要です。それは私に数学、物理学、プログラミングの確かな背景があるからです。 データ サイエンスの基礎を習得するのに役立つリソースをいくつか紹介します。

(ⅰ) データサイエンスの専門資格 (HarvardX、edX経由)

以下のコースが含まれ、すべてRを使用して教えられます(コースを無料で監査するか、検証済みの証明書を購入できます)。

  • データサイエンス:Rの基本
  • データサイエンス:視覚化
  • データサイエンス:確率
  • データサイエンス:推論とモデリング
  • データサイエンス:生産性向上ツール
  • データサイエンス:ラングリング
  • データサイエンス:線形回帰
  • データサイエンス:機械学習
  • データサイエンス:Capstone

(ⅱ) 分析:不可欠なツールと方法 (Georgia TechX、edX経由)

以下のコースが含まれ、すべてR、Python、およびSQLを使用して教えられます(無料で監査するか、検証済みの証明書を購入できます)。

  • 分析モデリングの概要
  • データ分析のためのコンピューティングの概要
  • ビジネスのためのデータ分析

(iii) Pythonスペシャライゼーションを使用した応用データサイエンス (ミシガン大学、Courseraを通じて)

以下のコースが含まれており、すべて Python を使用して教えられます (ほとんどのコースは無料で監査できますが、一部のコースでは検証済みの証明書の購入が必要です)。

  • Pythonのデータサイエンスの概要
  • Pythonでのプロット、グラフ作成、データ表現の適用
  • Pythonでの応用機械学習
  • Python での応用テキスト マイニング
  • Pythonでの応用ソーシャルネットワーク分析

(iv) データサイエンス教科書

教科書で学習すると、オンラインコースで得られるものよりも洗練された深い知識が得られます。 この本には、データ サイエンスと機械学習についての優れた入門書が含まれており、次のようなコードが含まれています。Python機械学習」 セバスチャン・ラシュカ著。

著者は、機械学習の基本的な概念を非常にわかりやすい方法で説明しています。 また、コードが含まれているため、提供されているコードを実際に使用して、独自のモデルを練習および構築できます。 私は個人的に、この本がデータサイエンティストとしての私の旅に非常に役立つことを発見しました。 この本は、データサイエンスを志す人にはお勧めです。 必要なのは、本を理解するための基本的な線形代数とプログラミングスキルだけです。

他にも優れたデータサイエンスの教科書がたくさんあります。データ分析のためのPythonウェス・マッキーニー作、応用予測モデリング」Kuhn&Johnsonによる、および「データマイニング:実用的な機械学習ツールとテクニック」イアン・H・ウィッテン、エイベ・フランク、マーク・A・ホール。

(v) 他のデータ サイエンス志望者とのネットワーク

私の個人的な経験から言えば、他のデータ サイエンス志望者とチームを組んで、データ サイエンスと機械学習のさまざまなトピックについて毎週グループで会話することで多くのことを学びました。 他のデータ サイエンス志望者とネットワークを築き、GitHub でコードを共有し、LinkedIn でスキルを披露しましょう。 これは、短期間で多くの新しい概念やツールを学ぶのに非常に役立ちます。 また、新しいアルゴリズムやテクノロジーだけでなく、物事を行うための新しい方法にも触れることができます。

2) データ サイエンスの理論的基礎を理解することは、データ サイエンスの実践的なスキルと同じくらい重要です。

データ サイエンスは数学を多用しており、次の知識が必要です。

(i)統計と確率

(ii) 多変数微積分

(iii)線形代数

(iv) 最適化と運用研究

ここから、焦点を当てる必要がある数学トピックについて詳しく調べてください。 機械学習に必須の数学スキル.

Python の sci-kit learn や R's Caret パッケージなどのパッケージには、データ サイエンスを行ったり機械学習モデルを構築したりするためのツールがいくつか含まれていますが、各手法の理論的基礎を理解することは非常に重要です。

3) 機械学習モデルをブラックボックス ツールとして使用することは避けてください。

データ サイエンスの確かな背景があれば、データ サイエンティストは信頼できる予測モデルを構築できます。 たとえば、モデルを構築する前に、次のように自問するかもしれません。

(i) 予測変数とは何ですか?

(ii) ターゲット変数は何ですか? ターゲット変数は離散的ですか、それとも連続的ですか?

(iii) 分類分析または回帰分析を使用する必要がありますか?

(iv) データセット内の欠損値をどのように処理すればよいですか?

(v) 変数を同じスケールにする場合、正規化または標準化を使用する必要がありますか?

(vi) 主成分分析を使用する必要がありますか?

(vii) モデル内のハイパーパラメータを調整するにはどうすればよいですか?

(viii) データセット内のバイアスを検出するためにモデルを評価するにはどうすればよいですか?

(ix) 異なるモデルを使用してトレーニングし、その後、SVM、KNN、ロジスティック回帰などの分類器を使用してアンサンブル平均を実行し、その後 3 つのモデルの平均を求めるアンサンブル手法を使用する必要がありますか?

(x) 最終モデルはどのように選択すればよいですか?

良い機械学習モデルと悪い機械学習モデルの違いは、さまざまなハイパーパラメーターに関する知識や、最高のパフォーマンスのモデルを取得するためにこれらのパラメーターをどのように調整するかなど、モデルの詳細をすべて理解する能力に依存します。 モデルの複雑さを完全に理解せずに機械学習モデルをブラック ボックスとして使用すると、モデルの改ざんにつながります。

要約すると、データ サイエンスは現在最も注目されている分野の 4 つです。 デジタル革命により、大量のデータが作成されました。 企業、業界、組織、政府は、毎日大量のデータを生成しています。 高度なスキルを持つデータサイエンティストの需要は今後も高まる一方です。 データ サイエンスの基礎を習得するために時間を投資するのに最適な時期です。 その際、データ サイエンスを XNUMX 週間または XNUMX か月で学べると宣伝する記事、書籍、Web サイトに注意してください。 急いではいけません。 時間をかけてデータ サイエンスの基礎をマスターしてください。

元の。 許可を得て転載。

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典: https://www.kdnuggets.com/2021/07/google-advice-learning-data-science.html

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?