ゼファーネットのロゴ

2年間の自己学習データサイエンスが私に教えてくれたこと

日付:

2年間の自己学習データサイエンスが私に教えてくれたこと

私たちの多くは、最初からデータサイエンスを自己学習しています。 オンデマンドで自己学習を続けることは非常に重要ですが、特に専門家になった後は、データサイエンスの実際のアプリケーションにとって重要な重要なアイデアを間違った方法で学習したり、見逃したりすることで、早い段階で多くの落とし穴が生じる可能性があります。


By ヴィシュヌU、マインドツリーのキャンパスマインド研修生| データサイエンスの探求.

(画像ソース)

データサイエンスの愛好家は、後で修士号を取得するのではなく、最初は独学で学ぶことがよくあります。 しかし、データサイエンスの広大な分野の現実は、後でその分野の初心者によって実現され、本当に貴重な時間は間違った学習方法に費やされます。 この記事では、2年間のデータサイエンスの学習の過程で学んだいくつかの事実を共有します。これは、より良い方法で学習するのに役立ちます。

データサイエンスは海です

学び続ける—この分野に終わりはありません! ((画像ソース).

始める前に、データサイエンスが非常に広大な分野であるという事実を理解してください。 数か月以内に、またはオンラインコースを受講して学習を完了することを期待しないでください。 研究開発は非常に頻繁に行われるため、長時間の学習に備えてください。 また、実際のデータサイエンスは、私たちが行っていることとはまったく異なるという事実を理解しますが、学んだことは記憶に留めておきます。

あなたはアインシュタインである必要はありませんが、少しの数学は害を及ぼしません

基本的な数学は不可欠です(画像ソース).

これは一般的なステートメントですが、少し数学(確率、微積分、統計、線形代数の基礎)が良いと感じました。 必ずしも主題を深く掘り下げる必要はありませんが、データの問題を解決する際には、基本的な理解が大きなプラスポイントになります。 数学計算による作業負荷の大部分は、図書館によって行われます。

後で使用するために機械学習を保存する

データサイエンスプロセス—正しいデータの収集と準備が不可欠であることを確認します(画像ソース).

最も一般的な間違いは、機械学習に直接飛び込んで、そこから学習を開始することですが、逆の方法でのみです。 機械学習は、データサイエンスプロセスの最後の部分です。 ここから学習を開始すると、データの読み込みと管理、探索的分析、データエンジニアリングなど、より重要な多くの概念を見逃してしまいます。 Pythonの学習、データの読み込み、データセット(パンダ)の操作から始めて、ダッシュボードと視覚化の生成に進み、次に機械学習と予測モデリングに進みます。 この 記事 一般的なデータサイエンスプロセスについて説明します。

Kaggleは最高の場所ですが、これを覚えておいてください

Kaggleは、データサイエンス愛好家にとって聖なる場所ですが、常に基本から始めます(画像ソース).

基本を終えたら、Kaggleでプロジェクトに取り掛かることができます。 Kaggleは、データセットを見つけることができるサイトです。これを使用して、データサイエンスのスキルに取り組むことができます。 ただし、XNUMXつ覚えておいてください。初心者の場合は、より簡単なタスクで基本的なデータセットと小さなデータセットの作業を開始してから、コンテストに進んでください。 その理由は、Kaggleは業界の専門家や研究者を見つけることができるパブリックプラットフォームだからです。 彼らの知識のレベルは、新人としての知識とは異なります。したがって、基本的なデータセットから始めて、複雑なモデリングの問題や競争に移ることで、自分で作業してください。

比較をやめ、学習を始める

比較すると、悪名高いインポスター症候群が発生しますが、それはあなたが気にかけている幻想にすぎません(画像ソース).

初心者が犯す最も一般的な間違いのXNUMXつは、自分の仕事を他の人と比較することです。 経験と知識のレベルの違いのため、これは大きな間違いです。 代わりに、逆のことを考えてください。それがあなたの理解のレベル内にある場合、彼らが何をしたかを学ぶようにしてください。 最高の作品を持っている人は皆、かつてあなたのような初心者でした。

「ビジネス上の問題を理解する」スキルを歓迎します

問題解決は不可欠なスキルです(画像ソース).

すべてのデータサイエンスの問題は、現実の世界またはビジネスにおける問題の解決に焦点を合わせています。 さらに、ビジネス上の問題を理解することは、「データサイエンスの最初のルール」と呼ばれることがよくあります。 そこにある最善のアドバイスは、視覚化とモデルを生成するのではなく、問題を解決するデータセットとプロジェクトに取り組むことです。 「Catsvs。Dogs」データセットはすべて、物事を学び、試すのに適していますが、プロジェクトや作業としては適していません。

毎回CSVファイルではなく、他にもあります

現実世界のデータはさまざまな形で存在します—優れたデータサイエンティストであることを知ってください(画像ソース).

初心者の場合は、CSVファイルのデータから始めるのが最善ですが、慣れてきたら、RegExpを含むテキストファイル、SQLデータベース、クラウドインターフェイスを備えたデータウェアハウス、非構造化データ(画像とオーディオファイル)、JSONデータなど。基本的なデータソースに慣れてきたら、データスクレイピングも試すことができます。 あなたはこれを読んでいるかもしれません 記事 同様に。

すべてのジャック、誰のマスターでもありません—ここに適用されます

オンデマンドで物事を構築することを学ぶ—短時間ですべてを学ぶことを期待しないでください(画像ソース).

データサイエンスでは、さまざまなライブラリ、ツール、APIを使用する必要がありますが、必ずしもマスターである必要はありません(マスターである場合は良いことです)。 ここでの主なアイデアは、概念のアイデアを持つことですが、必ずしも完全なライブラリまたはAPIを知っている必要はありません。 オンデマンドで何が必要かを学びます。

クラウドプラットフォームに慣れる

クラウドは別の分野ですが、多くの大規模なデータサイエンスの問題に役立ちます(画像ソース).

クラウドは、リソース要件が大きいか、ソリューションをクラウド自体に展開できるため、データサイエンスの問題と組み合わされることがよくあります。 クラウドプラットフォーム、さまざまなサービス、およびそれらの使用法について理解します。 クラウドは、データサイエンスの分野を中心に展開するビッグデータのストレージと管理のためのさまざまなサービスもホストします。

元の。 許可を得て転載。

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://www.kdnuggets.com/2021/09/2-years-self-teaching-data-science.html

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?