ゼファーネットのロゴ

50年にすべてのデータサイエンティストが読むべき2020冊の無料の本

日付:

データサイエンスブック

データ サイエンスは、統計、機械学習、ベイジアンなどの分野のメソッドとテクニックを含む学際的な分野です。それらはすべて、データから特定の洞察を生成することを目的としています。 この記事では、データ サイエンスに関する幅広いトピックをカバーする優れたデータ サイエンス書籍をいくつかリストします。

データサイエンスの本

この本ではデータサイエンスの概要を説明します。 データ サイエンスは非常に包括的な用語であり、この本はこの分野に初めて足を踏み入れようとしている人にとって最適です。 これを読んで、データ サイエンスとは何か、一般的なタスクとアルゴリズム、および一般的なヒントとコツを理解してください。

Foundations of Data Science は、線形代数、LDA、マルコフ連鎖、機械学習の基礎、統計などのデータ サイエンスの基礎を形成する選択された分野に関する論文です。 この本の理想的な読者は、この分野の数学的および理論的理解を深めたいと考えている初心者のデータ サイエンティストです。

この本はスタンフォードのコース CS246 および CS35A に基づいており、ユーザーが大規模なデータセットでデータ マイニングを行うためのトピックを学習するのに役立ちます。 多くの場合、データ サイエンティストが解決しなければならない非常に一般的な問題は、非常に大規模なデータセットに対して単純な数値タスク (小さなプログラムを作成することで実行できます) を実行することです。 MMDS はまさにそれに向けて機能します。 これに加えて、現実世界における線形代数やメートル距離の応用について学ぶのに役立つ次元削減や推奨システムなどのトピックもあります。 すべてのデータ サイエンティストにとって必読の書です。

データサイエンスブック

Python データ サイエンス ハンドブックでは、Python でのさまざまなデータ サイエンスの概念の適用について説明します。 おそらく Python でデータ サイエンスを学ぶのに最適な本 (同等のもののみ ウェス・マッキニーのネズミの本)、この本も Github で無料で読むことができます。 そのため、お金をかけずに学ぶことができます。

データサイエンスブック

Think Stats は読者に統計の基礎を教えます。つまり、読者は現実世界のデータセットに統計の概念と分布を適用し、数学的特性を使用してデータについてさらに学習しようとします。 おそらく、Python で統計を学びたい場合に始めるのに最適な本の XNUMX つです。

データサイエンスブック

ベイズ統計の仕組みは通常の統計とは多少異なります。 不確実性と実世界のデータセットへの分布の適合の概念により、ベイジアン手法は実世界のデータセットについての学習により適しています。 ダウニー教授の非常にクールな「Python でプログラミングして学ぶ」スタイルにより、この本はベイジアン手法を始めようとする人にとって魅力的なものになっています。

この本は、現実世界のシステムにおける応用線形代数を教えます。 アプリケーションには、回路、信号処理、通信、制御システムが含まれます。 Boyd 教授による前年度のコースノートへのリンクがあります。 ここ.

データサイエンスブック

凸型最適化は、多くの機械学習 (およびほぼすべての深層学習アルゴリズム) アルゴリズムが、最適なパラメーターのセットに到達するためにバックグラウンドで使用するものです。

データサイエンスブック

メタヒューリスティックは、ブルート フォースを使用して検索するプログラムを作成する必要があるタスクを実行するための、確率論的な方法をすばやく学習できる方法です。 おそらくデータが小さい場合、ブルート フォース アプローチは実装にそれほど労力はかかりませんが、データ量が追加されると非常に早く使い果たされてしまいます。 この本はおそらく、遺伝的アルゴリズム、山登り、共進化、(基本的な) 強化学習などのメタヒューリスティック手法への最良の入門書です。

データ サイエンスにおける Python ツールの概要。 データ サイエンスを始めたいと考えている上級 Python 開発者、またはデータ サイエンスのために R から Python に移行する人にとって、非常に優れたドキュメントです。 全体として、Python がデータ サイエンスで何ができるかを理解したい場合は、この記事を読む必要があります。

データサイエンスブック

Langmore と Krasner による『Applied Data Science』は、データ サイエンスを教えるための非常に実践的なアプローチを採用した本です。 この本では、Git の使用から基本的な Python の指導に始まり、データ サイエンスの分野で頻繁に使用されるさまざまなアルゴリズムの基礎を構築します。

蓄積されるデータが増えるにつれて、意思決定はもはや直感の機能ではなく、収集されたデータの機能になります。 バンディットアルゴリズムがあらゆる場所で使用されている場合、薬物検査や財務ポートフォリオの決定に使用される電子商取引 Web サイトの購入ボタンの適切な色は何ですか? 「山賊」を知るにはとても良い本です!

Python で多くの数値アルゴリズムをコーディングする方法を教える本。 数学的プログラムがどのように実装されるかを学びたい場合、または興味深い問題文で Python を学びたい場合に最適なリソースです。

データサイエンスブック

エフロンと伝説的なヘイスティによる、他のほとんどの本が採用している紙とペンによるアプローチではなく、今日利用可能な計算能力を使用して、統計的推論 (頻度主義とベイジアンの両方) を現代でどのように行うべきかを考えた本。 これは、統計を実際に使用しようとしている人 (初心者または経験者) にとって必読の書です。

「相関関係は因果関係ではない」はデータサイエンティストがよく使う言葉です。 しかし、この XNUMX つをどのように区別するのでしょうか? 本書は、データサイエンティスト向けに因果推論手法を解説することで答えを提供します。 完全な初心者向けではなく、これを読むには十分な確率の基礎が必要です。

最適輸送は、ある分布セットから別の分布セットへの代入を数学的に計算したものです。 これはおそらく、複数のフィールズ メダル (数学における最高の栄誉) を受賞したデータ サイエンスの数少ない分野の XNUMX つです。 数学的概念は、距離メトリックとして、また割り当ての問題解決のために、多くの機械学習および深層学習アルゴリズムで使用されます。

この本は、コンピューター サイエンスと機械学習に必要なさまざまな数学分野を教えることを目的としています。 非常に数学的で、数学の専門分野からデータ サイエンスに進みたい人にとっては良いリソースです。

データ マイニングは、前述の有名な MMDS 本で見たことがあるかもしれませんが、大規模なデータセットに対して効率的に計算を実行する方法です。 これらの計算は総当たり手法で実行でき、小規模なデータセットではうまく機能する可能性がありますが、大規模なデータセットでは非常に長い時間がかかる可能性があります。 データマイニングの優れた入門書および参考本。

Python でのプログラミング、因果関係、テーブル、視覚化、基本的な統計に至るまで、データ サイエンスのさまざまな側面を考察します。 カリフォルニア大学バークレー校の基礎コースからのものなので、初心者にとっては良いリソースです。

名前が示すように、この本は凸最適化や次元削減などのデータ サイエンスの概念の背後にある数学的論文を示し、説明しています。 この本は、数学が好きな場合、またはこれらの概念の背後にある数学を特に学習したい場合に推奨されます。

情報理論は、線形代数、凸最適化、統計学と並んでデータ サイエンスで使用される XNUMX つの数学理論の XNUMX つです。 これは理論を理解するための良いチュートリアルです。 良い点は、初心者でもチュートリアルが利用できることです。

このリストで取り上げる多くの本の中で、私のお気に入りの線形代数の本。 初心者でも読みやすく、非常に応用的な感覚があり、読者が多くの数学的概念に夢中になることはありません。

多くの人は、これがストロング聖書に次いで入手可能な最高の初心者用線形代数リソースであると信じています。 また、非常に応用的です (基本的に Python である SAGE でのプログラミング演習) が、実践者よりも初心者向けです。

この本は、私の大学時代の線形代数の本のような気がします (私と一緒に工学を勉強した多くの学生に愛された本です)。 数学が多すぎて応用が少し少ないと、私は少し迷ってしまいますが、多くの人はそのような本の優雅さを楽しむでしょう。

この本は、線形代数と最適化アルゴリズムを組み合わせたものです。 繰り返しますが、このスタイルが好きな人向けの数学指向の本です。

本当に良いと思いました、それは見せているようなものです
学習するために複数の問題を解決します。 以前の本ほど厳密ではなく、見せながら学ぶことが多くなりました。 長い間線形代数に触れていない人にとっては良い復習になります。

線形代数の問題を解決するための確率アルゴリズムを扱っているため、誰もがこの本を読む必要があるわけではありません。 単純なアルゴリズムでは機能しない大規模な行列やベクトルを扱う場合に便利です。

線形代数をまったく異なる方法で見ることができます。 線形代数がクールだと思うなら、この新しい方法で問題を視覚化してみるとよいでしょう。

大学レベルの線形代数に関するもう XNUMX 冊の無料書籍。 初心者に適しています。 練習したい場合は宿題問題も付いています。

名前が示すように、このチュートリアルは、深層学習に必要な行列微積分を理解するのに役立ちます。

パラメータの最適化は、エンジニアリング分野にわたる問題で必要です。 凸最適化は多くの深層学習アルゴリズムで使用されていますが、線形計画法やシンプレックスなどの他のアルゴリズムについて知ることで、視野が広がります。

33. Scipy講義ノート

データ サイエンスの分野で働く場合は、科学的な Python スタックを学ぶ必要があります。 おそらく、Numpy、Scipy、Scikit-Learn、Scikit-Image、および必要なすべてのライブラリを学習するための最も一般的なチュートリアルです。

この膨大なチュートリアルは、ライブラリを学習して理解するために Pandas 開発チームによって作成されました。 データ サイエンスに取り組んでいる場合、Pandas は必ず学習すべきライブラリです。 逃げる道がない。

カルマン フィルターやその他のベイジアン フィルターは、推定されるパラメーターを使用して特定のモデルに適合できる、時間とともに発生するノイズの多いデータを扱う場合に役立ちます。 これらのモデルが行うことは XNUMX つあり、パラメータを推定することとノイズをモデル化することです。 最も一般的に使用される例は位置データですが、同様のフィルターは予測でもうまく機能します。 (こちらでも入手可能です githubの)

これまでに複数の統計的推論の本を見てきましたが、この本は特にデータ サイエンティストを念頭に置いて書かれています。 あなたがデータ サイエンティストで、統計的推論を手早く理解したいと考えているなら、この本が最適です。

世にあるほとんどの機械学習アルゴリズムを理解するために必要な数学を教える詳細な本。 初心者に優しい。

インタラクティブな視覚化を使用して確率を簡単に学習できる本。

統計学の勉強を紹介する本。 統計学を学んだことがない初心者はここから始めてください。

読者に統計を紹介する本とビデオ講義を組み合わせたもの。

データ サイエンスのさまざまな概念についての一般的な紹介。 これには、因果モデル、回帰モデル、要因モデルなどが含まれます。 サンプルプログラムはRで書かれています。

高速クエリのためのデータベースの最適化について説明した本。 現実世界で考えられるさまざまなモデルについて説明します。

Multi-Armed Bandits は、不確実性の下で時間をかけて意思決定を行うアルゴリズムです。 本書は多腕盗賊に関する入門書です。

量的経済学と、お気に入りのプログラミング言語 (Python または Julia) でのコードについての講義。

統計学者が Julia を学習しているのか、それとも (可能性はやや低いですが) Julia プログラマーが統計を学習しているのでしょうか? この本を試してみてください。

情報理論と推論は一般に別々に扱われますが、故マッケイ教授の本は両方の主題に取り組もうとしています。

確率的な意思決定に関するあまり技術的ではないチュートリアル。

これは実際には線形代数に関する本ではなく、線形代数の優れたアプリケーションをいくつかまとめて本にまとめたものです。

遺伝的アルゴリズムは、すべてのデータ サイエンティストが人生の中で一度は使用する必要があるツールです。 このチュートリアルは、初心者が遺伝的アルゴリズムがどのように機能するかを理解するのに役立ちます。

キューイングやその他のオペレーショナル リサーチの問題に取り組んでいる場合、Julia は非常に気に入っていただけるプログラミング言語かもしれません。 プログラムは Python のように読みやすく、非常に高速に実行されます。

あなたが新進気鋭のデータ サイエンティストで、現場で働くために必要な資質を備えていると考えている場合は、 履歴書 の一員になるチャンスを得るために パラレルドット データサイエンスチーム。

出典: https://blog.Paralleldots.com/data-science/50-must-read-free-books-for-every-data-science-enthusiast/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?