ゼファーネットのロゴ

あなたを雇う20の機械学習プロジェクト

日付:

あなたを雇う20の機械学習プロジェクト

機械学習とデータサイエンスの求人市場に参入したい場合、特にオンラインコースやブートキャンプを通じて独学で学んでいる場合は、スキルの習熟度を示す必要があります。 プロジェクトポートフォリオは、新しい技術を実践し、従業員が競争であなたを雇うべきであるという説得力のある証拠を提供するための優れた方法です。


By クシュブシャー、ProjectProのコンテンツマネージャー.

AIと機械学習業界は、かつてないほど活況を呈しています。 2021年の時点で、企業全体でAIの使用が増えると、2.9兆ドルのビジネス価値が生まれます。 AIは世界中の多くの産業を自動化し、その運営方法を変えました。 ほとんどの大企業はワークフローの生産性を最大化するためにAIを組み込んでおり、マーケティングやヘルスケアなどの業界はAIの統合によりパラダイムシフトを経験しています。

画像ソース: Unsplash

このため、過去数年間でAIの専門家に対する需要が高まっています。 100年から2015年にかけて、AIと機械学習関連の求人情報はほぼ2018%増加しています。この数はそれ以降増加しており、2021年に増加すると予測されています。

機械学習業界への参入を検討している場合、良いニュースは、利用可能な仕事が不足していないことです。 企業は、機械学習への移行を開拓できる才能のある労働力を必要としています。 しかし、雇用市場には、データ業界に参入したい人々が浸透しています。 機械学習を学びたい学生を対象とした特定の学位プログラムがないため、意欲的なML実践者の多くは独学で学んでいます。

AndrewNgの機械学習オンラインコースには4万人以上の学生が在籍しています。

残念ながら、オンラインコースに登録したり、機械学習Bootcampを受講したりすると、理論的な概念を学ぶのに役立ちますが、業界での仕事に備えることはできません。 理論を学んだので、やるべき実践的な仕事はもっとたくさんあります。 機械学習アルゴリズムの基本を知っているとしましょう。回帰モデルと分類モデルがどのように機能するかを理解し、さまざまなタイプのクラスタリング手法を知っているとします。

実生活の問題を解決するために学んだスキルをどのように実践しますか? 簡単な答えは次のとおりです。練習、練習、そして多様な練習 機械学習プロジェクト.

理論的な概念の学習が終了したら、AIと機械学習プロジェクトの作業を開始する必要があります。 これらのプロジェクトは、フィールドでのスキルを磨くために必要な練習を提供すると同時に、機械学習ポートフォリオに大きな付加価値をもたらします。

面倒なことはせずに、ポートフォリオの見栄えを良くするだけでなく、機械学習スキルを大幅に向上させるMLプロジェクトのアイデアをいくつか見ていきましょう。 これは、学生、意欲的な機械学習の実践者、および非技術分野の個人向けの最高の機械学習プロジェクトのいくつかの厳選されたリストです。 機械学習スキルのコーディングとノウハウがあれば、バックグラウンドに関係なくこれらのプロジェクトに取り組むことができます。 これは、初級レベルと上級レベルの機械学習プロジェクトのリストです。

データ業界に不慣れで、実際のプロジェクトの経験がほとんどない場合は、初心者レベルのMLプロジェクトから始めてから、より挑戦的なプロジェクトに進んでください。

初心者向けの機械学習プロジェクト

1.Kaggleタイタニック予測

このリストの最初のプロジェクトは、実行できる最も簡単なMLプロジェクトのXNUMXつです。 このプロジェクトは、データ業界の初心者を完了することをお勧めします。 TitanicデータセットはKaggleで入手でき、ダウンロードするためのリンクを以下に示します。

このデータセットは、タイタニック号で旅行した乗客のものです。 乗客の年齢、チケットの運賃、キャビン、性別などの詳細が含まれています。 この情報に基づいて、これらの乗客が生き残ったかどうかを予測する必要があります。

これは単純なバイナリ分類の問題であり、特定の乗客が生き残ったかどうかを予測するだけです。 このデータセットの最も良い点は、すべての前処理が自動的に行われることです。 機械学習モデルをトレーニングするための、すてきでクリーンなデータセットがあります。

これは分類の問題であるため、ロジスティック回帰、決定木、ランダムフォレストなどのアルゴリズムを使用して予測モデルを構築することを選択できます。 この初心者レベルの機械学習プロジェクトでは、XGBoost分類器などの勾配ブースティングモデルを選択して、より良い結果を得ることができます。

データセット: Kaggleタイタニックデータセット

2.住宅価格の予測

機械学習の初心者であれば、住宅価格のデータから始めることもできます。 このプロジェクトでは、Kaggleで利用可能な住宅価格データセットを使用します。 このデータセットのターゲット変数は特定の家の価格であり、家の面積、寝室の数、浴室の数、ユーティリティなどの情報を使用して予測する必要があります。

これは回帰の問題であり、線形回帰などの手法を使用してモデルを構築できます。 また、より高度なアプローチを取り、ランダムフォレストリグレッサまたは勾配ブースティングを使用して住宅価格を予測することもできます。

このデータセットには、ターゲット変数を除く80列があります。 変数を追加しすぎるとモデルのパフォーマンスが低下する可能性があるため、フィーチャを手動で選択するには、いくつかの次元削減手法を採用する必要があります。

データセットには多くのカテゴリ変数もあるため、ワンホットエンコーディングやラベルエンコーディングなどの手法を使用してそれらを適切に処理する必要があります。

モデルを作成したら、Kaggleの住宅価格競争に予測を送信できます。これは、まだ開いているためです。 競合他社が達成した最高のRMSEは0であり、多くの人が回帰と勾配ブースティング技術の助けを借りて0.15のような良い結果を達成しています。

データセット: Kaggle住宅価格予測データセット

3.ワインの品質予測

ワインの品質予測データセットは、データ業界の初心者の間でも非常に人気があります。 このプロジェクトでは、固定酸度、揮発性酸度、アルコール、密度を使用して、赤ワインの品質を予測します。

これは、分類または回帰の問題として扱うことができます。 NS ワインの品質 データセットで予測する必要のある変数の範囲は0〜10であるため、予測する回帰モデルを構築できます。 実行できるもう0つのアプローチは、値(10〜XNUMX)を離散間隔に分解し、それらをカテゴリ変数に変換することです。 たとえば、次のXNUMXつのカテゴリを作成できます— 低、中、 高いです.

次に、決定木分類器または任意の分類モデルを構築して、予測を行うことができます。 回帰と分類の機械学習スキルを練習するのは、比較的クリーンで簡単なデータセットです。

データセット: Kaggle赤ワイン品質データセット

4.心臓病の予測

ヘルスケア業界のデータセットを探索する場合、これは最初から優れた初心者レベルのデータセットです。 このデータセットは、CHD(冠状動脈性心臓病)の10年間のリスクを予測するために使用されます。 このデータセットの従属変数は、糖尿病、喫煙、高血圧、高コレステロール値などの心臓病の危険因子です。

独立変数は、CHDの10年間のリスクです。 これは0値分類の問題であり、ターゲット変数は、心臓病を発症したことがない患者の場合は1または0–1、発症した患者の場合はXNUMXです。 このデータセットでいくつかの特徴選択を実行して、心臓のリスクに最も寄与する特徴を特定できます。 次に、分類モデルを独立変数に適合させることができます。

このデータセットの患者の多くが   心臓病を発症します。 不均衡なデータセットは、オーバーサンプリング、ウェイトチューニング、アンダーサンプリングなどの適切な特徴エンジニアリング手法を使用して処理する必要があります。 適切に処理しないと、各データポイントの多数派クラスを単純に予測し、患者を特定できないモデルになってしまいます。 した 心臓病を発症します。 これは、特徴エンジニアリングと機械学習のスキルを練習するための優れたデータセットです。

データセット: Kaggle心臓病データセット

5.MNISTディジット分類

  MNIST データセットは、ディープラーニングの分野への足がかりです。 このデータセットは、0から9までの手書き数字のグレースケール画像で構成されています。タスクは、深層学習アルゴリズムを使用して数字を識別することです。 これは、XNUMX個の可能な出力クラスを持つマルチクラス分類問題です。 CNN(畳み込みニューラルネットワーク)を使用して、この分類を実行できます。

MNISTデータセットは、PythonのKerasライブラリ内に構築されています。 Kerasをインストールし、ライブラリをインポートして、データセットをロードするだけです。 このデータセットには約60,000枚の画像があるため、これらの画像の約80%をトレーニングに使用し、さらに20%をテストに使用できます。

データセット: Kaggle DigitRecognizerデータセット

6.Twitterデータの感情分析

Kaggleには多くのTwitter感情分析データセットがあります。 最も人気のあるデータセットの140つはsentiment1.6と呼ばれ、XNUMX万の前処理されたツイートが含まれています。 これは、感情分析に不慣れな場合に開始するのに最適なデータセットです。

これらのツイートには注釈が付けられており、ターゲット変数は感情です。 この列の一意の値は、0(負)、2(中立)、および4(正)です。

これらのツイートを前処理してベクトルに変換した後、分類モデルを使用して、関連する感情でツイートをトレーニングできます。 このタスクには、ロジスティック回帰、決定木分類器、XGBoost分類器などのアルゴリズムを使用できます。

もうXNUMXつの方法は、LSTMのような深層学習モデルを使用して感情予測を行うことです。 ただし、これは少し難しいアプローチであり、高度なプロジェクトのカテゴリに分類されます。

このラベル付きデータセットを、将来の感情分析タスクのベースとして使用することもできます。

収集して感情分析を実行したいツイートがある場合は、以前にsentiment140でトレーニングされたモデルを使用して、将来の予測を行うことができます。

データセット: KaggleSentiment140データセット

7.ピマインディアン糖尿病の予測

Pima Indian Diabetes Datasetは、診断測定に基づいて患者が糖尿病であるかどうかを予測するために使用されます。

モデルは、BMI、年齢、インスリンなどの変数に基づいて、患者の糖尿病を予測します。 このデータセットには、XNUMXつの独立変数とXNUMXつのターゲット変数のXNUMXつの変数があります。

ターゲット変数は '糖尿病'、 したがって、糖尿病が存在する場合は1、糖尿病が存在しない場合は0を予測します。

これは、ロジスティック回帰、決定木分類器、ランダムフォレスト分類器などのモデルを実験するための分類問題です。

このデータセット内のすべての独立変数は数値であるため、特徴エンジニアリングの経験が最小限である場合、これは最初から始めるのに最適なデータセットです。

これは初心者向けのKaggleデータセットです。 PythonとRでソリューションをコーディングする方法を説明するチュートリアルがオンラインにたくさんあります。これらのノートブックのチュートリアルは、より複雑なプロジェクトに進むことができるように、学習して手を汚すのに最適な方法です。

データセット: KagglePimaインド糖尿病データセット

8.乳がんの分類

Kaggleの乳がん分類データセットは、機械学習とAIスキルを実践するためのもうXNUMXつの優れた方法です。

現実の世界で最も監視されている機械学習の問題は、このような分類の問題です。 乳がんの特定における重要な課題は、良性(非がん性)腫瘍と悪性(がん性)腫瘍を区別できないことです。 データセットには腫瘍の「radius_mean」や「area_mean」などの変数があり、腫瘍が癌性であるかどうかに基づいてこれらの特徴に基づいて分類する必要があります。 このデータセットは、重要なデータの前処理を行う必要がないため、比較的簡単に操作できます。 また、バランスの取れたデータセットであり、多くの特徴エンジニアリングを行う必要がないため、タスクをより管理しやすくなります。

このデータセットで単純なロジスティック回帰分類器をトレーニングすると、0.90もの精度が得られます。

データセット: Kaggle乳がん分類データセット

9.TMDB興行収入の予測

このKaggleデータセットは、回帰スキルを練習するための優れた方法です。 これは約7000本の映画で構成されており、映画の収益を予測するには、存在する変数を使用する必要があります。

存在するデータポイントには、キャスト、クルー、予算、言語、リリース日が含まれます。 データセットには23個の変数があり、そのうちのXNUMXつはターゲット変数です。

基本的な線形回帰モデルでは、0.60を超える決定係数が得られるため、これをベースライン予測モデルとして使用できます。 XGBoost回帰やLightGBMなどの手法を使用して、このスコアを打ち負かしてみてください。

一部の列にはネストされたディクショナリにデータが存在するため、このデータセットは前のデータセットよりも少し複雑です。 このデータを使用可能な形式で抽出してモデルをトレーニングするには、追加の前処理を行う必要があります。

収益予測は、映画業界以外のさまざまなドメインにビジネス価値を提供するため、ポートフォリオに表示するのに最適なプロジェクトです。

データセット: KaggleTMDB興行収入予測データセット

10.Pythonでの顧客セグメンテーション

Kaggleの顧客セグメンテーションデータセットは、教師なし機械学習を開始するための優れた方法です。 このデータセットは、年齢、性別、年収、支出スコアなどの顧客の詳細で構成されています。

これらの変数を使用して、顧客セグメントを構築する必要があります。 似ている顧客は、似たようなクラスターにグループ化する必要があります。 このタスクには、K-Meansクラスタリングや階層的クラスタリングなどのアルゴリズムを使用できます。 顧客セグメンテーションモデルはビジネス価値を提供できます。

多くの場合、企業は顧客を分離して、顧客タイプごとに異なるマーケティング手法を考え出すことを望んでいます。

このデータセットの主な目標は次のとおりです。

  • 機械学習技術を使用して顧客のセグメンテーションを実現する
  • さまざまなマーケティング戦略のターゲット顧客を特定する
  • マーケティング戦略が現実の世界でどのように機能するかを理解する

このタスクのクラスタリングモデルを構築すると、ポートフォリオを際立たせることができます。マーケティング業界でAI関連の仕事に就こうとしている場合、セグメンテーションは優れたスキルです。

データセット: Kaggleモールの顧客セグメンテーションデータセット

履歴書のための中級/上級レベルの機械学習プロジェクト

上記のような単純な機械学習プロジェクトでの作業が終了したら、より挑戦的なプロジェクトに進むことができます。

1.売上予測

時系列予測は、業界で非常に頻繁に使用される機械学習手法です。 過去のデータを使用して将来の売上を予測することには、多くのビジネスユースケースがあります。 Kaggle Demand Forecastingデータセットを使用して、このプロジェクトを実践できます。

このデータセットには5年間の売上データがあり、今後50か月の売上を予測する必要があります。 データセットにはXNUMX​​の異なるストアがリストされており、各ストアにはXNUMXのアイテムがあります。

売上を予測するために、ARIMA、ベクトル自己回帰、または深層学習などのさまざまな方法を試すことができます。 このプロジェクトで使用できる方法のXNUMXつは、毎月の売上の増加を測定して記録することです。 次に、前月と今月の売上高の差に基づいてモデルを構築します。 休日や季節性などの要素を考慮に入れると、機械学習モデルのパフォーマンスを向上させることができます。

データセット: Kaggleストアアイテムの需要予測

2.カスタマーサービスチャットボット

カスタマーサービスのチャットボットは、AIと機械学習の手法を使用して、人間の代表者の役割を果たして顧客に返信します。 チャットボットは、顧客のニーズを満たすために簡単な質問に答えることができる必要があります。

現在、構築できるチャットボットにはXNUMX種類あります。

  • ルールベースのチャットボット—これらのチャットボットはインテリジェントではありません。 事前定義されたルールのセットが提供され、これらのルールに基づいてユーザーにのみ返信します。 一部のチャットボットには、事前定義された一連の質問と回答が提供されており、このドメイン外のクエリには回答できません。
  • 独立したチャットボット—独立したチャットボットは、機械学習を利用してユーザーのリクエストを処理および分析し、それに応じて応答を提供します。
  • NLPチャットボット—これらのチャットボットは、単語のパターンを理解し、さまざまな単語の組み合わせを区別できます。 トレーニングを受けた単語パターンに基づいて次に何を言うかを考え出すことができるため、XNUMXつのチャットボットタイプすべての中で最も進んでいます。

NLPチャットボットは、興味深い機械学習プロジェクトのアイデアです。 モデルをトレーニングするには、既存の単語のコーパスが必要になります。これを行うためのPythonライブラリを簡単に見つけることができます。 モデルをトレーニングしたい質問と回答のペアのリストを含む事前定義された辞書を作成することもできます。

3.野生生物物体検出システム

野生動物が頻繁に目撃される地域に住んでいる場合は、オブジェクト検出システムを実装して、その地域での野生動物の存在を特定すると便利です。 次の手順に従って、次のようなシステムを構築します。

  • 監視したい場所にカメラを設置してください。
  • すべてのビデオ映像をダウンロードして保存します。
  • 入ってくる画像を分析し、野生動物を識別するPythonアプリケーションを作成します。

Microsoftは、野生動物のカメラから収集したデータを使用して画像認識APIを構築しました。 彼らは、MegaDetectorと呼ばれるこの目的のためのオープンソースの事前トレーニング済みモデルをリリースしました。

Pythonアプリケーションでこの事前トレーニング済みモデルを使用して、収集された画像から野生動物を特定できます。 これは、これまでに言及した最もエキサイティングなMLプロジェクトのXNUMXつであり、この目的のために事前にトレーニングされたモデルが利用できるため、実装は非常に簡単です。

API: メガディテクタ

4.Spotify音楽レコメンダーシステム

SpotifyはAIを使用してユーザーに音楽を推奨します。 Spotifyで公開されているデータに基づいてレコメンダーシステムを構築してみることができます。

Spotifyには、オーディオデータを取得するために使用できるAPIがあります。リリース年、キー、人気、アーティストなどの機能を見つけることができます。 PythonでこのAPIにアクセスするには、Spotipyというライブラリを使用できます。

約600万行のKaggleでSpotifyデータセットを使用することもできます。 これらのデータセットを使用して、各ユーザーのお気に入りのミュージシャンに代わる最良の方法を提案できます。 また、各ユーザーが好むコンテンツやジャンルに基づいて、おすすめの曲を考え出すこともできます。

このレコメンダーシステムは、K-Meansクラスタリングを使用して構築できます—同様のデータポイントがグループ化されます。 クラスター内の距離が最小の曲をエンドユーザーに推奨できます。

レコメンダーシステムを構築したら、それを単純なPythonアプリに変換してデプロイすることもできます。 ユーザーにSpotifyでお気に入りの曲を入力してもらい、楽しんだ曲と最も類似しているモデルの推奨事項を画面に表示できます。

データセット: KaggleSpotifyデータセット

5.マーケットバスケット分析

マーケットバスケット分析は、一緒に販売できるアイテムを特定するために小売業者が使用する一般的な手法です。

例:

数年前、ある調査アナリストがビールとおむつの売り上げの相関関係を特定しました。 ほとんどの場合、顧客がビールを買うために店に足を踏み入れるたびに、彼らはおむつも一緒に購入しました。

このため、店舗は売り上げを伸ばすためのマーケティング戦略と同じ通路でビールとおむつを一緒に販売し始めました。 そしてそれはうまくいった。

ビールとおむつは男性が一緒に購入することが多いため、相関性が高いと考えられた。 男性は店に足を運び、家族のために他のいくつかの家庭用品(おむつを含む)と一緒にビールを購入しました。 これはかなり不可能な相関関係のように見えますが、実際に起こりました。

マーケットバスケット分析は、企業が頻繁に一緒に購入されるアイテム間の隠れた相関関係を特定するのに役立ちます。 これらの店舗は、人々が簡単に見つけられるようにアイテムを配置できます。

Kaggleのマーケットバスケット最適化データセットを使用して、モデルを構築およびトレーニングできます。 マーケットバスケット分析の実行に使用される最も一般的に使用されるアルゴリズムは、Aprioriアルゴリズムです。

データセット: Kaggleマーケットバスケット最適化データセット

6.ニューヨーク市のタクシー旅行時間

データセットには、タクシー旅行の開始座標と終了座標、時間、乗客数などの変数が含まれています。 このMLプロジェクトの目標は、これらすべての変数を使用してトリップ期間を予測することです。 これは回帰問題です。

時間や座標などの変数は、適切に前処理し、理解しやすい形式に変換する必要があります。 このプロジェクトは、見た目ほど単純ではありません。 このデータセットには、予測をより複雑にするいくつかの外れ値も含まれているため、特徴工学手法を使用してこれを処理する必要があります。

このNYCタクシートリップKaggleコンペティションの評価基準は、RMSLEまたは二乗平均平方根ログエラーです。 Kaggleの上位の提出物は0.29のRMSLEスコアを受け取り、KaggleのベースラインモデルのRMSLEは0.89です。

このKaggleプロジェクトを解決するには、任意の回帰アルゴリズムを使用できますが、この課題で最もパフォーマンスの高い競合他社は、勾配ブースティングモデルまたは深層学習手法のいずれかを使用しています。

データセット: KaggleNYCタクシー旅行時間データセット

7.リアルタイムのスパム検出

このプロジェクトでは、機械学習技術を使用して、スパム(不正)メッセージとハム(正当)メッセージを区別できます。

これを実現するには、KaggleSMSスパムコレクションデータセットを使用できます。 このデータセットには、スパムまたはハムとしてラベル付けされた約5Kのメッセージのセットが含まれています。

リアルタイムのスパム検出システムを構築するには、次の手順を実行できます。

  • KaggleのSMSスパムコレクションデータセットを使用して、機械学習モデルをトレーニングします。
  • Pythonで簡単なチャットルームサーバーを作成します。
  • チャットルームサーバーに機械学習モデルをデプロイし、すべての着信トラフィックがモデルを通過することを確認します。
  • メッセージがハムとして分類されている場合にのみ、メッセージの通過を許可します。 スパムの場合は、代わりにエラーメッセージを返します。

機械学習モデルを構築するには、最初にKaggleのSMSスパムコレクションデータセットに存在するテキストメッセージを前処理する必要があります。 次に、これらのメッセージを単語の袋に変換して、予測のために分類モデルに簡単に渡すことができるようにします。

データセット: KaggleSMSスパム収集データセット

8.マイヤーズ-ブリッグスパーソナリティ予測アプリ

ユーザーの発言に基づいてユーザーの性格タイプを予測するアプリを作成できます。

マイヤーズブリッグスタイプインジケーターは、個人を16の異なる性格タイプに分類します。 これは、世界で最も人気のある性格検査のXNUMXつです。

インターネットで自分の性格タイプを見つけようとすると、多くのオンラインクイズが見つかります。 約20〜30の質問に答えると、性格タイプに割り当てられます。

ただし、このプロジェクトでは、機械学習を使用して、XNUMXつの文だけに基づいて誰かの性格タイプを予測できます。

これを実現するために実行できる手順は次のとおりです。

  • マルチクラス分類モデルを構築し、KaggleのMyers-Briggsデータセットでトレーニングします。 これには、データの前処理(ストップワードと不要な文字の削除)といくつかの特徴エンジニアリングが含まれます。 この目的には、ロジスティック回帰のような浅い学習モデルまたはLSTMのような深い学習モデルを使用できます。
  • ユーザーが任意の文を入力できるアプリケーションを作成できます。
  • 機械学習モデルの重みを保存し、モデルをアプリと統合します。 エンドユーザーが単語を入力した後、モデルが予測を行った後、画面に性格タイプを表示します。

データセット: KaggleMBTIタイプのデータセット

9.気分認識システム+レコメンダーシステム

あなたは悲しくて、あなたを元気づけるために何か面白いものを見る必要があると感じたことがありますか? それとも、リラックスして何かリラックスするのを見る必要があるほどイライラしたことがありますか?

このプロジェクトは、XNUMXつの小さなプロジェクトを組み合わせたものです。

ライブのウェブ映像に基づいてユーザーの気分を認識し、ユーザーの表現に基づいて映画の提案を認識するアプリを構築できます。

これを構築するには、次の手順を実行できます。

  • ライブビデオフィードを取り込むことができるアプリを作成します。
  • Pythonの顔認識APIを使用して、ビデオフィード内のオブジェクトの顔と感情を検出します。
  • これらの感情をさまざまなカテゴリに分類した後、レコメンダーシステムの構築を開始します。 これは、感情ごとにハードコードされた値のセットにすることができます。つまり、推奨事項に機械学習を含める必要はありません。
  • アプリのビルドが完了したら、Heroku、Dash、またはWebサーバーにデプロイできます。

API: 顔認識API

10.YouTubeコメント感情分析

このプロジェクトでは、人気のあるYouTuberの全体的な感情を分析するダッシュボードを作成できます。

2億人以上のユーザーが少なくとも月にXNUMX回YouTubeの動画を視聴しています。 人気のYouTuberは、コンテンツで数千億回の再生回数を獲得しています。 しかし、これらのインフルエンサーの多くは過去の論争のために非難されており、国民の認識は絶えず変化しています。

感情分析モデルを構築し、ダッシュボードを作成して、時間の経過に伴う有名人の周りの感情を視覚化できます。

これを構築するには、次の手順を実行できます。

  • 分析したいYouTuberによる動画のコメントをスクレイプします。
  • 事前にトレーニングされた感情分析モデルを使用して、各コメントを予測します。
  • ダッシュボードでモデルの予測を視覚化します。 Dash(Python)やShiny(R)などのライブラリを使用してダッシュボードアプリを作成することもできます。
  • ユーザーが時間枠、YouTuberの名前、動画のジャンルで感情をフィルタリングできるようにすることで、ダッシュボードをインタラクティブにすることができます。

API: YouTubeコメントスクレーパー

まとめ

機械学習業界は大きく、チャンスに満ちています。 正式な学歴のない業界に参入したい場合、仕事をするために必要なスキルを持っていることを示す最良の方法は、プロジェクトを通じてです。

上記のほとんどのプロジェクトの機械学習の側面は非常に単純です。 機械学習の民主化により、モデル構築プロセスは、事前にトレーニングされたモデルとAPIを介して簡単に実現できます。

KerasやFastAIなどのオープンソースの人工知能プロジェクトも、モデル構築プロセスのスピードアップに役立っています。 これらの機械学習のトリッキーな部分と データサイエンスプロジェクト データの収集、前処理、および展開です。 機械学習に就職した場合、ほとんどのアルゴリズムは非常に簡単に構築できます。 売上予測モデルを作成するのにXNUMX、XNUMX日しかかかりません。 ほとんどの時間を、適切なデータソースを見つけ、モデルを本番環境に移行してビジネス価値を引き出すことに費やします。

元の。 許可を得て転載。

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?