ゼファーネットのロゴ

初心者のための18のオールタイムクラシックオープンソースコンピュータービジョンプロジェクト

日付:


概要

  • オープンソースのコンピュータービジョンプロジェクトは、ディープラーニング業界での役割を獲得するための優れたセグウェイです
  • これら18の人気があり、かつてないクラシックなオープンソースコンピュータービジョンプロジェクトに取り組み始めます

概要

現在、コンピュータビジョンアプリケーションはユビキタスです。 正直に言って、少なくともXNUMXつのコンピュータービジョンユースケース(電話でこんにちは顔認識!)に遭遇したり操作したりせずにXNUMX日中過ごした最後の時間を思い出すことはできません。

しかし、これが問題です。コンピュータビジョンを学びたい人は、理論的な概念に行き詰まる傾向があります。 そして、それはあなたが取ることができる最悪の道です! コンピュータビジョンを真に学び、習得するには、理論と実践的な経験を組み合わせる必要があります。

そして、そこがオープンソースのコンピュータービジョンプロジェクトの出番です。コンピュータービジョンのスキルを練習するのにXNUMXセントも費やす必要はありません。今いるところに座ってそれを行うことができます!

オープンソースコンピュータビジョンプロジェクト

この記事では、さまざまな情報に基づいて、オープンソースのコンピュータービジョンプロジェクトのリストを作成しました。 コンピュータビジョンのアプリケーション。 通過するLOTがあり、これは非常に包括的なリストなので、掘り下げてみましょう!

コンピュータビジョンとディープラーニングにまったく慣れておらず、ビデオ形式での学習を好む場合は、以下をご覧ください。

18のオープンソースコンピュータービジョンプロジェクトは、次のカテゴリに分類されます。

  • 画像分類
  • 顔認識
  • GANを使用したニューラルスタイルの転送
  • シーンテキスト検出
  • DETRによるオブジェクト検出
  • セマンティックセグメンテーション
  • 自動運転車の車線検知
  • 画像のキャプション
  • 人間の姿勢推定プロジェクト
  • 表情による感情認識

画像分類のためのオープンソースコンピュータビジョンプロジェクト

画像分類は、コンピュータビジョンの基本的なタスクです。 ここでの目的は、特定のラベルを割り当てて画像を分類することです。 人間が見る画像を理解して分類するのは簡単です。 ただし、マシンの場合は状況が大きく異なります。 マシンが車と象を区別するのは面倒な作業です。

以下は、画像分類のための最も有名なオープンソースプロジェクトのXNUMXつです。

  1. シファー10

      CIFAR-10データセット は、機械学習とコンピュータービジョンアルゴリズムのトレーニングに一般的に使用される画像のコレクションです。 これは、機械学習研究で最も人気のあるデータセットの60,000つです。 これには、32の異なるクラスで32、10xXNUMXのカラー画像が含まれています。 クラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表します。

  2. ImageNet

      ImageNet データセットは、コンピュータビジョンの研究で使用する大規模なビジュアルデータベースです。 プロジェクトでは、14万枚以上の画像にどのオブジェクトが描かれているかを示すために手で注釈が付けられており、少なくとも20,000万枚の画像には、境界ボックスも用意されています。 ImageNetには、XNUMXを超えるカテゴリが含まれています。

初心者の方は、 ニューラルネットワーク KerasまたはPyTorchを使用してゼロから。 より良い結果と学習レベルの向上のために、VGG-16、Restnet-50、Googlenetなどの事前トレーニング済みモデルによる転移学習を使用することをお勧めします。

オープンソースコンピュータビジョンプロジェクト-

画像分類の詳細については、以下の記事を参照することをお勧めします。

また、画像の分類について理解を深めるために、以下の論文を読むことをお勧めします。

顔認識のためのオープンソースコンピュータビジョンプロジェクト

顔認識は、コンピュータビジョンの代表的なアプリケーションのXNUMXつです。 セキュリティ、監視、またはデバイスのロック解除に使用されます。 これは、既存のデータベースに対して画像またはビデオの顔を識別するタスクです。 深層学習法を使用して、顔の特徴を学習し、それらを認識することができます。

これは、次の手順で構成される多段階プロセスです。

  1. 顔検出:これは最初のステップであり、入力画像またはビデオに存在するXNUMXつ以上の顔の位置を特定します。
  2. 面の位置合わせ:位置合わせは、入力面をデータベースと幾何学的に一致するように正規化しています。
  3. 特徴抽出:後で、認識タスクで使用できる特徴が抽出されます。
  4. 特徴認識:データベースへの入力特徴のマッチングを実行します。

次のオープンソースデータセットは、顔認識を適切に利用できるようにします。

  1. メガフェイス

    MegaFaceは、商業用顔認識問題の最も重要なベンチマークの4,753,320つとして機能する大規模な公開顔認識トレーニングデータセットです。 672,057のアイデンティティのXNUMXの顔が含まれています

  2. 野生の家のラベル付き顔

    野生のラベル付き顔(LFW)は、制約のない顔認識の問題を研究するために設計された顔写真のデータベースです。 Webから検出および収集された13,233人の画像が5,749枚あります。 また、写真に写っている1,680人の人物がデータセットにXNUMX枚以上の異なる写真を持っています。

さらに、プロジェクトを高度な段階に進めるために、次のような事前トレーニング済みモデルを使用できます。 フェイスネット.

フェイスネット は、顔認識、検証、およびクラスタリングタスクに統合された埋め込みを提供するディープラーニングモデルです。 ネットワークは、類似した画像間の距離が小さくなるように、ユークリッド空間で各顔画像をマッピングします。

オープンソースコンピュータビジョンプロジェクト-facenet

ソース

KerasおよびPyTorchで利用可能な事前トレーニング済みのFacenetモデルを簡単に使用して、独自の顔認識システムを作成できます。

試してみることができる最先端の顔認識モデルがいくつかあります。 深い顔 Facebookの研究者によって開発されたディープCNNベースのネットワークです。 これは、顔認識タスクでディープラーニングを使用する際の主要なマイルストーンでした。

過去30年間の顔認識技術の発展をよりよく理解するために、次のタイトルの興味深い論文を読むことをお勧めします。

GANを使用したニューラルスタイル転送用のオープンソースコンピュータービジョンプロジェクト

ニューラルスタイル転送は、XNUMXつの画像のコンテンツを別の画像のスタイルで再現するコンピュータービジョンテクノロジーです。 これは、生成的敵対的ネットワーク(GAN)のアプリケーションです。 ここでは、XNUMXつの画像(コンテンツ画像とスタイル参照画像)を取り、それらをブレンドして、出力画像が参照画像のスタイルでペイントされたコンテンツ画像のように見えるようにします。

これは、コンテンツImageに一致する出力画像のコンテンツ統計と、スタイル参照画像へのスタイル統計を最適化することによって実装されます。

オープンソースコンピュータビジョンプロジェクト-GANを使用したニューラルスタイルの転送

ソース

以下は、実践できる素晴らしいデータセットのリストです。

  1. COCOデータセット

    「COCOは、大規模なオブジェクト検出、セグメンテーション、キャプションデータセットです。 データセット内の画像は、日常のシーンからキャプチャされた日常のオブジェクトです。 さらに、マルチオブジェクトラベリング、セグメンテーションマスクアノテーション、画像キャプション、およびキーポイント検出を合計81のカテゴリーで提供し、非常に多目的で多目的のデータセットになります。

  2. ImageNet

    1. これについてはすでに前述しました。ImageNetは非常に柔軟です。

スタイル転送モデルを実装する方法について疑問がある場合は、 こちら あなたを助けることができるTensorFlowチュートリアルです。 また、テクノロジーについてさらに詳しく知りたい場合は、次のペーパーを読むことをお勧めします。

シーンテキスト検出用のオープンソースコンピュータービジョンプロジェクト

特定のシーンでテキストを検出することは、別の非常に興味深い問題です。 シーンテキストは、屋外環境でカメラによってキャプチャされた画像に表示されるテキストです。 たとえば、道路上の車のナンバープレート、道端の看板など。

シーン画像のテキストは、形、フォント、色、位置が異なります。 シーンテキストの認識の複雑さは、不均一な照明とフォーカスによってさらに増加し​​ます。

オープンソースコンピュータービジョンプロジェクト-シーンテキスト検出

次の一般的なデータセットは、シーンテキスト検出の分析におけるスキルを高めるのに役立ちます。

  1. SVHN

    ストリートビューハウスナンバー(SVHN)データセットは、世の中で最も人気のあるオープンソースデータセットの600つです。 Googleが作成したニューラルネットワークで使用され、家の番号を読み取ってそれらの位置情報と照合します。 これは、番地を正確に識別するモデルを操作、学習、トレーニングするための優れたベンチマークデータセットです。 このデータセットには、Googleストリートビューから取得した家屋番号のXNUMX万を超えるラベル付きの実世界の画像が含まれています。

  2. SceneTextデータセット

    シーンテキストデータセットは、さまざまな照明条件下の屋外と屋内のシーンを含む、さまざまな環境でキャプチャされた3000個の画像で構成されています。 画像は、高解像度デジタルカメラまたは低解像度携帯電話カメラを使用してキャプチャされました。 さらに、すべての画像が640×480にサイズ変更されました。

さらに、シーンテキスト検出は、画像内のテキスト検出とテキスト認識で構成されるXNUMX段階のプロセスです。 テキスト検出のために、私は最先端の深層学習法を見つけました (効率的な正確なシーンテキスト検出器)。 水平および回転した境界ボックスを見つけることができます。 任意のテキスト認識方法と組み合わせて使用​​できます。

シーンテキスト検出に関するその他の興味深い論文を以下に示します。

DETRによるオブジェクト検出のためのオープンソースコンピュータービジョンプロジェクト

オブジェクト検出は、バウンディングボックスを通じて適切なラベルとともに画像内に存在する各対象オブジェクトを予測するタスクです。

数か月前、Facebookはオブジェクト検出フレームワークであるDEtection TRansformer(DETR)をオープンソース化しました。 DETRは、オブジェクト検出の問題に対する効率的で革新的なソリューションです。 オブジェクト検出を直接セット予測問題と見なすことで、トレーニングパイプラインを合理化します。 さらに、トランスフォーマーに基づくエンコーダー/デコーダーアーキテクチャーを採用しています。

オープンソースのコンピュータビジョンプロジェクト-DETRによるオブジェクト検出

DERTの詳細については、こちらをご覧ください & コラボノート.

オブジェクト検出のために以下のオープンソースのデータセットに取り組んで、ポートフォリオを多様化します。

  1. 画像を開く

    Open Imageは、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーションマスク、視覚的な関係、ローカライズされたナラティブで注釈が付けられた約9万の画像のデータセットです。 データセットは、トレーニングセット(9,011,219画像)、検証セット(41,620画像)、およびテストセット(125,436画像)に分割されます。

  2. MS-ココ

    MS-COCOは、オブジェクト検出の問題に一般的に使用される大規模なデータセットです。 これは、画像ごとに330つのキャプションを持つ80のオブジェクトカテゴリとキーポイントを持つ5人の250,000万の画像で構成されています。

オブジェクト検出の詳細については、次のリソースをご覧ください。

セマンティックセグメンテーションのためのオープンソースコンピュータビジョンプロジェクト

コンピュータービジョンテクノロジーにおける完全なシーン理解について話すとき、意味論的セグメンテーションが登場します。 これは、画像内のすべてのピクセルをオブジェクトの関連するクラスに分類するタスクです。

オープンソースのコンピュータビジョンプロジェクト-セマンティックセグメンテーション

以下は、このトピックを実践するためのオープンソースデータセットのリストです。

  1. カムビッド

    このデータベースは、リリースされる最初の意味的にセグメント化されたデータセットのXNUMXつです。 これは、(リアルタイムの)セマンティックセグメンテーション研究でよく使用されます。 データセットには以下が含まれます。

    • 367トレーニングペア
    • 101個の検証ペア
    • 233テストペア
  2. 街並み

    このデータセットは、元の都市景観の処理されたサブサンプルです。 データセットには元の動画の静止画像があり、セマンティックセグメンテーションラベルは元の画像と一緒に画像で表示されます。 これは、セマンティックセグメンテーションタスクに最適なデータセットの2975つです。 500トレーニング画像ファイルと256 x検証画像ファイルがあり、それぞれ512xXNUMXピクセルです

セマンティックセグメンテーションの詳細については、次の記事をお勧めします。

以下は、セマンティックセグメンテーションのコードで利用可能ないくつかの論文です。

自動運転車の車線検出のためのオープンソースコンピュータービジョンプロジェクト

An 自律車   自動車 その環境を感知し、人間の関与なしに動作することができます。 彼らは、車両のさまざまな部分に適合するさまざまなセンサーに基づいて、周囲の地図を作成して維持します。

これらの車両には、近くの車両の位置を監視するレーダーセンサーがあります。 ビデオカメラが信号機を検出し、道路標識を読み取り、他の車両とLidar(光検出および測距)センサーを追跡して、車の周囲に光のパルスを反射させ、距離を測定し、道路の端を検出し、車線の標示を識別します

車線検出は、これらの車両の重要な部分です。 道路輸送では、 レーン は、運転手を制御および誘導し、交通衝突を減らすために単一の車両ラインで使用するように指定されている車道の一部です。

データサイエンティストの履歴書に追加するエキサイティングなプロジェクトです。 以下は、実験に使用できるいくつかのデータセットです。

  1. シンプル

    このデータセットは、Tusimple Lane Detection Challengeの一部でした。 それぞれに3626秒の長さの1ビデオクリップが含まれています。 これらの各ビデオクリップには、注釈付きの最後のフレームが付いた20フレームが含まれています。 これは、3626ビデオクリップを含むトレーニングおよびテストデータセット、トレーニングデータセット内の3626注釈付きフレーム、およびテスト用の2782ビデオクリップで構成されています。

場合、あなたはプロジェクトを開発するためのいくつかのチュートリアルを探しています以下の記事をチェックしてください-

画像キャプションのためのオープンソースコンピュータビジョンプロジェクト

あなたもあなたの友達もクールなキャプションを思い付くことができないため、ソーシャルメディアの画像にキャプションを付けることができるいくつかのテクノロジーを望んだことがありますか? 画像キャプションのためのディープラーニングがあなたを救います。

画像のキャプションは、画像の説明文を生成するプロセスです。 これは、コンピュータビジョンと自然言語処理(NLP)を組み合わせたタスクです。

コンピュータビジョン手法は、入力画像から特徴を理解して抽出するのに役立ちます。 さらに、NLPは画像を正しい順序のテキスト記述に変換します。


以下は、画像キャプションで手を汚すのに役立ついくつかのデータセットです。

  1. COCOキャプション

    COCOは、大規模なオブジェクト検出、セグメンテーション、およびキャプションデータセットです。 これは、330Kの画像(> 200Kのラベル付き)と1.5万のオブジェクトインスタンス、および画像ごとに80つのキャプションが付けられた5のオブジェクトカテゴリで構成されています。

  2. フリッカー8kデータセット

    これは、158,915の画像を説明する31,783のクラウドソーシングキャプションで構成される画像キャプションコーパスです。 これはの延長です  Flickr 8kデータセット。 新しい画像とキャプションは、日常の活動やイベントを行う人々に焦点を当てています。

プロジェクトの実装を探している場合は、次の記事をご覧になることをお勧めします。

また、私はあなたがこの著名なものを経ることをお勧めします 画像のキャプション。

人間の姿勢推定のためのオープンソースコンピュータビジョンプロジェクト

人間の姿勢推定は、コンピュータビジョンの興味深いアプリケーションです。 あなたは聞いたことがあるに違いない ポセネット人間の姿勢推定のためのオープンソースモデルです。 簡単に言うと、姿勢推定は、画像/ビデオに存在する人物または物体の姿勢を推測するためのコンピュータビジョン技術です。

姿勢推定の仕組みについて説明する前に、まず「人間のポーズの骨格」について理解しましょう。 これは、人のポーズを定義するための座標のセットです。 座標のペアは 手足。 さらに、ポーズ推定は、画像またはビデオ内の人間のポーズスケルトンの重要なポイントを識別、配置、追跡することによって実行されます。

ソース

姿勢推定モデルを開発する場合のデータセットは次のとおりです。

  1. MPII

    MPII Human Poseデータセットは、関節式人間の姿勢推定を評価するための最先端のベンチマークです。 データセットには、 25K画像 含む 40万人 注釈付きの体の関節があります。 データセット全体 410人間の活動 各画像にはアクティビティラベルがあります。

  2. フマネバ

HumanEva-Iデータセットには、7Dボディポーズと同期する3つの調整済みビデオシーケンスが含まれています。 データベースには、トレーニング、検証、およびテストセットに分割された4つの一般的なアクション(ウォーキング、ジョギング、ジェスチャーなど)を実行する6人の被験者が含まれています。

私が見つかりました ディープポーズ 姿勢推定にディープラーニングモデルを使用した非常に興味深い研究論文としてのGoogleによる。 さらに、複数の研究を訪問することができます 論文 よりよく理解するためにポーズ推定で利用可能です。

顔の表情による感情認識のためのオープンソースコンピュータビジョンプロジェクト

顔の表情は、非言語的コミュニケーションのプロセスにおいて、また人を識別するために重要な役割を果たします。 それらは人の感情を認識するのに非常に重要です。 したがって、表情に関する情報は、感情認識の自動システムでよく使用されます。

感情の認識は、環境、外観、文化、およびあいまいなデータにつながる顔の反応によって変化する可能性があるため、困難な作業です。

顔表情認識システムは、顔画像処理、特徴抽出、分類からなる多段階プロセスです。

                                                                                   source

以下は、練習できるデータセットです。

  1. 現実世界の感情面データベース

Real-world Affective Faces Database(RAF-DB)は、約30Kの多種多様な顔画像を含む大規模な表情データベースです。 これは、29672の実世界の画像と、各画像の7次元式分布ベクトルで構成されています。

これらのリソースを読んで、理解を深めることができます-

エンドノート

結論として、この記事では、初心者として実装できる10の興味深いコンピュータービジョンプロジェクトについて説明しました。 これは完全なリストではありません。 何かを見逃していると感じた場合は、下のコメントに自由に追加してください!

また、ここでは、ディープラーニングとコンピュータビジョンの世界を探索するのに役立ついくつかのCVリソースをリストアップしています。

コースやセルフプラクティスで学ぶデータサイエンスと、業界で働くデータサイエンスには多くの違いがあります。 分析、機械学習、人工知能に関するすべてを理解するために、これらの非常に明確な無料コースを受講することをお勧めします。

  1. AI / MLフリーコースの紹介 | モバイルアプリ
  2. ビジネスリーダー向けモバイルアプリのAI / MLの概要
  3. ビジネス分析無料コースの概要 | モバイルアプリ

ディスカッションがお役に立てば幸いです。 今度は自分でコンピュータビジョンの実装を開始する番です。

この記事は、モバイルアプリでも読むことができます。 Googleのプレイでそれを取得する

関連記事

出典:https://www.analyticsvidhya.com/blog/2020/09/18-open-source-computer-vision-projects-beginners/

スポット画像

最新のインテリジェンス

スポット画像