ゼファーネットのロゴ

FacebookはXNUMX億枚のInstagram写真を使用して、部分的にトレーニングされた大規模なオブジェクト認識AIを構築しています

日付:

Facebookは、他のソーシャルネットワークであるInstagramから取得したXNUMX億枚の公開画像のデータセットを使用して、最先端の半教師ありコンピュータービジョンシステムをトレーニングしました。

SEERとして知られ、SElf-supERvisedの略で、この大規模な畳み込みニューラルネットワークにはXNUMX億を超えるパラメーターが含まれています。 物の画像を見せれば、自転車、バナナ、赤と青の縞模様のゴルフ傘など、それが認識するものを言葉で説明します。 その機能はそれほど目新しいものではありませんが、トレーニングの方法は、他のタイプのコンピュータービジョンモデルを教えるために使用される手法とは異なります。 基本的に、SEERは、自己監視と呼ばれるアプローチを使用して部分的に自分自身を教えました。

まず、Instagramの写真を、監督なしで類似性によってグループ化する方法を、ニックネームの付いたアルゴリズムを使用して学習しました。 SwAV。 次に、チームは、ImageNetデータセットから取得したXNUMX万枚の写真を、対応する人間が書いたラベルに関連付けるようにモデルを教えて、モデルを微調整しました。 この段階は、従来の教師あり手法でした。人間が写真とラベルをキュレートし、これは、それ自体で事前トレーニングされたニューラルネットワークに渡されます。

このようにして、ソフトウェアはInstagramからの数十億の画像に精通し、類似した画像をグループ化する方法を学び、XNUMX万のImageNetの例からそれらの画像にキャプションを付ける方法をトレーニングします。 それは、ニューラルネットワークにフィードするためにXNUMX億グラムのスナップに正確にラベルを付けるよりも効率的であるように思われます。

「私たちは、FAIRの研究から自己教師あり学習に発展したSwAVと呼ばれる新しいアルゴリズムを利用しました」とFacebookersのPriya Goyal、Vittorio Caggiano、Piotr Bojanowski、Armand Joulin 説明 今週は、Facebook AI Research、別名FAIRを参照します。

「SwAVはオンラインクラスタリングを使用して、類似した視覚的概念を持つ画像を迅速にグループ化し、それらの類似性を活用します。 SwAVを使用することで、教師あり学習の以前の最先端技術を改善することができました。これにより、トレーニング時間が6分のXNUMXに短縮されました。」

このようにして、SEERは、たとえば赤いリンゴの画像を「赤いリンゴ」という説明に関連付けることを学びました。 トレーニングが完了すると、モデルのオブジェクト認識スキルは、これまでに見たことのないImageNetの50,000枚の写真を使用してテストされました。各テストでは、写真の予測を作成し、信頼度の高いものから低いものへとランク付けする必要がありました。 各テストでの最高の予測は、84.2%の時間で正確だったと言われています。

モデルはしません 高いスコア ImageNetベンチマークのピアとして。 SEERのようなモデルの欠点は、監視対象のいとこよりも精度が低いことです。 それでも、プロジェクトの最初の著者であるGoyalは、半教師ありの方法でトレーニングすることには利点があります。 SEERで、言った 登録.

「自己監視の事前トレーニングを使用すると、ラベル、データキュレーション、その他のメタデータを必要としないため、より多様な画像セットで学習できます」と彼女は言います。 「これは、高度にキュレートされた限られたデータセットまたは小さなデータセットでしかトレーニングできず、世界の視覚的な多様性を捉えることができない教師ありトレーニングとは対照的に、モデルは世界のより多くの視覚的概念について学習できることを意味します。」

フェイスブック

何百人ものFacebookモデレーターが不満を言っています:AIコンテンツのモデレーションが機能しておらず、私たちはそれに対してお金を払っています

詳細を見る

Goyalは、この手法は、民間の臨床データから大きなラベル付きデータセットを収集することが困難な医用画像処理などの分野で役立つと考えています。 「SEERのパフォーマンスは、自己教師あり学習が実際の環境でのコンピュータービジョンタスクに優れていることを示しています。 これは、将来、より柔軟で、正確で、適応性のあるコンピュータービジョンモデルへの道を最終的にクリアする大きな進歩です」とチームは報告しました。

SEERは、512個のGPUを使用してXNUMX日間にわたってトレーニングされました。 モデルのコードは公開されていませんが、SEERの構築に使用されたPyTorchライブラリであるVISLSが稼働しています。 GitHubの.

Facebookによると、SEERは概念実証のアイデアであり、現時点ではWebの巨人の機能や製品を強化するために使用されることはありません。 ®

PrimeXBTをチェックアウト
ACミランの公式CFDパートナーとの取引
出典:https://go.theregister.com/feed/www.theregister.com/2021/03/06/facebook_ai_instagram/

スポット画像

最新のインテリジェンス

スポット画像