画像に描かれているピクセルのシーケンスを人工知能で単語に変換するために適用される技術は、XNUMX年以上前ほど生ではありません。 パフォーマンス、精度、信頼性の向上により、ソーシャルメディアから電子商取引まで、さまざまな分野でスムーズかつ効率的な画像キャプションが可能になります。 タグの自動作成は、ダウンロードした写真に対応しています。 このテクノロジーは、目の不自由な人が自分の周りの世界を発見するのに役立つ可能性があります。
この記事では、画像キャプションテクノロジの使用例、その基本構造、長所、および短所について説明します。 また、入力画像に表示される内容の意味のある説明を作成できるモデルを展開します。
視覚言語の目的として、画像のキャプションはコンピュータビジョンとNLPの助けを借りて解決することができます。 AIパーツは、CNN(畳み込みニューラルネットワーク)とRNN(リカレントニューラルネットワーク)、またはターゲットに到達するための任意の適用可能なモデルを搭載しています。
技術的な詳細に進む前に、画像のキャプションがどこにあるかを調べましょう。
AI駆動の画像タグ付けと説明のユースケース
「画像のキャプションは、幅広いサービスを可能にするコアコンピュータビジョン機能のXNUMXつです」と述べています。 黄学東、マイクロソフトのテクニカルフェローであり、ワシントン州レドモンドにあるAzure AI CognitiveServicesのCTOです。
彼は、画像キャプション技術の分野がすでに広大であるため、ポイントを持っています。つまり、eコマース、写真共有サービス、オンラインカタログの画像タグ付けです。
この場合、写真によるタグの自動作成が実行されています。 たとえば、ユーザーが画像をオンラインカタログにアップロードするときに、ユーザーの生活を簡素化できます。 この場合、 AIが画像を認識する 属性を生成します–これらは、署名、カテゴリ、または説明にすることができます。 このテクノロジーは、オンラインストアの商品の種類、素材、色、パターン、衣服のフィット感を判断することもできます。
同時に、画像キャプションは、写真共有サービスまたは任意のオンラインカタログによって実装され、SEOまたは分類の目的で画像の自動的に意味のある説明を作成できます。 さらに、キャプションを使用すると、画像が公開されるプラットフォームのルールに適合しているかどうかを確認できます。 ここでは、CNN分類の代替として機能し、トラフィックと収益の増加に役立ちます。
注: ビデオの説明を作成することは、はるかに複雑な作業です。 それでも、現在の技術の状態はすでにそれを可能にしています。
視覚障害者のための自動画像注釈
このようなソリューションを開発するには、画像をテキストに変換してから音声に変換する必要があります。 これらは、ディープラーニングテクノロジーのXNUMXつのよく知られたアプリケーションです。
というアプリ AIを見る マイクロソフトが開発したこの製品は、目の問題を抱える人々がスマートフォンを使って周囲の世界を見ることができるようにします。 プログラムは、カメラがそれに向けられたときにテキストを読み取ることができ、音声プロンプトを表示します。 印刷されたテキストと手書きのテキストの両方を認識し、オブジェクトと人を識別できます。
でログイン また、画像のテキスト説明を作成できるツールを導入しました。これにより、目の不自由な人や視力に問題のある人が画像やグラフィックのコンテキストを理解できるようになります。 この機械学習ツールは、いくつかのレイヤーで構成されています。 最初のモデルは、画像内のテキストと手書きの数字を認識します。 次に、別のモデルは、車、木、動物など、周囲の世界の単純なオブジェクトを認識します。XNUMX番目のレイヤーは、本格的なテキスト記述で主要なアイデアを見つけることができる高度なモデルです。
ソーシャルメディアのAI画像キャプション
AIベースのツールを使用して生成された画像キャプションは、FacebookとInstagramですでに利用可能です。 さらに、モデルは常にスマートになり、新しいオブジェクト、アクション、およびパターンを認識することを学習します。
Facebookは、ほぼXNUMX年前に代替テキストの説明を作成できるシステムを作成しました。 最近では、より正確になっています。 以前は一般的な単語を使用して画像を記述していましたが、現在、このシステムは詳細な記述を生成できます。
AIによるロゴの識別
画像キャプションテクノロジーは、他のAIテクノロジーとともに展開されています。 たとえば、DeepLogoはTensorFlow Object DetectionAPIに基づくニューラルネットワークです。 そしてそれはロゴタイプを認識することができます。 識別されたロゴタイプの名前は、画像のキャプションとして表示されます。 NS 研究 GANベースのロゴタイプ合成モデルについては、GANの仕組みに光を当てることができます。
画像キャプションのための深層学習モデルの研究
考えられるユースケースを念頭に置いて、写真に意味のあるテキストの説明を作成するモデルを適用しました。 たとえば、キャプションは、各画像のメインオブジェクトであるアクションとオブジェクトを説明できます。 トレーニングには、Microsoft COCO2014データセットを使用しました。
COCOデータセットは、大規模なオブジェクト検出、セグメンテーション、およびキャプションデータセットです。 1.5のカテゴリに分類された約80万の異なるオブジェクトが含まれています。 各画像には、人間が作成したXNUMXつのキャプションが注釈として付けられています。
応募しました Andrej Karpathyのトレーニング、検証、およびテスト分割 データセットを分割してパーツをトレーニング、検証、テストするため。 また、結果を評価するには、BLEU、ROUGE、METEOR、CIDEr、SPICEなどの指標が必要でした。
画像キャプションのMLモデルの比較
通常、画像キャプションのベースラインアーキテクチャは、入力を固定形式にエンコードし、単語ごとにシーケンスにデコードします。
エンコーダーは、XNUMXつのカラーチャネルを持つ入力画像を、「学習された」チャネルを持つ小さなプリントにエンコードします。 この小さいエンコードされた画像は、元の画像で役立つすべての要約表現です。 エンコーディングには、任意のCNNアーキテクチャを適用できます。 また、エンコーダ部分には転移学習を利用することができます。
デコーダーはエンコードされた画像を見て、単語ごとにキャプションを生成します。 次に、予測された各単語を使用して次の用語を作成します。
先に進む前に、モデルの作成とメッシュメモリトランスフォーマーモデルを使用したテストの結果として受け取ったものを確認してください。
AIベースの画像キャプション
また、エラーにつながる例についても調査しました。 エラーが表示される理由はいくつかあります。 最も一般的な間違いは、画質の低下と初期データセットに特定の要素がないことです。 モデルは一般的な画像を含むデータセットでトレーニングされているため、コンテンツがわからない場合や正しく識別できない場合は間違いを犯します。 これは人間の脳が機能するのと同じ方法です。
これは、ニューラルネットワークがどのように動作するかを説明する別のケースです。 データセットモデルにはトラはいませんでした。 代わりに、AIはそれが知っている最も近いオブジェクトを選びました-それは私たちの脳が未知のものを扱うのとまったく同じです。
画像キャプションの上下注意モデル
これは比較する最初のモデルです。 アップダウンメカニズムは、ボトムアップとトップダウンの注意メカニズムを組み合わせたものです。
より高速なR-CNNは、オブジェクト検出と画像キャプションタスク間の接続を確立するために使用されます。 地域提案モデルは、クロスドメイン知識を活用するため、オブジェクト検出データセットで事前にトレーニングされています。 さらに、他のいくつかのアテンションメカニズムとは異なり、どちらのモデルもアップダウンメカニズムでワンパスアテンションを使用します。
より高速なR-CNN(図5a)は、画像の特徴抽出に使用されます。 Faster R-CNNは、特定のクラスに属するオブジェクトを識別し、それらをバウンディングボックスでローカライズするように設計されたオブジェクト検出モデルです。 より高速なR-CNNは、XNUMX段階でオブジェクトを検出します。
地域提案ネットワーク(RPN)と呼ばれる最初の段階では、オブジェクトの提案を予測します。 交差オーバーユニオン(IoU)しきい値を使用した欲張り非最大抑制を使用して、トップボックスの提案が第XNUMX段階への入力として選択されます。
第14段階では、関心領域(RoI)プーリングを使用して、各ボックス提案の小さな特徴マップ(例:14×XNUMX)を抽出します。 これらの特徴マップは、CNNの最終レイヤーへの入力として一緒にバッチ処理されます。 したがって、最終的なモデル出力は、クラスラベル全体のソフトマックス分布と、各ボックス提案のクラス固有のバウンディングボックスの改良で構成されます。 スキームはから取られます 公式ポスター。
画像の特徴Vが与えられると、提案されたキャプションモデルは、「ソフト」トップダウンアテンションメカニズムを使用して、キャプション生成中に各特徴を重み付けします。 これは、上下の注意メカニズムが追加されたLSTMです。 オン。 これは、上下の注意メカニズムが追加されたLSTMです。 大まかに言えば、キャプションモデルはXNUMXつのLSTMレイヤーで構成されています。
画像キャプション用のメッシュメモリトランスフォーマモデル
画像のキャプションタスクを解決するために採用したもうXNUMXつのモデルは メッシュメモリトランス。 エンコーダーとデコーダーのパーツで構成されています。 それらの両方は、注意深い層のスタックで作られています。 エンコーダにはフィードフォワード層も含まれ、デコーダには重み付けを使用した学習可能なメカニズムがあります。
画像の領域はマルチレベルでエンコードされます。 モデルは、低レベルと高レベルの両方の関係を考慮に入れています。 学習した知識はメモリベクトルとしてエンコードされます。 エンコーダーとデコーダーのパーツのレイヤーは、メッシュのような構造で接続されています。 デコーダーは、各エンコードレイヤーの出力から読み取り、単語に対して自己注意を実行し、結果が変調されて合計された後、エンコードレイヤー全体にクロスアテンションを実行します。
そのため、モデルは画像の視覚的コンテンツだけでなく、エンコーダの事前知識も使用できます。 スキームはから取られます 公式紙.
画像キャプションのXNUMXつのモデルの比較
私たちの調査に基づいて、Up-downモデルとM2transformモデルを比較することができます。これらは、同じデータでトレーニングされているためです。 次の表に、両方のモデルの概要を示します。
表–評価指標
ブルー1 | ブルー2 | サイダー | RED | METEOR | |
アップダウンモデル | 0.8 | 0.358 | 1.16 | 0.573 | 0.275 |
M2トランスフォーマー | 0.8078 | 0.3834 | 1.278 | 0.58 | 0.2876 |
表–推論時間とメモリ
Time | メモリ | |||
CPU | GPU | CPU | GPU | |
アップダウンモデル | 104.47s | 17s | 1479mb | 1181mb |
M2トランスフォーマー | 23メートル32秒 | 3m 16s | 1423mb | 1310mb |
画像のキャプション:結果分析と将来の展望
使用したモデルはどちらもかなり良い結果を示しました。 彼らの助けを借りて、データセットからほとんどの画像に意味のあるキャプションを生成できます。 さらに、Faster-RCNNで事前抽出され、巨大なVisual Genomeデータセットで事前トレーニングされた機能のおかげで、モデルは人々の日常生活から多くのオブジェクトやアクションを認識し、それらを正しく記述することができます。
違いはなんですか?
Updownモデルは、M2Transformerよりも高速で軽量です。 その理由は、M2Transformerは、エンコーダーとデコーダーの間の追加の(「メッシュ」)接続や、過去の経験を記憶するためのメモリベクトルなど、より多くの手法を使用するためです。 また、これらのモデルは異なる注意メカニズムを使用します。
アップダウンアテンションはシングルパスで実行できますが、M2Transformerで使用されるマルチヘッドアテンションは複数回並行して実行する必要があります。 ただし、取得したメトリックによると、M2Transormerはより良い結果を達成しました。 その助けを借りて、より正確で多様なキャプションを生成できます。 M2Transformer予測には、データセットからの画像と他のいくつかの関連画像の両方の説明の不正確さが少なくなっています。 したがって、メインタスクをより適切に実行します。
XNUMXつのモデルを比較しましたが、画像のキャプションのタスクには他のアプローチもあります。 デコーダーとエンコーダーを変更したり、さまざまな単語ベクトルを使用したり、データセットを組み合わせたり、転移学習を適用したりすることができます。
モデルは、視力に問題のある人々のためのアプリケーションとして、または電子商取引プラットフォームに組み込まれた追加のツールとして、特定のビジネスに適したより良い結果を達成するために改善される可能性があります。 この目標を達成するには、関連するデータセットでモデルをトレーニングする必要があります。 たとえば、システムが布を正しく記述するためには、衣服を使用したデータセットでトレーニングを実行することをお勧めします。
PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。
出典:https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications