ゼファーネットのロゴ

画像の見栄えを良くする AI ツール | クアンタマガジン

日付:

概要

これは犯罪や SF における最大の常套句の XNUMX つです。捜査官がコンピュータ画面上でぼやけた写真を取り出し、補正を依頼すると、ドーンと画像の焦点が合い、重要な手がかりが明らかになります。 これはストーリーテリングとしては素晴らしい利便性ですが、何十年もの間、イライラするフィクションであり続けてきました。画像を拡大しすぎると、目に見えてピクセル化されてしまいます。 これ以上のことを行うのに十分なデータがありません。

「単純に画像を拡大すると、ぼやけてしまいます。 多くの詳細が詰められるだろうが、それは間違いになるだろう」と述べた。 ブライアン・カタンツァロ, Nvidia 応用深層学習研究担当副社長。

最近、研究者や専門家は人工知能アルゴリズムを画像補正ツールに組み込み始め、プロセスをより簡単かつ強力にしていますが、画像から取得できるデータ量には依然として限界があります。 幸いなことに、研究者たちは強化アルゴリズムをさらに推し進める中で、これらの限界に対処する新しい方法を発見しており、場合によっては限界を克服する方法も見つけています。

過去 XNUMX 年間、研究者たちは、敵対的生成ネットワーク (GAN) と呼ばれる新しい種類の AI モデルを使用して画像を強化し始めました。GAN は、詳細で印象的な画像を生成できます。 「突然、画像がずっと良く見えるようになりました」と彼は言いました。 トマー・ミカエリ、イスラエルのテクニオンの電気エンジニア。 しかし、彼は、GAN によって作成された画像が高レベルの歪みを示したことに驚きました。これは、強化された画像が、表示されているものの根底にある現実にどれだけ近いかを測定します。 GAN は美しく自然に見える画像を生成しましたが、実際には正確ではない細部を作り上げた、つまり「幻覚」を起こしており、高レベルの歪みとして記録されました。

ミカエリは、写真修復の分野が XNUMX つの異なるサブコミュニティに分かれているのを目の当たりにしました。 「そのうちの XNUMX つは素晴らしい写真を示していましたが、その多くは GAN によって作成されました。 もう XNUMX つはデータを表示していましたが、見栄えが良くなかったので、多くの画像は表示されませんでした」と彼は言いました。

2017 年、ミカエリと大学院生のヨチャイ・ブラウは、この二分法をより正式に調査しました。 彼らは、人間の主観的判断とよく相関する知覚品質の既知の尺度を使用して、さまざまな画像強調アルゴリズムのパフォーマンスを歪みと知覚品質のグラフにプロットしました。 Michaeli 氏の予想どおり、一部のアルゴリズムは非常に高い視覚品質をもたらしましたが、他のアルゴリズムは歪みが少なく、非常に正確でした。 しかし、両方の利点を備えたものはありませんでした。 どちらかを選択する必要がありました。 研究者たちはこれをこう名付けました 知覚と歪みのトレードオフ.

ミカエリも 他の研究者に異議を唱えた 与えられたレベルの歪みに対して最高の画質を生成できるアルゴリズムを考え出し、きれいな画像のアルゴリズムと優れた統計のアルゴリズムを公平に比較​​できるようにします。 それ以来、何百人もの AI 研究者がアルゴリズムの歪みと知覚の性質について報告してきました。 ミカエリとブラウの論文を引用 これはトレードオフについて説明したものです。

場合によっては、認識と歪みのトレードオフの影響が悲惨なものではないこともあります。 たとえば、Nvidia は、高解像度の画面では一部の低解像度のビジュアル コンテンツが適切にレンダリングされていないことに気づき、深層学習を使用してストリーミング ビデオをアップスケールするツールを XNUMX 月にリリースしました。 この場合、Nvidia のエンジニアは、アルゴリズムがビデオをアップスケールすると、元のビデオにはない視覚的な詳細が補われるという事実を受け入れ、精度よりも知覚的な品質を選択しました。 「モデルは幻覚を見ています。 それはすべて推測です」とカタンツァーロは語った。 「ほとんどの場合、超解像度モデルの推測が間違っていても、一貫性がある限り問題ありません。」

概要

研究や医療への応用では、当然、はるかに高い精度が要求されます。 AI技術は画像処理に大きな進歩をもたらしたが、「過剰適合や偽の特徴の追加など、望ましくない副作用が伴う場合があるため、細心の注意を払って扱う必要がある」と同氏は述べた。 ヤオ・ジュンジエ、デューク大学の生物医学工学者。 昨年、彼は共著を書きました AI ツールが、知覚と歪みのトレードオフの正確な側を安全に保ちながら、脳内の血流と代謝を測定する既存の方法をどのように改善できるかを説明しています。

画像から抽出できるデータ量の制限を回避する 2021 つの方法は、より多くの画像からデータを組み込むことです。ただし、これはそれほど単純ではないこともよくあります。 衛星画像を通じて環境を研究する研究者は、さまざまな視覚データ ソースを組み合わせることで進歩を遂げています。 XNUMX年に中国と英国の研究者グループが 融合されたデータ 30 つの異なるタイプの衛星から、世界で 10 番目に大きい熱帯雨林であり、生物多様性の最大の貯蔵庫の 2 つであるコンゴ盆地の森林伐採をより良く把握するために。 研究者らは、数十年にわたって森林破壊を測定してきた11機のランドサット衛星からデータを取得し、深層学習技術を使用して画像の解像度を21メートルから2メートルに改良した。 次に、その画像セットを、わずかに異なる検出器配列を備えた 7 つのセンチネル 8 衛星からのデータと融合しました。 組み合わせた画像により、「センチネル XNUMX またはランドサット XNUMX/XNUMX の画像を単独で使用した場合よりも XNUMX% ~ XNUMX% 多くの妨害領域を検出できるようになった」と研究者らは書いています。

ミカエリ氏は、情報へのアクセスに関する厳しい制限を回避できないにしても、回避する別の方法を提案しています。 低品質の画像を強化する方法について XNUMX つの明確な答えを決める代わりに、モデルは元の画像の複数の異なる解釈を示すことができます。 「」というタイトルの論文で、探索可能な超解像度」と彼は、画像強化ツールがユーザーに複数の提案をどのように提示できるかをデモンストレーションするのに役立ちました。 灰色がかったシャツを着ているように見える人物のぼやけた低解像度画像を、シャツに黒と白の縦縞、横縞、またはチェックが入った高解像度画像に再構築することができます。これらはいずれも同様にもっともらしいものです。 。

別の例では、ミカエリはナンバー プレートの低品質の写真を撮り、それを最先端の AI 画像エンハンサーにかけたところ、ナンバー プレートの 1 がゼロに最も似ていることがわかりました。 しかし、ミカエリが設計した別の、より自由なアルゴリズムで画像を処理すると、その数字はゼロ、1、または 8 である可能性が同等に見えました。このアプローチは、数字がゼロであると誤って結論付けることなく、他の数字を除外するのに役立つ可能性があります。

さまざまな分野がそれぞれの方法で知覚と歪みのトレードオフに取り組んでいる中、AI 画像からどこまで抽出できるか、またそれらの画像をどの程度信頼できるかという問題が依然として中心となっています。 「こうした素晴らしい画像を出力するために、アルゴリズムは細部を作り上げているだけだということを心に留めておく必要があります」とミカエリ氏は言う。 こうした幻覚を軽減することはできますが、犯罪を解決する全能の「強化」ボタンは夢のままです。

スポット画像

最新のインテリジェンス

スポット画像