ゼファーネットのロゴ

網膜を模倣したスパイク光検出器により、エネルギー効率の高い視覚認識が可能になります

日付:

15 年 2024 月 XNUMX 日 (Nanowerkスポットライト) 厳しいエネルギー制約内で動作しながら、人間の脳の比類のない視覚能力を効果的に模倣することは、人間にとって大きな課題となります。 人工知能 開発者。人間の視覚システムは、ニューロン間で伝達されるスパイクと呼ばれる短い電気パルスを使用して、光学データをエレガントに処理します。このスパイク ニューラル コードは、限られた計算リソースを使用した比類のないパターン認識を支えています。ただし、現代のマシン ビジョンでは、電力を大量に消費するセンサーからの視覚入力を、コンピューター アルゴリズムが理解できる表現に相当量処理する必要があります。この計算量の多さにより、モバイル環境やモバイル環境での継続的に動作するビジョン システムの展開が抑制されます。 モノのインターネット コンテキスト。それに応じて、視覚的知性とエネルギー効率のより良いバランスをとる、生物にインスピレーションを得た代替アーキテクチャの追求が強化されています。これまで研究者たちは、生物学的視覚の重要な利点を人工システムに応用することに苦労してきました。カスタム スパイク カメラやセンサーは、視覚入力をスパイクとしてエンコードするために追加のコンポーネントを必要とする一方で、画質が犠牲になることがよくあります。一方、スパイキングニューロンを模倣したアルゴリズムは、従来のコンピューターハードウェアで実行した場合、生物学的対応物の効率に匹敵することはほとんどありません。これらの制限により、最先端のコンピュータ ビジョンの視覚機能とスパイク ニューラル ネットワークの低エネルギー消費を組み合わせた人工知能ビジョン システムの開発が滞っています。今回、北京理工大学の研究者らが報告した(先端材料, 「人間の視覚を完全にエミュレートした、急上昇する人工視覚アーキテクチャ」) シリコン回路で生物学的視覚の重要な側面をエミュレートする、有望なスパイクベースの人工視覚システム。彼らの新しい光活性ニューラル ネットワーク チップは、静的入力よりも視覚変化に対する網膜細胞の選択性を示しながら、光を直接スパイク電流に変換します。ライブ画像を分析するこの生物にヒントを得たアプローチを使用して、グループは限界トレーニング後に初歩的なニューラル ネットワークで手のジェスチャーを認識する精度が 90% 以上を達成しました。 人間の視覚を完全にコピー&ペーストすることに基づいた人工視覚アーキテクチャ 人間の視覚を完全にコピー&ペーストすることに基づいた人工視覚アーキテクチャ。 a 人間の視覚系は、網膜 (スパイク符号化) と脳 (情報処理) で構成されます。 b 新しいスパイキングベースの人工視覚戦略は、スパイキング光検出器 (スパイキングエンコーディング) と人工シナプス (情報処理) で構成されます。 (画像: Wiley-VCH Verlag の許可を得て転載) この革新の中核には、光レベルの変化に応じて電流のスパイクを出力する特殊な光検出回路があり、人間の目の網膜細胞をエミュレートします。 画像の内容に関係なくピクセル データの一定のストリームを出力する一般的なデジタル カメラとは異なり、これらの「スパイク光検出器」は、静的なシーンを表示しているときは非アクティブのままで、エンコードが必要な移動オブジェクトまたは新しく表示されたオブジェクトに対してのみスパイクを発射します。 この選択的なスパイク動作により、人間の網膜の視覚刺激の神経エンコーディングと同様の効率的な情報表現が可能になります。 スパイク光検出器とその生物学的対応物は、シーン全体の絶対的な光レベルを捕捉するのではなく、主に受容野内の光レベルの変化に反応します。 研究者らは、変化せず、おそらく重要ではない背景画像要素をフィルタリングすることで、限られた神経リソースを使用して生物学的視覚の優れたパターン認識を可能にすることを示唆しています。 テストでは、これらのイベント駆動型ピクセルの配列を、さまざまなダイナミクスの象徴的なグラフィックスと手のジェスチャーで照明すると、単純なニューラル ネットワーク処理によるその後の分類に十分な情報を含むスパイク パターンが誘発されました。 たとえば、アメリカ手話の指の綴りをスパイクに変換すると、50 文字あたりわずか XNUMX 個のトレーニング サンプルを使用して、ニューラル ネットワークで XNUMX つの異なる文字を迅速に識別できるようになりました。 重要なことに、確立された深層学習技術は、はるかに多くの電力を消費するデジタル カメラやグラフィックス処理ユニットからの広範なフレーム シーケンスを処理した後でのみ、同等の精度に達しました。 同様に、標準化された人間の活動データセットでシステムを評価すると、スパイク光検出器のピクセルが、ビデオあたりわずか 4 つのまばらなバイナリ シルエット フレームから適切な姿勢と動きのニュアンスを抽出しました。 ジャンプや手を振るなどのアクションの凝縮されたスパイク表現を基本的なニューラル ネットワーク分類器に入力すると、わずか 90 回のトレーニング エポックで XNUMX% の精度で認識できるようになりました。 このベンチマークと一致させるには、通常、精巧に設計されたディープ ニューラル ネットワークを使用して、何千もの高解像度ビデオ静止画を分析する必要があります。 画像認識タスクを処理するために、チームは、ニューロモーフィックプロセッサをスパイクするために以前に開発されたシナプスデバイスを統合することにより、生物からインスピレーションを得た回路を構築しました。 これらの人工シナプスは、生物学的ニューロン間の調整可能な接続強度を模倣し、学習を可能にする調整可能な記憶を提供します。 研究者らはプログラミングパルスを適用することで、光検出器からスパイクを受け取るシナプスに適切な重み付けを行い、ネットワークに基本的な形状と運動パターンの組み合わせを分類するよう教えた。 トレーニング後のシナプス伝導率値の明らかな違いは、光刺激内の固有の識別特徴に対応していました。 全体として、この結果は、脳の設計原理を使用した効率的なニューロモーフィック コンピューティングに向けた大きな進歩を示しています。 イベント駆動型の情報表現は、モバイル プラットフォームやその他の電力が制限されたコンテキストに人工知能を展開する際の主要な制約に対処します。 今後に向けて、研究者らは実用的なマシンビジョンアプリケーション向けにスパイクアーキテクチャの開発を継続することを目指しています。 人間の知覚に一致するフレームレートでより豊富な視覚データをキャプチャするための拡張された高解像度アレイにより、生物学者にヒントを得たビジョンシステムが普及する可能性があります。 さまざまな既存のセンサーからの最適化されたスパイクベースのデータ送信により、生物学的能力とのギャップがさらに縮まります。 自動運転車両ナビゲーション、拡張現実インターフェース、ロボティクス、およびコンピューター ビジョン ハードウェアの将来の需要拡大を促進すると予想されるその他の分野では、機能と効率の同時改善が依然として不可欠です。


マイケルバーガー
By

Michael Liebreich
バーガー



– マイケルは王立化学会による XNUMX 冊の本の著者です。
ナノ社会:技術の境界を押し上げる,
ナノテクノロジー:未来は小さい,
ナノエンジニアリング:テクノロジーを見えなくするスキルとツール
著作権©


ナノワークLLC

Spotlightゲスト著者になろう! 私たちの大きく成長しているグループに参加してください ゲスト寄稿者。 科学論文を発表したばかりですか、それともナノテクノロジーコミュニティと共有するための他のエキサイティングな開発がありますか? nanowerk.comで公開する方法は次のとおりです.

スポット画像

最新のインテリジェンス

スポット画像