ゼファーネットのロゴ

ディープラーニングの幾何学的基盤

日付:

ディープラーニングの幾何学的基盤

幾何学的深層学習は、対称性と不変性の観点から、幅広いクラスの機械学習問題を幾何学的に統合する試みです。 これらの原理は、畳み込みニューラルネットワークの画期的なパフォーマンスとグラフニューラルネットワークの最近の成功の根底にあるだけでなく、新しいタイプの問題固有の誘導バイアスを構築するための原理的な方法も提供します。


By マイケルブロンスタイン (インペリアルカレッジ)、 ジョアンブルーナ (NYU)、 タコスコーエン (クアルコム)、および ペタル・ヴェリチコヴィッチ (DeepMind).

このブログ投稿 新しい「プロトブック」MMBronstein、J。Bruna、T。Cohen、およびP.Veličkovićに基づいています。 幾何学的ディープラーニング:グリッド、グループ、グラフ、測地線、ゲージ (2021) ペタルの話 ケンブリッジで、そして マイケルの基調講演 ICLR2021で。

 

1872年XNUMX月、バイエルンの都市エアランゲンにある小さな大学の哲学部が新しい若い教授を任命しました。 慣例として、彼は最初の研究プログラムを提供するように要求され、それはやや長くて退屈なタイトルで出版されました VergleichendeBetrachtungenüberneueregometrischeForschungen (「幾何学における最近の研究の比較レビュー」)。 教授は フェリックスクライン、当時わずか23歳であり、彼の最初の作品は「エアランゲンプログラム」[1]。

フェリックスクラインと彼のエアランゲンプログラム。 画像:ウィキペディア/ミシガン大学 歴史的な数学のコレクション.

XNUMX世紀は幾何学にとって非常に実り多いものでした。 ユークリッド後約XNUMX年ぶりに、射影幾何学の構築 ポンセレット、ガウス、ボリヤイ、ロバチェフスキーによる双曲幾何学、およびリーマンによる楕円幾何学は、多様な幾何学の動物園全体が可能であることを示しました。 しかし、これらの構造はすぐに独立した無関係の分野に分岐し、その時代の多くの数学者は、さまざまな幾何学が互いにどのように関連しているか、そして実際には何が関係しているかを疑問視していました 定義 ジオメトリ。

クラインの画期的な洞察は、幾何学の定義にアプローチすることでした。 不変、つまり、特定のタイプの変換の下で保持される構造(対称性)。 クラインは、群論の形式を使用してそのような変換を定義し、グループとそのサブグループの階層を使用して、それらから生じるさまざまなジオメトリを分類しました。 したがって、剛体運動のグループは従来のユークリッド幾何学につながりますが、アフィンまたは射影変換はそれぞれ、アフィン幾何学と射影幾何学を生成します。 重要なことに、エアランゲンプログラムは等質空間に限定され[2]、当初はリーマン幾何学を除外していました。

クラインのエアランゲンプログラムは、特定のタイプの変換の下で不変のままである特性の研究として幾何学にアプローチしました。 2Dユークリッド幾何学は、面積、距離、角度、したがって平行性も保持する剛体変換(等長変換群としてモデル化)によって定義されます。 アフィン変換は並列処理を保持しますが、距離も面積も保持しません。 最後に、射影変換は不変性が最も弱く、交差と複比のみが保持され、XNUMXつの中で最大のグループに対応します。 したがって、クラインは射影幾何学が最も一般的なものであると主張しました。

エルランゲンプログラムが幾何学と数学に与える影響は、広く非常に深刻でした。 それは他の分野、特に物理学にも波及し、対称性の考慮により第一原理から保存則を導き出すことができました。これはネーターの定理として知られる驚くべき結果です[3]。 この基本原理(ゲージ不変性の概念(1954年にヤンとミルズによって開発された一般化された形式))が重力を除くすべての基本的な自然の力を統合することに成功するまで、数十年かかりました。 これはいわゆる標準模型であり、私たちが現在知っているすべての物理学を説明しています。 ノーベル賞を受賞した物理学者、フィリップ・アンダーソン[4]の言葉を繰り返すことしかできません。

「物理学が対称性の研究であると言うのは、ほんの少し誇張しているだけです。」

ディープ(表現)学習の分野における現状は、XNUMX世紀の幾何学の状況を彷彿とさせると信じています。一方で、過去XNUMX年間で、ディープラーニングはデータサイエンスに革命をもたらし、コンピュータビジョン、音声認識、自然言語翻訳、Goのプレイなど、これまで手の届かないと考えられていた多くのタスクが可能です。 一方、現在、さまざまな種類のデータ用のさまざまなニューラルネットワークアーキテクチャの動物園がありますが、統一原則はほとんどありません。 結果として、異なる方法間の関係を理解することは困難であり、それは必然的に同じ概念の再発明と再ブランド化につながります。

今日のディープラーニング:アーキテクチャの動物園、いくつかの統一原則。 動物の画像:ShutterStock。

幾何学的ディープラーニングは、[5]で紹介した包括的な用語であり、クラインのエアランゲンプログラムと同様にMLの幾何学的統合を考え出す最近の試みを指しています。 これはXNUMXつの目的を果たします。XNUMXつは、最も成功したニューラルネットワークアーキテクチャを導出するための共通の数学的フレームワークを提供すること、もうXNUMXつは、原則的な方法で将来のアーキテクチャを構築するための建設的な手順を提供することです。

最も単純な設定での教師あり機械学習は、本質的に関数推定の問題です。トレーニングセットでの未知の関数の出力(たとえば、ラベル付けされた犬と猫の画像)が与えられると、関数を見つけようとします。 トレーニングデータによく適合し、以前は見られなかった入力の出力を予測できるいくつかの仮説クラスから。 過去XNUMX年間で、ImageNetなどの大規模で高品質のデータセットの可用性は、計算リソース(GPU)の増加と一致し、そのような大規模なデータセットを補間する能力を持つ豊富な関数クラスの設計を可能にしました。

ニューラルネットワークは、関数を表すのに適した選択肢のようです。パーセプトロンのような最も単純なアーキテクチャでも、6つのレイヤーを使用するだけで高密度の関数クラスを生成でき、任意の連続関数を任意の精度で近似できるためです。これは、ユニバーサルと呼ばれるプロパティです。近似[XNUMX]。

多層パーセプトロンは普遍近似器です。XNUMXつの隠れ層だけで、ステップ関数の組み合わせを表すことができ、任意の精度で任意の連続関数を近似できます。

低次元でのこの問題の設定は、推定誤差の正確な数学的制御を使用して、広く研究されてきた近似理論の古典的な問題です。 しかし、高次元では状況がまったく異なります。たとえば、リプシッツ連続関数の単純なクラスでさえ近似するために、サンプルの数が次元とともに指数関数的に増加することがすぐにわかります。これは、通称「次元の呪い」として知られる現象です。次元性。」 最新の機械学習手法は、数千または数百万の次元のデータを操作する必要があるため、次元の呪いは常に舞台裏にあり、そのような素朴な学習アプローチは不可能です。

次元の呪いの図解:リプシッツ連続関数を近似するために、 dエラーεのある次元単位超立方体(青)、𝒪(1 /εᵈ)サンプル(赤い点)が必要です。

これはおそらく、画像分類などのコンピュータビジョンの問題で最もよく見られます。 小さな画像でさえ非常に高次元になる傾向がありますが、直感的には、画像をベクトルに解析してパーセプトロンに送ると、壊れて捨てられる構造がたくさんあります。 画像が7ピクセルだけシフトされた場合、ベクトル化された入力は大きく異なり、シフトされた入力を同じ方法で分類する必要があることを学習するために、ニューラルネットワークに多くの例を示す必要があります[XNUMX]。

幸い、高次元のML問題の多くの場合、入力信号のジオメトリに由来する追加の構造があります。 この構造を「対称優先」と呼びます。これは、次元が呪われた問題に楽観的な見方を与える強力な一般原則です。 画像分類の例では、入力画像 x だけのものではありません d-次元ベクトルですが、一部で定義された信号 ドメイン Ω、この場合はXNUMX次元グリッドです。 ドメインの構造は、 対称グループ 𝔊—この例では2D翻訳のグループ—ドメイン上のポイントに作用します。 信号の空間𝒳(Ω)では、基になるドメインでのグループアクション(グループの要素、𝔤∈𝔊)は、いわゆる 群の表現ρ(𝔤)—私たちの場合、それは単に シフト演算子  d×d に作用する行列 d-次元ベクトル[8]。

幾何学的事前分布の図解:入力信号(画像x∈𝒳(Ω))はドメイン(グリッドΩ)で定義され、その対称性(平行移動グループ𝔊)はグループ表現ρ(𝔤)(シフト演算子)を介して信号空間で機能します)。 機能がどのように機能するかを仮定する f (たとえば、画像分類子)は、グループと相互作用して、仮説クラスを制限します。

入力信号の基礎となるドメインの幾何学的構造は、関数のクラスに構造を課します f 私たちが学ぼうとしていること。 XNUMXつを持つことができます 不変 グループのアクションの影響を受けない機能、つまり、 f(ρ(𝔤)x)=f(x)任意の𝔤∈𝔊および x。 一方、関数が同じ入力および出力構造を持ち、入力と同じ方法で変換される場合があります。このような関数は呼び出されます。 同変 そして満足する f(ρ(𝔤)x)=ρ(𝔤)f(x)[9]。 コンピュータビジョンの分野では、画像分類は、不変関数が必要な設定の良い例です(たとえば、画像内のどこに猫がいても、それを猫として分類したい)。出力がピクセル単位のラベルマスクであるセグメンテーションは、等変関数の例です(セグメンテーションマスクは入力画像の変換に従う必要があります)。

もうXNUMXつの強力な幾何学的優先事項は、「スケール分離」です。 場合によっては、近くのポイントを「同化」し、次のように関連付けられた信号空間の階層を作成することで、ドメインのマルチスケール階層(下図のΩとΩ ')を構築できます。 粗視化 オペレータ P。 これらの粗いスケールでは、粗いスケールの関数を適用できます。 関数と言う f is 局所的に安定 粗視化演算子の構成として近似できる場合 P と粗スケール関数、 ff 'P。 同時に f 長期的な依存関係に依存する可能性があります。局所的に安定している場合、これらは局所的な相互作用に分離され、粗いスケールに向かって伝播されます[10]。

細かいレベルの関数を近似できるスケール分離の図 f 構成として f≈f'∘P粗いレベルの関数の f ' および粗視化演算子 P.

これらのXNUMXつの原則は、表現学習に使用される一般的なディープニューラルアーキテクチャの大部分で認識できる幾何学的ディープラーニングの非常に一般的な青写真を提供します。典型的な設計は、次のシーケンスで構成されます。 同変層 (たとえば、CNNの畳み込み層)、おそらくその後に 不変のグローバルプーリング すべてを単一の出力に集約するレイヤー。 場合によっては、次の形式の粗大化手順によってドメインの階層を作成することもできます。 ローカルプーリング.

幾何学的ディープラーニングの青写真。

これは非常に一般的な設計であり、次のようなさまざまなタイプの幾何学的構造に適用できます。 グリッド、グローバル変換グループを持つ等質空間、 グラフ (そして、特定のケースとして、セット)、およびマニフォールド。ここでは、グローバルな等長不変性とローカルなゲージ対称性があります。 これらの原則の実装は、ディープラーニングに今日存在する最も人気のあるアーキテクチャのいくつかにつながります:畳み込みネットワーク(CNN)、 から出現 並進対称性、グラフニューラルネットワーク、DeepSets [11]、およびTransformers [12]、実装 順列不変性、に不変であるゲート付きRNN(LSTMネットワークなど) タイムワープ [13]、およびコンピュータグラフィックスとビジョンで使用される固有メッシュCNN [14]は、 ゲージ対称性.

幾何学的ディープラーニングの「5G」:グリッド、グループ(グローバルな対称性を持つ等質空間)、グラフ(および特定のケースとしてのセット)、および多様体。ここでは、幾何学的な事前分布がグローバルな等長不変性(測地線を使用して表現できます)によって表されます。とローカルゲージの対称性。

将来の投稿では、「5G」[15]の幾何学的ディープラーニングブループリントのインスタンスをさらに詳細に調査します。 最後に、対称性は歴史的に多くの科学分野で重要な概念であり、その中ですでに冒頭で述べたように物理学が重要であることを強調する必要があります。 機械学習コミュニティでは、対称性の重要性は、特にパターン認識とコンピュータービジョンへのアプリケーションで長い間認識されており、同変特徴検出に関する初期の研究は甘利俊一[16]とライナーレンズ[17]にまでさかのぼります。 ニューラルネットワークの文献では、MarvinMinskyとSeymourPapertによるパーセプトロンのグループ不変性定理[18]は、(単層)パーセプトロンが不変量を学習する能力に根本的な制限を課しています。 これは、多層アーキテクチャを研究する主な動機の19つであり[20–XNUMX]、最終的にはディープラーニングにつながりました。

脚注と参照

[1]一般的な信念によると、以下を含む多くの情報源で繰り返されています Wikipedia、エアランゲンプログラムは1872年7月にクラインの就任演説で配信されました。クラインは確かにそのような講演をしましたが(1872年XNUMX月XNUMX日)、それは非数学の聴衆のためであり、主に数学教育の彼の考えに関心がありました。 現在「エアランゲンプログラム」と呼ばれているのは、実際には前述のことでした。 カタログ フェルグライヘンデ ベトラハトゥンゲン、字幕付き Programm zum Eintritt indiephilosophischeFakultätunddenSenatderk。 フリードリヒ-アレクサンダース-UniversitätzuErlangen (「哲学部およびフリードリヒ・アレクサンダー皇帝上院への入学プログラム」は、 英訳)。 エアランゲンが信用を主張している間、クラインはそこにわずか1875年間滞在し、XNUMX年にミュンヘン工科大学に移りました(当時は 工科大学)、続いてライプツィヒ(1880)、そして最終的に1886年から彼が引退するまでゲッティンゲンに定住しました。 R.Tobiesを参照してください フェリックス・クライン—数学者、学術オーガナイザー、教育改革者 (2019)In:HG Weigand etal。 (編) フェリックス・クラインの遺産、スプリンガー。

[2]等質空間とは、「すべての点が同じ」空間であり、群作用によって任意の点を別の点に変換することができます。 これは、ユークリッド幾何学、アフィン幾何学、射影幾何学など、リーマン以前に提案されたすべての幾何学と、球や双曲空間などの一定曲率の空間での最初の非ユークリッド幾何学に当てはまります。 クラインのアイデアを多様体に拡張するのに、特にエリー・カルタンとフランスの幾何学学校によって、かなりの努力とほぼ50年を要しました。

[3]クライン自身はおそらく、物理学における彼のアイデアの可能性を予想しており、「数学物理学者は、多くの場合、射影的見解を適度に育てることによって彼に与えられた利点をどれほど永続的に無視しているのか」と不満を述べています。 その時までに、変分法の観点から物理システムを考えることはすでに一般的であり、そのようなシステムを支配する微分方程式を「最小作用の原理」から、すなわち、いくつかの汎関数の最小化として導き出しました。アクション)。 1918年に発表された論文で、エミーネーターは、物理システムの作用のすべての(微分可能な)対称性に対応する保存則があることを示しました。 これは、とにかく驚くべき結果でした。事前に、エネルギー保存の法則などの基本的な法則を発見するために綿密な実験的観察が必要でしたが、それでも、どこからも得られない経験的な結果でした。 歴史的なメモについては、C。Quiggを参照してください。 コロキウム:ネーターの定理の世紀 (2019)、arXiv:1902.01989。

[4] PWアンダーソン、 もっと違う (1972), Science 177(4047):393–396.

[5] MM Bronstein etal。 幾何学的深層学習:ユークリッドデータを超えて (2017)、IEEE Signal Processing Magazine 34(4):18–42は、スペクトル分析の観点から、グリッド、グラフ、および多様体での学習を統合しようとしました。 「幾何学的ディープラーニング」という用語は、実際には以前にMichael'sで造られました。 ERC助成金 提案。

[6]普遍近似定理には複数のバージョンがあります。 それは通常、G。チベンコにクレジットされています。 シグモイド関数の重ね合わせによる近似 (1989)制御、信号、およびシステムの数学2(4):303–314およびK. Hornik、多層フィードフォワードネットワークの近似機能(1991)、ニューラルネットワーク4(2):251–257。

[7]コンピュータービジョンにおけるこの問題の治療法は、視覚野の研究でノーベル医学賞を受賞したヒューベルとウィーゼルによる神経科学の古典的な研究からもたらされました。 彼らは、脳ニューロンが局所受容野に組織化されていることを示しました。これは、局所的な共有重みを持つ新しいクラスのニューラルアーキテクチャ、最初は福島邦彦のネオコグニトロン、パターン認識メカニズムの自己組織化ニューラルネットワークモデルのインスピレーションとして機能しました。位置のシフトの影響を受けない(1980)、Biological Cyber​​netics 36(4):193–202、そして畳み込みニューラルネットワーク、Y。LeCunet al。のセミナー作業、文書認識に適用される勾配ベースの学習(1998)、 Proc。 IEEE 86(11):2278–2324。画像全体での重みの共有により、次元の呪いが効果的に解決されました。

[8]グループは、グループ要素が何であるかは言うまでもなく、抽象オブジェクトとして定義されていることに注意してください。   (例えば、いくつかのドメインの変換)、それらがどのようにのみ 構成します。 したがって、非常に異なる種類のオブジェクトが同じ対称群を持つ可能性があります。

[9]これらの結果は、ほぼ不変および同変の関数の場合に一般化できます。たとえば、J。BrunaおよびS.Mallatを参照してください。 不変散乱畳み込みネットワーク (2013)、Trans。 PAMI 35(8):1872–1886。

[10]スケール分離は、物理学で活用されている強力な原理です。たとえば、高速多重極法(FMM)は、元々、長距離力の計算を高速化するために開発された数値手法です。 n-体の問題。 FMMは、近くにあるソースをグループ化し、それらを単一のソースとして扱います。

[11] M. Zaheer et al。、 ディープセット (2017)、NIPS。 コンピュータグラフィックスコミュニティでは、同様のアーキテクチャがCR Qi etal。で提案されました。 PointNet:3D分類とセグメンテーションのためのポイントセットに関するディープラーニング (2017)、CVPR。

[12] A. Vaswani et al。、 注意はあなたが必要とするすべてです (2017)、NIPSは、現在人気のあるTransformerアーキテクチャを導入しました。 かもね グラフニューラルネットワークと見なされます 完全グラフ付き。

[13] C.TallecおよびY.Ollivier、 リカレントニューラルネットワークは時間を歪めることができますか? (2018)、arXiv:1804.11188。

[14] J. Masci et al。、 リーマン多様体上の測地線畳み込みニューラルネットワーク (2015)、arXiv:1501.06297は、メッシュ上のローカル座標チャートにフィルターが適用された、最初の畳み込みのようなニューラルネットワークアーキテクチャでした。 これは、T。コーエンらの特定のケースです。 ゲージ同変畳み込みネットワークと二十面体CNN (2019)、arXiv:1902.04615。

[15] MM Bronstein、J。Bruna、T。Cohen、およびP.Veličković、幾何学的深層学習:グリッド、グループ、グラフ、測地線、およびゲージ(2021)

[16] S.-l. アマリ、不変信号変換を認めて検出する特徴空間(1978)、JointConf。 パターン認識。 アマリは、の分野のパイオニアとしても有名です 情報幾何学、微分幾何学のツールを使用して確率分布の統計的多様体を研究します。

[17] R. Lenz、画像処理におけるグループ理論的手法(1990)、Springer。

[18] M。ミンスキーとS.Aパパート。 パーセプトロン:計算幾何学入門(1987)、MITPress。 これは、最初の「AIの冬」のせいにされた(不)有名な本の第1969版であり、追加の結果が含まれており、XNUMX年以前のバージョンの批判の一部に対応しています。

[19] TJ Sejnowski、PK Kienker、およびGE Hinton、 隠れた単位を持つ対称群の学習:パーセプトロンを超えて (1986)、Physica D:Nonlinear Phenomena 22(1–3):260–275

[20] J. Shawe-Taylor、フィードフォワードネットワークへの対称性の構築(1989)、ICANN。 不変および同変ニューラルネットワークに関する表現論的見解をとることで信用できる最初の研究は、J。WoodおよびJ. Shawe-Taylor、表現論および不変ニューラルネットワーク(1996)、Discrete Applied Mathematics 69(1–2)です。 :33–60。 ディープラーニングの「現代」では、ニューラルネットワークへの対称性の構築はR.GensとPMDomingosによって行われました。 深い対称ネットワーク (2014)、NIPS(Pedro Domingos 'も参照) 招待講演 ICLR 2014で)

この投稿を校正してくれたBenChamberlainと、Yoshua Bengio、Charles Blundell、Andreea Deac、Fabian Fuchs、Francesco di Giovanni、Marco Gori、Raia Hadsell、Will Hamilton、Maksym Korablyov、Christian Merkwirth、Razvan Pascanu、Bruno Ribeiro、Annaに感謝します。 Scaife、JürgenSchmidhuber、Marwin Segler、Corentin Tallec、NgânVu、Peter Wirnsberger、David Wongは、この投稿の基になっているテキストのさまざまな部分についてフィードバックを寄せてくれました。 また、XiaowenDongとPietroLiòが「舞台恐怖症」を打破し、私たちの作品の初期バージョンを提示するのを手伝ってくれました。

元の。 許可を得て転載。

バイオス: マイケルブロンスタイン インペリアルカレッジの機械学習とパターン認識の教授兼議長であり、Twitterのグラフ学習研究の責任者です。 ジョアンブルーナ ニューヨーク大学クーラント研究所およびデータサイエンスセンターのコンピュータサイエンス、データサイエンス、および数学の准教授です。 タコスコーエン アムステルダム大学で機械学習の博士号を取得したクアルコムの機械学習研究者です。 ペタル・ヴェリチコヴィッチ ケンブリッジ大学(トリニティカレッジ)でコンピューターサイエンスの博士号を取得したDeepMindのシニアリサーチサイエンティストです。

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://www.kdnuggets.com/2021/07/geometric-foundations-deep-learning.html

スポット画像

最新のインテリジェンス

スポット画像