ゼファーネットのロゴ

ディープネットワークの世界をわかりやすく説明する

日付:

統計入門コースでは、モデルを一部のデータに適合させる場合、過剰適合の危険性を回避するために、自由パラメーターよりも多くのデータを用意する必要があることを学びます。ノイズの多いデータを適合しすぎると、新しいデータを適合できなくなります。 したがって、現代の深層学習では、データよりも桁違いに多くのパラメーターを使用することが実践されていることは驚くべきことです。 それにもかかわらず、ディープネットワークは優れた予測パフォーマンスを示し、実際には、パラメーターが多いほどパフォーマンスが向上します。 なぜそうなるのでしょうか?

機械学習の優れたパフォーマンスは、ネットワークの複雑さを制御することで得られることが以前から知られていました。これは、自由パラメーターの数の単純な関数ではありません。 ニューラルネットワークなどの分類器の複雑さは、このネットワークが表す関数の空間の「サイズ」を測定することに依存します。以前に提案された複数の技術的手段を使用します。たとえば、Vapnik-Chervonenkis次元、カバー数、またはRademacher複雑度いくつか。 これらの概念によって測定される複雑さは、パラメーターのノルム、つまり、パラメーターがどれだけ「大きく」なるかについて制約を課すことにより、学習プロセス中に制御できます。 驚くべき事実は、深いネットワークのトレーニングでは、そのような明示的な制約は必要ないように思われることです。 ディープラーニングは古典的な学習理論の外にありますか? 基盤を再考する必要がありますか?

新で ネイチャー·コミュニケーションズ マサチューセッツ工科大学脳認知科学部のユージン・マクダーモット教授であるトマソ・ポッジョ所長が率いる脳、心、機械センターのチームである論文「ディープネットワークにおける勾配降下法による複雑性制御」は、いくつかの光を当てています。このパズルは、現代の深層学習の最も実用的で成功したアプリケーションである分類問題に対処することによって行われます。

「分類の問題については、実際にはモデルのパラメーターが収束していないように見えますが、勾配降下中にサイズが無期限に大きくなることがわかります。 ただし、分類の問題では、正規化されたパラメータのみが重要です。つまり、サイズではなく、パラメータが定義する方向です」と、共著者でありMIT博士課程の候補者であるQianliLiao氏は述べています。 「私たちが示したそれほど明白ではないことは、正規化されていないパラメーターで一般的に使用される勾配降下法が、正規化されたパラメーターで望ましい複雑さの制御を誘発することです。」

「カーネルマシンなどの浅い線形ネットワークの回帰の場合、勾配降下の反復が暗黙の消滅する正則化効果を提供することを以前から知っていました」とPoggio氏は言います。 「実際、この単純なケースでは、最高の動作をする最大マージン、最小ノルムのソリューションが得られることをおそらく知っています。 それで、私たちが自分自身に尋ねた質問は、「深いネットワークでも同様のことが起こり得るか」というものでした。

研究者はそれがそうすることを発見しました。 共著者でMITのポスドクであるAndrzejBanburskiは、次のように説明しています。 実際、これらの正規化されていないパラメーターが発散する速度を制御することで、よりパフォーマンスの高いソリューションを見つけ、より速く見つけることができるというヒントをすでに見てきました。」

これは機械学習にとって何を意味しますか? 深いネットワークの背後に魔法はありません。 ここでも、すべての線形モデルの背後にある同じ理論が機能しています。 この作業は、深いネットワークを改善し、より正確でより高速にトレーニングできるようにする方法を提案します。


出典:http://news.mit.edu/2020/demystifying-world-deep-networks-0228

スポット画像

最新のインテリジェンス

スポット画像