Zephyrnet Logo

Desmistificando o mundo das redes profundas

Data:

Os cursos introdutórios de estatística nos ensinam que, ao ajustar um modelo a alguns dados, devemos ter mais dados do que parâmetros livres para evitar o perigo de overfitting – ajustar dados ruidosos muito próximos e, portanto, não conseguir ajustar novos dados. É surpreendente, então, que no aprendizado profundo moderno a prática seja ter muito mais parâmetros do que dados. Apesar disso, redes profundas apresentam bom desempenho preditivo e, de fato, têm melhor desempenho quanto mais parâmetros tiverem. Por que isso aconteceria?

Já se sabe há algum tempo que o bom desempenho em aprendizado de máquina vem do controle da complexidade das redes, que não é apenas uma simples função do número de parâmetros livres. A complexidade de um classificador, como uma rede neural, depende da medição do “tamanho” do espaço de funções que esta rede representa, com múltiplas medidas técnicas sugeridas anteriormente: dimensão Vapnik-Chervonenkis, abrangendo números, ou complexidade de Rademacher, para citar um pouco. A complexidade, medida por estas noções, pode ser controlada durante o processo de aprendizagem, impondo uma restrição à norma dos parâmetros – em suma, ao quão “grandes” eles podem atingir. O fato surpreendente é que nenhuma restrição explícita parece ser necessária no treinamento de redes profundas. A aprendizagem profunda está fora da teoria clássica da aprendizagem? Precisamos repensar as bases?

Numa nova Natureza das Comunicações artigo, “Controle de Complexidade por Gradiente Descendente em Redes Profundas”, uma equipe do Centro para Cérebros, Mentes e Máquinas liderada pelo Diretor Tomaso Poggio, o Professor Eugene McDermott no Departamento de Cérebro e Ciências Cognitivas do MIT, lançou alguma luz sobre esse quebra-cabeça abordando as aplicações mais práticas e bem-sucedidas do aprendizado profundo moderno: problemas de classificação.

“Para problemas de classificação, observamos que na verdade os parâmetros do modelo não parecem convergir, mas sim crescem de tamanho indefinidamente durante a descida do gradiente. No entanto, em problemas de classificação, apenas os parâmetros normalizados importam – ou seja, a direção que eles definem, não o seu tamanho”, diz o coautor e candidato a PhD do MIT, Qianli Liao. “A coisa não tão óbvia que mostramos é que a descida do gradiente comumente usada nos parâmetros não normalizados induz o controle de complexidade desejado nos normalizados.”

“Já sabemos há algum tempo, no caso de regressão para redes lineares rasas, como máquinas de kernel, que as iterações de descida gradiente fornecem um efeito de regularização implícito e evanescente”, diz Poggio. “Na verdade, neste caso simples, provavelmente sabemos que obtemos a solução com melhor comportamento de margem máxima e norma mínima. A pergunta que nos fizemos foi: algo semelhante pode acontecer com redes profundas?”

Os pesquisadores descobriram que sim. Como explica o coautor e pós-doutorado do MIT Andrzej Banburski: “Compreender a convergência em redes profundas mostra que há direções claras para melhorar nossos algoritmos. Na verdade, já vimos indícios de que controlar a taxa de divergência desses parâmetros não normalizados nos permite encontrar soluções com melhor desempenho e mais rapidamente.”

O que isso significa para o aprendizado de máquina? Não há mágica por trás das redes profundas. A mesma teoria por trás de todos os modelos lineares também está em jogo aqui. Este trabalho sugere maneiras de melhorar redes profundas, tornando-as mais precisas e rápidas de treinar.


Fonte: http://news.mit.edu/2020/demystifying-world-deep-networks-0228

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?