Zephyrnet-logotyp

Djup dubbel nedstigning

Datum:

Vi visar att dubbla härkomst Fenomenet förekommer i CNN, ResNets och transformatorer: prestanda först förbättras, sedan försämras och sedan förbättras igen med ökande modellstorlek, datastorlek eller träningstid. Denna effekt undviks ofta genom noggrann reglering. Även om detta beteende verkar vara ganska universellt förstår vi inte helt varför det händer och ser vidare studier av detta fenomen som en viktig forskningsriktning.

Läs papper

Många klasser av moderna djupinlärningsmodeller, inklusive CNN, ResNets och transformatorer, visar det tidigare observerade dubbla härkomst Fenomenet när du inte använder tidigt stopp eller reglering. Toppen inträffar förutsägbart vid en ”kritisk regim” där modellerna knappt kan passa träningssatsen. När vi ökar antalet parametrar i ett neuralt nätverk minskar testfelet initialt, ökar och, precis som modellen kan passa tåget, genomgår en andra nedstigning.

Varken klassiska statistikers konventionella visdom att för stora modeller är värre inte heller det moderna ML-paradigmet större modeller är bättre vidmakthålla. Vi finner att dubbel nedstigning också sker under tågepoker. Överraskande visar vi att dessa fenomen kan leda till en regim där mer data gör ont, och att träna ett djupt nätverk i en större tågsats fungerar faktiskt sämre.

Modellsmässig dubbel härkomst

1. Det finns en regim där större modeller är sämre.

fig_modeldd

Det modellvisa dubbla härkomstfenomenet kan leda till en regim där utbildning på mer data gör ont. I diagrammet ovan inträffar toppen i testfel runt interpoleringströskeln när modellerna knappt är tillräckligt stora för att passa tåget.

I alla fall har vi observerat att förändringar som påverkar interpoleringströskeln (som att ändra optimeringsalgoritmen, antalet tågprover eller mängden etikettbrus) också påverkar platsen för testfelstoppen på motsvarande sätt. Fenomenet med dubbel härkomst är mest framträdande i inställningar med extra etikettbrus; utan den är toppen mindre och lätt att missa. Att lägga till etikettbrus förstärker detta allmänna beteende och låter oss enkelt undersöka.

Provvis icke-monotonicitet

2. Det finns en regim där fler prover gör ont.

fig_data_hurts

Ovanstående diagram visar transformatorer som är utbildade i en språköversättningsuppgift utan att lägga till etikettbrus. Som förväntat flyttar ökningen av antalet prover kurvan nedåt mot lägre testfel. Eftersom fler prover kräver större modeller för att passa, flyttar dock antalet prover också interpoleringströskeln (och topp i testfel) åt höger.

För mellanstora modellstorlekar (röda pilar) kombineras dessa två effekter, och vi ser att träning på 4.5 gånger fler prover faktiskt skadar testprestanda.

Epokvis dubbel härkomst

3. Det finns en regim där utbildning längre vänder om överanpassning.

fig_epoch_train

fig_epoch_test

Diagrammen ovan visar test- och tågfel som en funktion av både modellstorlek och antal optimeringssteg. För ett visst antal optimeringssteg (fast y-koordinat) uppvisar test- och tågfel dubbelstorlek i modellstorlek. För en given modellstorlek (fast x-koordinat), när träningen fortskrider, minskar, ökar och minskar test- och tågfel igen; vi kallar detta fenomen epokvis dubbel härkomst.

I allmänhet uppträder toppen av testfelet systematiskt när modellerna knappt kan passa tåget.

Vår intuition är att det för modeller vid interpoleringsgränsen faktiskt bara finns en modell som passar tågdata och att tvinga den att passa till och med lite bullriga eller felaktigt angivna etiketter kommer att förstöra dess globala struktur. Det vill säga det finns inga ”bra modeller” som både interpolerar tågsatsen och fungerar bra på testuppsättningen. Men i det överparametrerade systemet finns det många modeller som passar tåget och det finns så bra modeller. Dessutom leder den implicita förspänningen av stokastisk gradientnedstigning (SGD) till så bra modeller, av skäl som vi ännu inte förstår.

Vi lämnar full förståelse av mekanismerna bakom dubbel härkomst i djupa neurala nätverk som en viktig öppen fråga.

Källa: https://openai.com/blog/deep-double-descent/

plats_img

Senaste intelligens

plats_img