제퍼넷 로고

딥 더블 하강

시간

우리는 더블 하강 현상 CNN, ResNet 및 트랜스포머에서 발생합니다. 먼저 모델 크기, 데이터 크기 또는 교육 시간이 늘어남에 따라 성능이 향상되고 나 빠지고 다시 향상됩니다. 이 효과는 종종 신중한 정규화를 통해 피할 수 있습니다. 이 동작은 상당히 보편적 인 것으로 보이지만, 왜 발생하는지 완전히 이해하지 못하고 있으며이 현상에 대한 추가 연구를 중요한 연구 방향으로보고 있습니다.

신문 읽기

CNN, ResNet 및 트랜스포머를 포함한 많은 종류의 최신 딥 러닝 모델이 이전에 관찰 된 것을 보여줍니다. 더블 하강 현상 조기 중지 또는 정규화를 사용하지 않는 경우. 피크는 모델이 훈련 세트에 거의 맞지 않을 수있는 "임계 영역"에서 예측 가능하게 발생합니다. 신경망에서 매개 변수의 수를 늘리면 처음에는 테스트 오류가 감소하고 증가하며 모델이 기차 세트에 맞을 수있는 것처럼 두 번째 하강을 겪습니다.

고전 통계학 자의 일반적인 지혜도 너무 큰 모델은 더 나빠 현대 ML 패러다임도 더 큰 모델이 더 좋습니다 받치다. 우리는 이중 하강도 열차 시대를 통해 발생한다는 것을 알았습니다. 놀랍게도, 우리는 이러한 현상이 더 많은 데이터를 손상시키는 정권으로 이어질 수 있으며 더 큰 열차 세트에서 딥 네트워크를 훈련하면 실제로 성능이 저하된다는 것을 보여줍니다.

모델 별 이중 하강

1. 더 큰 모델이 더 나쁜 체제가 있습니다.

무화과

모델 방식의 이중 강하 현상은 더 많은 데이터에 대한 훈련이 해가되는 체제로 이어질 수 있습니다. 위의 차트에서 테스트 오류 피크는 모델이 열차 세트에 맞지 않을 정도로 보간이 큰 보간 임계 값 주위에서 발생합니다.

우리가 관찰 한 모든 경우에 보간 임계 값에 영향을 미치는 변경 (예 : 최적화 알고리즘 변경, 트레인 샘플 수 또는 레이블 노이즈 양)도 테스트 오류 피크 위치에 영향을줍니다. 이중 하강 현상은 레이블 소음이 추가 된 설정에서 가장 두드러집니다. 그것 없이는, 피크는 더 작고 놓치기 쉽다. 라벨 노이즈를 추가하면 이러한 일반적인 동작이 증폭되어 쉽게 조사 할 수 있습니다.

표본 별 비단 조성

2. 더 많은 샘플이 아프게되는 체제가 있습니다.

fig_data_hurts

위의 차트는 라벨 소음이 추가되지 않은 언어 번역 작업에 대해 훈련 된 변압기를 보여줍니다. 예상 한대로 샘플 수를 늘리면 곡선이 아래쪽으로 내려가 테스트 오류가 낮아집니다. 그러나 더 많은 샘플이 적합하려면 더 큰 모델이 필요하므로 샘플 수를 늘리면 보간 임계 값 (및 테스트 오류의 피크)도 오른쪽으로 이동합니다.

중간 모델 크기 (빨간색 화살표)의 경우이 두 가지 효과가 결합되며 4.5 배 더 많은 샘플에 대한 훈련이 실제로 테스트 성능을 저하시키는 것으로 나타났습니다.

획기적인 이중 하강

3. 훈련이 더 이상 과잉 피팅을 뒤집는 체제가있다.

fig_epoch_train

fig_epoch_test

위의 차트는 모델 크기와 최적화 단계 수의 함수로 테스트 및 트레인 오류를 보여줍니다. 주어진 수의 최적화 단계 (고정 된 y- 좌표)에 대해, 테스트 및 트레인 오류는 모델 크기의 이중 하강을 나타냅니다. 주어진 모델 크기 (고정 x 좌표)의 경우 훈련이 진행됨에 따라 테스트 및 훈련 오류가 감소, 증가 및 감소합니다. 우리는이 현상을 시대 별 이중 하강이라고합니다.

일반적으로 테스트 오류의 피크는 모델이 열차 세트에 거의 맞지 않을 때 체계적으로 나타납니다.

우리의 직관은 보간 임계 값에있는 모델의 경우, 열차 데이터에 맞는 모델이 하나 뿐이며 약간 시끄 럽거나 잘못 지정된 레이블에도 적합하게 적용하면 전체 구조가 파괴된다는 것입니다. 즉, 열차 세트를 보간하고 테스트 세트에서 잘 수행하는 "좋은 모델"이 없습니다. 그러나 매개 변수가 과도한 정권에는 기차 세트에 맞는 많은 모델이 있으며 그러한 좋은 모델이 있습니다. 더욱이, SGD (Schachastic Gradient Descent)의 내재적 편향은 우리가 아직 이해하지 못하는 이유로 이러한 훌륭한 모델로 이어집니다.

우리는 심오한 신경망에서 이중 강하의 메커니즘을 중요한 열린 질문으로 완전히 이해하고 있습니다.

출처 : https://openai.com/blog/deep-double-descent/

spot_img

최신 인텔리전스

spot_img