Logo Zephyrnet

gốc đôi sâu

Ngày:

Chúng tôi cho thấy rằng tăng gấp đôi hạ xuống hiện tượng xảy ra trong CNN, ResNets và máy biến áp: hiệu suất đầu tiên được cải thiện, sau đó trở nên kém hơn và sau đó lại cải thiện khi tăng kích thước mô hình, kích thước dữ liệu hoặc thời gian đào tạo. Hiệu ứng này thường tránh được thông qua việc điều chỉnh cẩn thận. Mặc dù hành vi này có vẻ khá phổ biến nhưng chúng tôi vẫn chưa hiểu đầy đủ lý do tại sao nó xảy ra và xem nghiên cứu sâu hơn về hiện tượng này là một hướng nghiên cứu quan trọng.

Đọc giấy

Nhiều lớp mô hình học sâu hiện đại, bao gồm CNN, ResNets và máy biến áp, thể hiện những đặc điểm đã được quan sát trước đó. tăng gấp đôi hạ xuống hiện tượng khi không sử dụng tính năng dừng sớm hoặc chính quy hóa. Đỉnh điểm xảy ra có thể dự đoán được ở “chế độ quan trọng”, nơi các mô hình hầu như không thể phù hợp với tập huấn luyện. Khi chúng tôi tăng số lượng tham số trong mạng nơ-ron, lỗi kiểm tra ban đầu sẽ giảm, tăng và giống như mô hình có thể vừa với đoàn tàu, sẽ trải qua quá trình giảm dần lần thứ hai.

Cả sự hiểu biết thông thường của các nhà thống kê cổ điển đều không mô hình quá lớn thì tệ hơn cũng như mô hình ML hiện đại mô hình lớn hơn thì tốt hơn ủng hộ. Chúng tôi thấy rằng việc giảm tốc độ kép cũng xảy ra trong các kỷ nguyên tàu hỏa. Đáng ngạc nhiên là chúng tôi cho thấy những hiện tượng này có thể dẫn đến một chế độ mà nhiều dữ liệu hơn sẽ gây tổn hại và việc đào tạo một mạng lưới sâu trên một đoàn tàu lớn hơn thực sự hoạt động kém hơn.

Giảm dần theo mô hình

1. Có một chế độ mà người mẫu càng lớn càng tệ.

fig_modeldd

Hiện tượng giảm dần kép theo mô hình có thể dẫn đến một chế độ mà việc đào tạo dựa trên nhiều dữ liệu hơn sẽ gây tổn hại. Trong biểu đồ trên, lỗi kiểm tra cao nhất xảy ra xung quanh ngưỡng nội suy, khi các mô hình chỉ vừa đủ lớn để vừa với đoàn tàu.

Trong mọi trường hợp chúng tôi đã quan sát, những thay đổi ảnh hưởng đến ngưỡng nội suy (chẳng hạn như thay đổi thuật toán tối ưu hóa, số lượng mẫu tàu hoặc lượng nhiễu nhãn) cũng ảnh hưởng tương ứng đến vị trí của đỉnh lỗi kiểm tra. Hiện tượng giảm dần kép nổi bật nhất trong cài đặt có thêm nhiễu nhãn; không có nó, đỉnh sẽ nhỏ hơn và dễ bỏ sót. Việc thêm nhiễu nhãn sẽ khuếch đại hành vi chung này và cho phép chúng tôi dễ dàng điều tra.

Tính không đơn điệu của mẫu

2. Có một chế độ mà nhiều mẫu hơn sẽ gây tổn hại.

fig_data_hurts

Biểu đồ trên cho thấy các máy biến áp được đào tạo về nhiệm vụ dịch ngôn ngữ mà không có thêm nhiễu nhãn. Đúng như mong đợi, việc tăng số lượng mẫu sẽ làm dịch chuyển đường cong hướng xuống theo hướng sai số kiểm tra thấp hơn. Tuy nhiên, vì nhiều mẫu hơn đòi hỏi phải có mô hình lớn hơn để phù hợp, nên việc tăng số lượng mẫu cũng làm dịch chuyển ngưỡng nội suy (và sai số kiểm tra cực đại) sang bên phải.

Đối với kích thước mô hình trung gian (mũi tên màu đỏ), hai hiệu ứng này kết hợp và chúng tôi thấy rằng việc đào tạo trên số lượng mẫu nhiều hơn 4.5 lần thực sự ảnh hưởng đến hiệu suất thử nghiệm.

Sự sụt giảm kép theo thời đại

3. Có một chế độ tập luyện lâu hơn sẽ đảo ngược việc trang bị quá mức.

fig_epoch_train

fig_epoch_test

Các biểu đồ trên cho thấy lỗi kiểm tra và huấn luyện là một hàm của cả kích thước mô hình và số bước tối ưu hóa. Đối với một số bước tối ưu hóa nhất định (tọa độ y cố định), lỗi kiểm tra và huấn luyện thể hiện sự giảm xuống kép ở kích thước mô hình. Đối với một kích thước mô hình nhất định (tọa độ x cố định), khi quá trình huấn luyện diễn ra, lỗi kiểm tra và huấn luyện sẽ giảm, tăng và giảm trở lại; chúng tôi gọi hiện tượng này là sự suy giảm kép theo thời đại.

Nhìn chung, đỉnh điểm của sai số kiểm tra xuất hiện một cách có hệ thống khi các mô hình gần như không thể vừa với đoàn tàu.

Trực giác của chúng tôi là, đối với các mô hình ở ngưỡng nội suy, thực tế chỉ có một mô hình phù hợp với dữ liệu tàu và việc buộc nó phải phù hợp với các nhãn thậm chí hơi ồn hoặc được xác định sai sẽ phá hủy cấu trúc toàn cầu của nó. Nghĩa là, không có “mô hình tốt” nào vừa nội suy tập tàu vừa hoạt động tốt trên tập kiểm tra. Tuy nhiên, trong chế độ quá tham số hóa, có rất nhiều mô hình phù hợp với tập tàu và tồn tại những mô hình tốt như vậy. Hơn nữa, khuynh hướng tiềm ẩn của việc giảm độ dốc ngẫu nhiên (SGD) dẫn đến những mô hình tốt như vậy, vì những lý do mà chúng tôi vẫn chưa hiểu.

Chúng tôi để lại sự hiểu biết đầy đủ về các cơ chế đằng sau sự suy giảm kép trong mạng lưới thần kinh sâu như một câu hỏi mở quan trọng.

Nguồn: https://openai.com/blog/deep-double-descent/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img