훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴
Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.
- 01 Regularization은 Prior다 — L1/L2부터 Group Sparsity까지
- 02 Dropout은 왜 세 가지 얼굴을 가지는가
- 03 Normalization은 어떻게 깊은 네트워크를 훈련 가능하게 만드는가
- 04 Data Augmentation은 왜 효과적인가
- 05 모델은 왜 자신을 과신하는가 — Calibration의 수학
- 06 훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴
- 07 Regularization의 4축 — 33개 기법을 하나의 틀로
딥러닝 모델은 명시적 정규화 항 없이도 과적합을 피하는 경우가 많다. 왜인가? 답은 단순하다 — 훈련 알고리즘 자체가 정규화다. Early stopping, SGD의 배치 노이즈, 과매개변수화된 네트워크의 gradient descent는 서로 다른 메커니즘처럼 보이지만 모두 같은 구조적 편향을 공유한다. 이 편향은 어디서 오는가?
Spectral Filter로 보는 Early Stopping
선형 회귀의 gradient descent iterate를 SVD 기저에서 쓰면 closed form이 나온다.
Ridge 회귀의 해는 다음과 같다.
두 식은 구조가 다르지만 동일한 역할을 한다 — 작은 특이값 방향(노이즈)을 억제하고 큰 특이값 방향(신호)을 유지한다. Yao, Rosasco, Caponnetto (2007)의 핵심 결과는 두 filter가 근방에서 오차 로 수렴한다는 것이다.
” step 훈련” ≈ ” Ridge 정규화”. Early stopping은 정규화 강도를 직접 지정하는 대신 훈련 시간으로 동일한 효과를 얻는다.
GD filter는 Ridge filter보다 transition이 sharp하므로 두 방법은 정확히 동치가 아니다. 같은 에서 spectral 형태가 유사하지만, 각 별로 최적의 는 다르다. 단일 로는 완전한 match가 불가능하며, 실전에서는 양쪽 모두 별도로 튜닝해야 한다.
SGD의 방향 편향 — Max-Margin으로 수렴
Early stopping이 크기(norm)의 암묵적 제어라면, SGD는 방향의 암묵적 제어다.
선형 분리 가능한 이진 분류에서 logistic loss로 gradient descent를 돌리면 이지만 방향은 수렴한다. Soudry et al. (2018)의 정리는 다음을 말한다.
명시적 정규화 없이 GD가 max-margin SVM 해로 수렴한다. 수렴 rate은 로 매우 느리지만, 방향은 구조적으로 올바른 쪽을 향한다.
SGD(확률적 경사 하강)는 여기에 노이즈를 더한다. Li (2017)의 SDE 근사에 따르면 SGD의 연속 극한은 다음과 같다.
유효 온도는 (는 배치 크기)로 정의된다. 이 노이즈가 sharp minimum에서 “탈출”시키고 flat minimum에 머물게 한다. Keskar et al. (2017)의 실험은 배치 크기 256 vs 8192에서 0.5–1%의 테스트 정확도 차이를 보였고, 작은 배치가 더 flat한 minimum에 수렴함을 확인했다.
과매개변수화와 Minimum-Norm 해
인 경우 OLS 해는 무한히 많다. 이 중 어느 것이 선택되는가? 에서 출발한 gradient descent의 update는 항상 안에 머문다. 이 제약 안에서 보간(interpolation)을 만족하는 해는 유일하며, 그것이 minimum-norm solution 다.
Hastie, Montanari, Rosset, Tibshirani (2019)는 , 인 비례 점근 체계에서 이 해의 위험을 정확히 계산했다.
()에서 분산 항이 발산한다. 이것이 Double Descent의 peak다. 로 넘어가면 risk가 다시 감소하고 충분히 과매개변수화된 모델에서는 로 수렴한다.
에서 Ridge 해는 minimum-norm solution에 수렴한다.
Ridge의 SVD 표현에서 . 이면 이고 이는 와 같다.
따라서 “초기화를 0으로 두고 충분히 훈련한다”는 행위는 암묵적으로 Ridge를 선택하는 것과 동치다. 이 implicit ridge가 영역에서 finite risk를 보장한다.
깊은 네트워크로의 확장 — Homogeneous Implicit Bias
ReLU 네트워크(bias 없음)는 -차 양의 동차 함수다: . 이 성질이 선형 모델의 Soudry 결과를 deep network로 확장한다.
Lyu & Li (2019)는 분리 가능한 데이터에서 logistic loss로 훈련한 ReLU 네트워크의 GD가 다음 문제의 KKT 점으로 수렴함을 보였다.
선형 SVM의 비선형 일반화다. 전역 최적을 보장하지는 않지만 — 비볼록 문제이므로 — 방향 편향은 first-order KKT 조건을 만족한다.
이 관점에서 Neyshabur (2015)의 path-norm이 중요해진다. 로 재매개변수화해도 path-norm은 불변이지만 노름은 변화한다. Path-norm이 동차 네트워크의 “진짜” capacity measure에 더 가깝다.
정리
이 챕터의 네 문서는 하나의 명제를 다른 각도에서 말한다 — 명시적 정규화 항 없이도 훈련 알고리즘은 특정 해를 선호한다.
- Early stopping은 spectral filter를 통해 Ridge 와 대응한다.
- SGD의 방향 편향은 max-margin 해로 수렴한다 (linear: Soudry 2018, deep: Lyu-Li 2019).
- 체계에서 GD from zero는 minimum-norm 해를 자동으로 선택하며, 에서의 Double Descent peak가 이 선택의 위험 구조를 드러낸다.
- ReLU 네트워크의 양의 동차성은 이 편향을 비선형 함수 공간으로 확장한다.
세 요소 — 훈련 시간 제어, 배치 노이즈, 과매개변수화 — 가 합쳐져 현대 딥러닝의 암묵적 정규화를 구성한다. 명시적 정규화는 이 구조 위에 더해지는 보정이다.