Double Descent는 왜 일어나는가
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.
- 01 고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가
- 02 Norm-based 일반화 이론은 왜 진공에서 멈추는가
- 03 무한폭 신경망은 왜 커널 회귀로 환원되는가
- 04 Double Descent는 왜 일어나는가
- 05 Grokking은 왜 일어나는가 — 지연 일반화의 수학
- 06 복권 티켓은 처음부터 결정되어 있었는가
- 07 LLM의 스케일링은 예측 가능한가
고전 통계학습 이론은 모델 복잡도를 늘리면 test error가 U자로 움직인다고 말한다. 그런데 딥러닝은 파라미터가 데이터보다 훨씬 많은데도 잘 일반화한다. 이 두 사실이 어떻게 공존하는가?
고전 U-shape의 암묵적 가정
bias-variance decomposition은 다음과 같다.
파라미터 가 작으면 bias가 크고, 가 커지면 variance가 커진다. 이 trade-off가 U-shape을 만든다. 그러나 이 프레임에는 숨겨진 가정이 있다 — . 훈련 데이터 수보다 파라미터가 적다는 가정이다. , 즉 interpolation regime이 시작되는 순간 이 그림은 더 이상 완전하지 않다.
Belkin et al. 2019 “Reconciling Modern Machine Learning Practice and the Classical Bias-Variance Trade-off”는 이 너머에 modern regime이 존재한다고 주장했다. U-shape에 이어 에서 peak가 발생하고, 에서 test error가 다시 감소하는 이중 곡선 — Double Descent.
Peak는 어디서 오는가: Marchenko-Pastur
에서 정확히 무슨 일이 일어나는지 추적하면, 답은 random matrix theory에 있다.
가 Gaussian일 때, 의 eigenvalue 분포는 에서 Marchenko-Pastur 분포로 수렴한다.
결정적인 것은 support의 하한 다. 에서 — support가 0을 포함한다. 이 순간 variance는 다음 적분을 따른다.
0을 포함하는 support에서 를 적분하면 발산한다. 이 interpolation threshold인 이유가 이것이다 — 행렬이 거의 singular해지면서 min-norm solution의 variance가 폭발한다.
, , isotropic Gaussian , . Min-norm interpolator의 test risk는 다음으로 수렴한다.
Over-parameterized () case. Min-norm solution은 . Variance component는
Stieltjes transform을 이용하면 이 적분이 임을 보일 수 있다. Bias component는 isotropy 대칭에 의해 가 되어 로 수렴한다.
Modern Regime — 왜 variance가 다시 감소하는가
에서 variance가 로 감소하는 이유는 무엇인가? 두 가지 직관이 있다.
첫째, min-norm이 자동으로 regularize한다. 이면 무수히 많은 interpolator 중 가 가장 작은 것이 선택된다. 가 커질수록 null space가 넓어지고, 그 안에서 “가장 작은” 해를 고를 여지가 많아진다. 즉 더 큰 hypothesis class가 더 stable한 solution을 제공한다.
둘째, 각 feature에 weight가 분산된다. 에서 min-norm solution은 소수의 feature에 큰 weight를 주는 대신 모든 feature에 작은 weight를 분산시킨다. noise에 대한 의존성이 약해진다.
Ridge regression의 유효 자유도를 의 함수로 다시 쓰면
흥미롭게도 와 에서 이 값이 동일하다. 모델 크기가 2배로 늘어나도 데이터 대비 비율이 역전되면 동일한 수준의 variance를 가질 수 있다는 duality다.
실제 NN에서의 세 가지 형태
Nakkiran et al. 2019 “Deep Double Descent”는 현상을 세 축으로 확장했다. 이를 통합하는 개념이 **Effective Model Complexity (EMC)**다.
- Model-wise: width/depth 증가 → EMC 증가, EMC = 에서 peak
- Sample-wise: 증가 → 동일 모델의 effective 가 변하며 peak crossing
- Epoch-wise: 훈련 시간 증가 → EMC 증가, 동일 모델에서 시간에 따라 peak 발생
세 형태 모두 “EMC vs 의 비율이 1을 지날 때” peak가 생긴다는 같은 법칙의 다른 표현이다. Label noise가 있을 때 peak가 더 뚜렷해지는 이유는 variance가 에 비례하기 때문이다 — noise가 클수록 peak의 높이가 높아진다.
Regularization이 Peak를 지우는 이유
Ridge 를 추가하면 variance 적분이 바뀐다.
이면 support가 0을 포함하더라도 이 적분이 유한하다. Peak가 사라진다. 실전 딥러닝에서 Double Descent peak를 거의 보기 어려운 이유가 이것이다 — 표준 훈련에는 여러 implicit regularizer가 중첩되어 있다.
| 기법 | 작용 방식 | 등가 근사 |
|---|---|---|
| L2 weight decay | 명시적 ridge | |
| SGD (소 batch) | noise injection | |
| Early stopping | 유한 훈련 시간 | |
| Data augmentation | effective 증가 | 감소 → peak 회피 |
Early stopping과 ridge의 등가성은 gradient flow에서 직접 확인할 수 있다. SVD 에서 gradient flow solution은 shrinkage factor 를 가지고, ridge solution은 를 가진다. 둘 다 작은 singular value를 수축시키고 큰 것은 보존한다 — 정성적으로 동일하며, 대응이 성립한다.
정리
- Double Descent는 에서 이 되어 variance가 발산하는 현상이다.
- Modern regime ()에서 min-norm solution은 암묵적 ridge처럼 동작하여 variance가 다시 감소한다.
- EMC = 이라는 단일 조건이 model-wise, sample-wise, epoch-wise 세 형태를 통합한다.
- 이면 peak가 사라진다. 실전 표준 훈련의 implicit regularizer들이 이 역할을 한다.
Double Descent는 이론이 틀렸거나 딥러닝이 예외적인 것이 아님을 보여준다 — bias-variance 프레임이 영역으로 확장되면 자연스럽게 나타나는 귀결이다.