IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴

Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.


딥러닝 모델은 명시적 정규화 항 없이도 과적합을 피하는 경우가 많다. 왜인가? 답은 단순하다 — 훈련 알고리즘 자체가 정규화다. Early stopping, SGD의 배치 노이즈, 과매개변수화된 네트워크의 gradient descent는 서로 다른 메커니즘처럼 보이지만 모두 같은 구조적 편향을 공유한다. 이 편향은 어디서 오는가?

Spectral Filter로 보는 Early Stopping

선형 회귀의 gradient descent iterate를 SVD 기저에서 쓰면 closed form이 나온다.

w^t=Vdiag ⁣(1(1ησi2)t)Σ1UTy\hat{w}_t = V \cdot \text{diag}\!\left(1 - (1 - \eta\sigma_i^2)^t\right) \cdot \Sigma^{-1} U^T y

Ridge 회귀의 해는 다음과 같다.

w^R(λ)=Vdiag ⁣(σi2σi2+λ)Σ1UTy\hat{w}_R(\lambda) = V \cdot \text{diag}\!\left(\frac{\sigma_i^2}{\sigma_i^2 + \lambda}\right) \cdot \Sigma^{-1} U^T y

두 식은 구조가 다르지만 동일한 역할을 한다 — 작은 특이값 방향(노이즈)을 억제하고 큰 특이값 방향(신호)을 유지한다. Yao, Rosasco, Caponnetto (2007)의 핵심 결과는 두 filter가 λ1/(ηt)\lambda \approx 1/(\eta t) 근방에서 L2L^2 오차 O(1/t)O(1/t)로 수렴한다는 것이다.

w^tw^R ⁣(λ=1ηt)\boxed{\hat{w}_t \approx \hat{w}_R\!\left(\lambda = \tfrac{1}{\eta t}\right)}

tt step 훈련” ≈ ”λ=1/(ηt)\lambda = 1/(\eta t) Ridge 정규화”. Early stopping은 정규화 강도를 직접 지정하는 대신 훈련 시간으로 동일한 효과를 얻는다.

트레이드오프

GD filter는 Ridge filter보다 transition이 sharp하므로 두 방법은 정확히 동치가 아니다. 같은 tη=1/λt\eta = 1/\lambda에서 spectral 형태가 유사하지만, 각 σi\sigma_i별로 최적의 λ\lambda는 다르다. 단일 λ\lambda로는 완전한 match가 불가능하며, 실전에서는 양쪽 모두 별도로 튜닝해야 한다.

SGD의 방향 편향 — Max-Margin으로 수렴

Early stopping이 크기(norm)의 암묵적 제어라면, SGD는 방향의 암묵적 제어다.

선형 분리 가능한 이진 분류에서 logistic loss로 gradient descent를 돌리면 wt\|w_t\| \to \infty이지만 방향은 수렴한다. Soudry et al. (2018)의 정리는 다음을 말한다.

limtwtwt=wSVMwSVM\lim_{t \to \infty} \frac{w_t}{\|w_t\|} = \frac{w_{\text{SVM}}}{\|w_{\text{SVM}}\|}

명시적 정규화 없이 GD가 max-margin SVM 해로 수렴한다. 수렴 rate은 O(loglogt/logt)O(\log\log t / \log t)로 매우 느리지만, 방향은 구조적으로 올바른 쪽을 향한다.

SGD(확률적 경사 하강)는 여기에 노이즈를 더한다. Li (2017)의 SDE 근사에 따르면 SGD의 연속 극한은 다음과 같다.

dθ=L(θ)dt+ηΣ(θ)dBtd\theta = -\nabla L(\theta)\,dt + \sqrt{\eta \cdot \Sigma(\theta)}\,dB_t

유효 온도는 Teff=η/BT_{\text{eff}} = \eta / B (BB는 배치 크기)로 정의된다. 이 노이즈가 sharp minimum에서 “탈출”시키고 flat minimum에 머물게 한다. Keskar et al. (2017)의 실험은 배치 크기 256 vs 8192에서 0.5–1%의 테스트 정확도 차이를 보였고, 작은 배치가 더 flat한 minimum에 수렴함을 확인했다.

과매개변수화와 Minimum-Norm 해

p>np > n인 경우 OLS 해는 무한히 많다. 이 중 어느 것이 선택되는가? w^0=0\hat{w}_0 = 0에서 출발한 gradient descent의 update는 항상 col(XT)\text{col}(X^T) 안에 머문다. 이 제약 안에서 보간(interpolation)을 만족하는 해는 유일하며, 그것이 minimum-norm solution β^min=X+y\hat{\beta}_{\min} = X^+ y다.

Hastie, Montanari, Rosset, Tibshirani (2019)는 n,pn, p \to \infty, p/nγp/n \to \gamma인 비례 점근 체계에서 이 해의 위험을 정확히 계산했다.

R(γ)=β2 ⁣(11γ)1[γ>1]+σ2γγ1R(\gamma) = \|\beta^*\|^2\!\left(1 - \frac{1}{\gamma}\right)\mathbb{1}[\gamma > 1] + \sigma^2 \frac{\gamma}{|\gamma - 1|}

γ=1\gamma = 1(p=np = n)에서 분산 항이 발산한다. 이것이 Double Descent의 peak다. γ>1\gamma > 1로 넘어가면 risk가 다시 감소하고 충분히 과매개변수화된 모델에서는 β2\|\beta^*\|^2로 수렴한다.

정리 1 · Ridgeless limit (Hastie et al. 2019)

λ0+\lambda \to 0^+에서 Ridge 해는 minimum-norm solution에 수렴한다.

limλ0+β^R(λ)=X+y=β^min\lim_{\lambda \to 0^+} \hat{\beta}_R(\lambda) = X^+ y = \hat{\beta}_{\min}

▷ 증명

Ridge의 SVD 표현에서 β^R=Vdiag(σi/(σi2+λ))UTy\hat{\beta}_R = V\,\text{diag}(\sigma_i / (\sigma_i^2 + \lambda))\,U^T y. λ0+\lambda \to 0^+이면 σi/(σi2+0)=1/σi\sigma_i / (\sigma_i^2 + 0) = 1/\sigma_i이고 이는 VΣ1UTy=X+yV\Sigma^{-1}U^T y = X^+ y와 같다. \square

따라서 “초기화를 0으로 두고 충분히 훈련한다”는 행위는 암묵적으로 λ0+\lambda \to 0^+ Ridge를 선택하는 것과 동치다. 이 implicit ridge가 γ>1\gamma > 1 영역에서 finite risk를 보장한다.

깊은 네트워크로의 확장 — Homogeneous Implicit Bias

ReLU 네트워크(bias 없음)는 LL-차 양의 동차 함수다: f(x;cθ)=cLf(x;θ)f(x; c\theta) = c^L f(x; \theta). 이 성질이 선형 모델의 Soudry 결과를 deep network로 확장한다.

Lyu & Li (2019)는 분리 가능한 데이터에서 logistic loss로 훈련한 ReLU 네트워크의 GD가 다음 문제의 KKT 점으로 수렴함을 보였다.

minθθ2s.t.miniyif(xi;θ)1\min_\theta \|\theta\|^2 \quad \text{s.t.} \quad \min_i y_i f(x_i; \theta) \geq 1

선형 SVM의 비선형 일반화다. 전역 최적을 보장하지는 않지만 — 비볼록 문제이므로 — 방향 편향은 first-order KKT 조건을 만족한다.

이 관점에서 Neyshabur (2015)의 path-norm이 중요해진다. (Wl,Wl+1)(cWl,Wl+1/c)(W_l, W_{l+1}) \to (cW_l, W_{l+1}/c)로 재매개변수화해도 path-norm은 불변이지만 L2L_2 노름은 변화한다. Path-norm이 동차 네트워크의 “진짜” capacity measure에 더 가깝다.

정리

이 챕터의 네 문서는 하나의 명제를 다른 각도에서 말한다 — 명시적 정규화 항 없이도 훈련 알고리즘은 특정 해를 선호한다.

  • Early stopping은 spectral filter를 통해 Ridge λ=1/(ηt)\lambda = 1/(\eta t)와 대응한다.
  • SGD의 방향 편향은 max-margin 해로 수렴한다 (linear: Soudry 2018, deep: Lyu-Li 2019).
  • p>np > n 체계에서 GD from zero는 minimum-norm 해를 자동으로 선택하며, γ=1\gamma = 1에서의 Double Descent peak가 이 선택의 위험 구조를 드러낸다.
  • ReLU 네트워크의 양의 동차성은 이 편향을 비선형 함수 공간으로 확장한다.

세 요소 — 훈련 시간 제어, 배치 노이즈, 과매개변수화 — 가 합쳐져 현대 딥러닝의 암묵적 정규화를 구성한다. 명시적 정규화는 이 구조 위에 더해지는 보정이다.

REF
Hastie, Montanari, Rosset, Tibshirani · 2022 · Surprises in High-Dimensional Ridgeless Least Squares Interpolation · Annals of Statistics
REF
Soudry, Hoffer, Nacson, Gunasekar, Srebro · 2018 · The Implicit Bias of Gradient Descent on Separable Data · JMLR