훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴

Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.

딥러닝 모델은 명시적 정규화 항 없이도 과적합을 피하는 경우가 많다. 왜인가? 답은 단순하다 — 훈련 알고리즘 자체가 정규화다. Early stopping, SGD의 배치 노이즈, 과매개변수화된 네트워크의 gradient descent는 서로 다른 메커니즘처럼 보이지만 모두 같은 구조적 편향을 공유한다. 이 편향은 어디서 오는가?

Spectral Filter로 보는 Early Stopping

선형 회귀의 gradient descent iterate를 SVD 기저에서 쓰면 closed form이 나온다.

\hat{w}_t = V \cdot \text{diag}\!\left(1 - (1 - \eta\sigma_i^2)^t\right) \cdot \Sigma^{-1} U^T y

Ridge 회귀의 해는 다음과 같다.

\hat{w}_R(\lambda) = V \cdot \text{diag}\!\left(\frac{\sigma_i^2}{\sigma_i^2 + \lambda}\right) \cdot \Sigma^{-1} U^T y

두 식은 구조가 다르지만 동일한 역할을 한다 — 작은 특이값 방향(노이즈)을 억제하고 큰 특이값 방향(신호)을 유지한다. Yao, Rosasco, Caponnetto (2007)의 핵심 결과는 두 filter가 $\lambda \approx 1/(\eta t)$ 근방에서 $L^2$ 오차 $O(1/t)$ 로 수렴한다는 것이다.

\boxed{\hat{w}_t \approx \hat{w}_R\!\left(\lambda = \tfrac{1}{\eta t}\right)}

” $t$ step 훈련” ≈ ” $\lambda = 1/(\eta t)$ Ridge 정규화”. Early stopping은 정규화 강도를 직접 지정하는 대신 훈련 시간으로 동일한 효과를 얻는다.

✎ 트레이드오프

GD filter는 Ridge filter보다 transition이 sharp하므로 두 방법은 정확히 동치가 아니다. 같은 $t\eta = 1/\lambda$ 에서 spectral 형태가 유사하지만, 각 $\sigma_i$ 별로 최적의 $\lambda$ 는 다르다. 단일 $\lambda$ 로는 완전한 match가 불가능하며, 실전에서는 양쪽 모두 별도로 튜닝해야 한다.

SGD의 방향 편향 — Max-Margin으로 수렴

Early stopping이 크기(norm)의 암묵적 제어라면, SGD는 방향의 암묵적 제어다.

선형 분리 가능한 이진 분류에서 logistic loss로 gradient descent를 돌리면 $\|w_t\| \to \infty$ 이지만 방향은 수렴한다. Soudry et al. (2018)의 정리는 다음을 말한다.

\lim_{t \to \infty} \frac{w_t}{\|w_t\|} = \frac{w_{\text{SVM}}}{\|w_{\text{SVM}}\|}

명시적 정규화 없이 GD가 max-margin SVM 해로 수렴한다. 수렴 rate은 $O(\log\log t / \log t)$ 로 매우 느리지만, 방향은 구조적으로 올바른 쪽을 향한다.

SGD(확률적 경사 하강)는 여기에 노이즈를 더한다. Li (2017)의 SDE 근사에 따르면 SGD의 연속 극한은 다음과 같다.

d\theta = -\nabla L(\theta)\,dt + \sqrt{\eta \cdot \Sigma(\theta)}\,dB_t

유효 온도는 $T_{\text{eff}} = \eta / B$ ( $B$ 는 배치 크기)로 정의된다. 이 노이즈가 sharp minimum에서 “탈출”시키고 flat minimum에 머물게 한다. Keskar et al. (2017)의 실험은 배치 크기 256 vs 8192에서 0.5–1%의 테스트 정확도 차이를 보였고, 작은 배치가 더 flat한 minimum에 수렴함을 확인했다.

과매개변수화와 Minimum-Norm 해

$p > n$ 인 경우 OLS 해는 무한히 많다. 이 중 어느 것이 선택되는가? $\hat{w}_0 = 0$ 에서 출발한 gradient descent의 update는 항상 $\text{col}(X^T)$ 안에 머문다. 이 제약 안에서 보간(interpolation)을 만족하는 해는 유일하며, 그것이 minimum-norm solution $\hat{\beta}_{\min} = X^+ y$ 다.

Hastie, Montanari, Rosset, Tibshirani (2019)는 $n, p \to \infty$ , $p/n \to \gamma$ 인 비례 점근 체계에서 이 해의 위험을 정확히 계산했다.

R(\gamma) = \|\beta^*\|^2\!\left(1 - \frac{1}{\gamma}\right)\mathbb{1}[\gamma > 1] + \sigma^2 \frac{\gamma}{|\gamma - 1|}

$\gamma = 1$ ( $p = n$ )에서 분산 항이 발산한다. 이것이 Double Descent의 peak다. $\gamma > 1$ 로 넘어가면 risk가 다시 감소하고 충분히 과매개변수화된 모델에서는 $\|\beta^*\|^2$ 로 수렴한다.

정리 1 · Ridgeless limit (Hastie et al. 2019)

$\lambda \to 0^+$ 에서 Ridge 해는 minimum-norm solution에 수렴한다.

$\lim_{\lambda \to 0^+} \hat{\beta}_R(\lambda) = X^+ y = \hat{\beta}_{\min}$

▷ 증명

Ridge의 SVD 표현에서 $\hat{\beta}_R = V\,\text{diag}(\sigma_i / (\sigma_i^2 + \lambda))\,U^T y$ . $\lambda \to 0^+$ 이면 $\sigma_i / (\sigma_i^2 + 0) = 1/\sigma_i$ 이고 이는 $V\Sigma^{-1}U^T y = X^+ y$ 와 같다. $\square$

∎

따라서 “초기화를 0으로 두고 충분히 훈련한다”는 행위는 암묵적으로 $\lambda \to 0^+$ Ridge를 선택하는 것과 동치다. 이 implicit ridge가 $\gamma > 1$ 영역에서 finite risk를 보장한다.

깊은 네트워크로의 확장 — Homogeneous Implicit Bias

ReLU 네트워크(bias 없음)는 $L$ -차 양의 동차 함수다: $f(x; c\theta) = c^L f(x; \theta)$ . 이 성질이 선형 모델의 Soudry 결과를 deep network로 확장한다.

Lyu & Li (2019)는 분리 가능한 데이터에서 logistic loss로 훈련한 ReLU 네트워크의 GD가 다음 문제의 KKT 점으로 수렴함을 보였다.

\min_\theta \|\theta\|^2 \quad \text{s.t.} \quad \min_i y_i f(x_i; \theta) \geq 1

선형 SVM의 비선형 일반화다. 전역 최적을 보장하지는 않지만 — 비볼록 문제이므로 — 방향 편향은 first-order KKT 조건을 만족한다.

이 관점에서 Neyshabur (2015)의 path-norm이 중요해진다. $(W_l, W_{l+1}) \to (cW_l, W_{l+1}/c)$ 로 재매개변수화해도 path-norm은 불변이지만 $L_2$ 노름은 변화한다. Path-norm이 동차 네트워크의 “진짜” capacity measure에 더 가깝다.

정리

이 챕터의 네 문서는 하나의 명제를 다른 각도에서 말한다 — 명시적 정규화 항 없이도 훈련 알고리즘은 특정 해를 선호한다.

Early stopping은 spectral filter를 통해 Ridge $\lambda = 1/(\eta t)$ 와 대응한다.
SGD의 방향 편향은 max-margin 해로 수렴한다 (linear: Soudry 2018, deep: Lyu-Li 2019).
$p > n$ 체계에서 GD from zero는 minimum-norm 해를 자동으로 선택하며, $\gamma = 1$ 에서의 Double Descent peak가 이 선택의 위험 구조를 드러낸다.
ReLU 네트워크의 양의 동차성은 이 편향을 비선형 함수 공간으로 확장한다.

세 요소 — 훈련 시간 제어, 배치 노이즈, 과매개변수화 — 가 합쳐져 현대 딥러닝의 암묵적 정규화를 구성한다. 명시적 정규화는 이 구조 위에 더해지는 보정이다.

REF

Hastie, Montanari, Rosset, Tibshirani · 2022 · Surprises in High-Dimensional Ridgeless Least Squares Interpolation · Annals of Statistics

REF

Soudry, Hoffer, Nacson, Gunasekar, Srebro · 2018 · The Implicit Bias of Gradient Descent on Separable Data · JMLR