IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

SGD는 왜 일반화하는가 — Stability 이론의 답

가설공간 복잡도 대신 알고리즘의 robustness를 측정하는 Uniform Stability 프레임워크에서, Ridge Regression의 O(1/λn)과 SGD의 O(ηT/n) 경계까지 추적한다.


Zhang et al. (2017)은 신경망이 훈련 데이터의 완전히 무작위한 라벨을 암기할 수 있음을 보였다. VC 차원이 사실상 무한한 모델이 실제 데이터에서는 잘 일반화한다는 역설이다. VC와 Rademacher는 이 현상을 설명하지 못한다 — 가설공간이 너무 크기 때문이다. 그렇다면 신경망은 왜 일반화하는가?

다른 렌즈 — “알고리즘이 얼마나 민감한가”

VC와 Rademacher는 가설공간 H\mathcal{H}의 복잡도를 측정한다.

Gapcomplexity(H)n\text{Gap} \lesssim \sqrt{\frac{\text{complexity}(\mathcal{H})}{n}}

Stability는 다른 질문을 던진다. “알고리즘 AA 자체가 데이터 변화에 얼마나 민감한가?”

훈련 집합 SS에서 샘플 하나 ziz_iziDz_i' \sim \mathcal{D}로 교체한 집합을 S(i)S^{(i)}라 하자. 알고리즘이 이 교체에 둔감하다면 — 즉 A(S)A(S)A(S(i))A(S^{(i)})가 임의의 테스트 포인트에서 비슷한 손실을 낸다면 — 훈련 분포의 작은 변화가 모델 행동을 크게 바꾸지 않는다. 이것이 일반화를 함의한다.

supSsupisupzisupz(A(S),z)(A(S(i)),z)β\sup_S \sup_{i} \sup_{z_i'} \sup_z \left| \ell(A(S), z) - \ell(A(S^{(i)}), z) \right| \leq \beta

이 조건을 β\beta-uniform stability라 한다. β\beta가 작을수록 알고리즘이 안정적이다. 핵심은 이 경계가 H\mathcal{H}에 전혀 의존하지 않는다는 점이다.

Gapβ\text{Gap} \lesssim \beta

같은 H\mathcal{H}를 써도 알고리즘이 다르면 β\beta가 달라진다. Unregularized ERM은 불안정하고, Ridge는 안정적이다. 이것이 regularization이 일반화를 돕는 이유의 수학적 정체다.

Stability ⇒ Generalization

Uniform stability가 실제로 일반화를 함의한다는 것을 보이려면 두 가지 경계가 필요하다.

평균적 경계 (정리 6.2): β\beta-uniform stability하면

ES[LD(A(S))LS(A(S))]β.\mathbb{E}_S[L_\mathcal{D}(A(S)) - L_S(A(S))] \leq \beta.

증명의 핵심은 rename trick이다. ziz_iziz_i'가 같은 분포 D\mathcal{D}에서 독립적으로 뽑혔으므로 교환 가능하다. 이 exchangeability를 이용하면 경험 위험의 기대값을 모집단 위험으로 변환할 수 있고, 그 차이가 stability 항 β\beta로 bound된다.

고확률 경계 (정리 6.3): 손실 [0,M]\ell \in [0, M]일 때, 확률 1δ\geq 1 - \delta

LD(A(S))LS(A(S))β+O ⁣(Mlog(1/δ)n).L_\mathcal{D}(A(S)) - L_S(A(S)) \leq \beta + O\!\left(\sqrt{\frac{M \log(1/\delta)}{n}}\right).

정리 6.3 · Stability → 고확률 일반화

함수 f(S):=LD(A(S))LS(A(S))f(S) := L_\mathcal{D}(A(S)) - L_S(A(S))에 McDiarmid 부등식을 적용한다. 샘플 하나의 교체가 ff를 얼마나 바꾸는지 계산하면: 모집단 위험 항은 stability에 의해 β\beta, 경험 위험 항은 손실 경계에 의해 2M/n2M/n. 따라서 McDiarmid의 Lipschitz 상수는 ci=β+2M/nc_i = \beta + 2M/n이고, 집중부등식을 적용하면 위 경계를 얻는다.

Ridge Regression — 정규화의 수학적 정당화

Ridge regression

wS=argminw{1ni=1n(wxiyi)2+λw2}w^*_S = \arg\min_{w} \left\{ \frac{1}{n} \sum_{i=1}^n (w^\top x_i - y_i)^2 + \lambda \|w\|^2 \right\}

의 stability는 strong convexity에서 나온다. 정규화항 λw2\lambda \|w\|^2가 목적함수의 Hessian에 2λI2\lambda I를 더하므로, 손실함수는 2λ2\lambda-strongly convex가 된다.

Strong convexity의 의미: 최적해 근처에서 함수가 가파르게 증가한다. 따라서 SSS(i)S^{(i)} 두 문제의 최적해 wSw^*_S, wS(i)w^*_{S^{(i)}}는 서로 멀리 있을 수 없다.

λwSwS(i)24Mn\lambda \|w^*_S - w^*_{S^{(i)}}\|^2 \leq \frac{4M}{n}

여기에 squared loss의 Lipschitz 성질을 결합하면:

βRidge=O ⁣(1λn).\beta_{\text{Ridge}} = O\!\left( \frac{1}{\lambda n} \right).

트레이드오프

λ\lambda를 크게 하면 stability(β\beta)가 줄어 일반화 gap이 줄지만, approximation error가 커진다. VC/Rademacher 관점은 ”λ\lambda 증가 → 가설공간 작아짐 → 복잡도 감소”로 설명하지만, 이는 신경망처럼 H\mathcal{H}가 고정된 경우를 다루지 못한다. Stability는 정규화의 효과를 알고리즘의 robustness로 직접 측정한다.

SGD — 적게 훈련하는 것이 정규화다

Hardt et al. (2016)의 핵심 결과는 SGD의 stability bound다.

βSGD2L2ηTn\beta_{\text{SGD}} \leq \frac{2L^2 \eta T}{n}

여기서 LL은 손실의 Lipschitz 상수, η\eta는 학습률, TT는 반복 횟수다.

▷ 증명

두 개의 SGD trajectory를 추적한다: 하나는 SS로, 다른 하나는 S(i)S^{(i)}로 훈련한다. 같은 random seed를 쓰므로 ii번째 스텝에서만 다른 샘플을 본다.

Smooth 손실 함수에서 gradient step은 non-expansive하다: 서로 다른 출발점에서 같은 방향으로 한 스텝 밟아도 두 점 사이의 거리가 줄어들거나 유지된다. 따라서 ii번째 스텝 이외에서는 두 경로의 거리가 증가하지 않는다.

ii번째 스텝에서 다른 샘플을 보면 거리가 최대 2ηL2\eta L 증가한다. TT번 반복이므로 최종 거리는 wTwT2ηLT\|w_T - w'_T\| \leq 2\eta L T. Lipschitz 손실을 적용하면 (wT,z)(wT,z)2L2ηT|\ell(w_T, z) - \ell(w'_T, z)| \leq 2L^2 \eta T. 이것이 nn개 샘플에 대한 평균이므로 β=2L2ηT/n\beta = 2L^2 \eta T / n. \square

이 결과의 함의는 강력하다: 명시적 정규화항 없이도, 훈련을 일찍 멈추면 β\beta가 작아지므로 일반화 gap이 줄어든다. 이것이 early stopping의 수학적 정당화다.

Gap2L2ηTn+O ⁣(log(1/δ)n)\text{Gap} \leq \frac{2L^2 \eta T}{n} + O\!\left(\sqrt{\frac{\log(1/\delta)}{n}}\right)

Ridge의 λ\lambda와 SGD의 TT는 서로 다른 방식으로 같은 목표를 달성한다. Ridge는 목적함수를 가파르게 만들고, SGD는 탐색 범위 자체를 제한한다.

정리

  • Uniform StabilityH\mathcal{H}-독립적으로 알고리즘의 robustness를 측정한다. 같은 가설공간에서도 알고리즘에 따라 stability가 달라진다.
  • 정리 6.2·6.3: β\beta-stable 알고리즘의 일반화 gap은 기대값 β\leq \beta, 고확률로 β+O(log(1/δ)/n)\leq \beta + O(\sqrt{\log(1/\delta)/n}).
  • Ridge: strong convexity → β=O(1/λn)\beta = O(1/\lambda n). 정규화 강도가 stability를 직접 제어한다.
  • SGD: non-expansive step → β=O(ηT/n)\beta = O(\eta T / n). Early stopping은 implicit regularization이다.

Zhang et al.의 역설에 대한 stability의 답은 이렇다: 신경망이 일반화하는 이유는 가설공간이 작아서가 아니라, SGD가 유한 단계에서 안정적으로 수렴하기 때문이다 — 적어도 부분적으로는.