SGD는 왜 일반화하는가 — Stability 이론의 답
가설공간 복잡도 대신 알고리즘의 robustness를 측정하는 Uniform Stability 프레임워크에서, Ridge Regression의 O(1/λn)과 SGD의 O(ηT/n) 경계까지 추적한다.
- 01 학습이란 무엇인가 — 통계적 학습 이론의 기초 언어
- 02 집중부등식은 왜 ML 이론의 기초인가
- 03 PAC Learning이란 무엇인가 — 학습 가능성의 수학적 정의
- 04 VC 차원은 왜 신경망을 설명하지 못하는가
- 05 Rademacher 복잡도는 왜 VC보다 강한가
- 06 SGD는 왜 일반화하는가 — Stability 이론의 답
- 07 모델 복잡도를 어떻게 선택해야 하는가
Zhang et al. (2017)은 신경망이 훈련 데이터의 완전히 무작위한 라벨을 암기할 수 있음을 보였다. VC 차원이 사실상 무한한 모델이 실제 데이터에서는 잘 일반화한다는 역설이다. VC와 Rademacher는 이 현상을 설명하지 못한다 — 가설공간이 너무 크기 때문이다. 그렇다면 신경망은 왜 일반화하는가?
다른 렌즈 — “알고리즘이 얼마나 민감한가”
VC와 Rademacher는 가설공간 의 복잡도를 측정한다.
Stability는 다른 질문을 던진다. “알고리즘 자체가 데이터 변화에 얼마나 민감한가?”
훈련 집합 에서 샘플 하나 를 로 교체한 집합을 라 하자. 알고리즘이 이 교체에 둔감하다면 — 즉 와 가 임의의 테스트 포인트에서 비슷한 손실을 낸다면 — 훈련 분포의 작은 변화가 모델 행동을 크게 바꾸지 않는다. 이것이 일반화를 함의한다.
이 조건을 -uniform stability라 한다. 가 작을수록 알고리즘이 안정적이다. 핵심은 이 경계가 에 전혀 의존하지 않는다는 점이다.
같은 를 써도 알고리즘이 다르면 가 달라진다. Unregularized ERM은 불안정하고, Ridge는 안정적이다. 이것이 regularization이 일반화를 돕는 이유의 수학적 정체다.
Stability ⇒ Generalization
Uniform stability가 실제로 일반화를 함의한다는 것을 보이려면 두 가지 경계가 필요하다.
평균적 경계 (정리 6.2): -uniform stability하면
증명의 핵심은 rename trick이다. 와 가 같은 분포 에서 독립적으로 뽑혔으므로 교환 가능하다. 이 exchangeability를 이용하면 경험 위험의 기대값을 모집단 위험으로 변환할 수 있고, 그 차이가 stability 항 로 bound된다.
고확률 경계 (정리 6.3): 손실 일 때, 확률 로
함수 에 McDiarmid 부등식을 적용한다. 샘플 하나의 교체가 를 얼마나 바꾸는지 계산하면: 모집단 위험 항은 stability에 의해 , 경험 위험 항은 손실 경계에 의해 . 따라서 McDiarmid의 Lipschitz 상수는 이고, 집중부등식을 적용하면 위 경계를 얻는다.
Ridge Regression — 정규화의 수학적 정당화
Ridge regression
의 stability는 strong convexity에서 나온다. 정규화항 가 목적함수의 Hessian에 를 더하므로, 손실함수는 -strongly convex가 된다.
Strong convexity의 의미: 최적해 근처에서 함수가 가파르게 증가한다. 따라서 와 두 문제의 최적해 , 는 서로 멀리 있을 수 없다.
여기에 squared loss의 Lipschitz 성질을 결합하면:
를 크게 하면 stability()가 줄어 일반화 gap이 줄지만, approximation error가 커진다. VC/Rademacher 관점은 ” 증가 → 가설공간 작아짐 → 복잡도 감소”로 설명하지만, 이는 신경망처럼 가 고정된 경우를 다루지 못한다. Stability는 정규화의 효과를 알고리즘의 robustness로 직접 측정한다.
SGD — 적게 훈련하는 것이 정규화다
Hardt et al. (2016)의 핵심 결과는 SGD의 stability bound다.
여기서 은 손실의 Lipschitz 상수, 는 학습률, 는 반복 횟수다.
두 개의 SGD trajectory를 추적한다: 하나는 로, 다른 하나는 로 훈련한다. 같은 random seed를 쓰므로 번째 스텝에서만 다른 샘플을 본다.
Smooth 손실 함수에서 gradient step은 non-expansive하다: 서로 다른 출발점에서 같은 방향으로 한 스텝 밟아도 두 점 사이의 거리가 줄어들거나 유지된다. 따라서 번째 스텝 이외에서는 두 경로의 거리가 증가하지 않는다.
번째 스텝에서 다른 샘플을 보면 거리가 최대 증가한다. 번 반복이므로 최종 거리는 . Lipschitz 손실을 적용하면 . 이것이 개 샘플에 대한 평균이므로 .
이 결과의 함의는 강력하다: 명시적 정규화항 없이도, 훈련을 일찍 멈추면 가 작아지므로 일반화 gap이 줄어든다. 이것이 early stopping의 수학적 정당화다.
Ridge의 와 SGD의 는 서로 다른 방식으로 같은 목표를 달성한다. Ridge는 목적함수를 가파르게 만들고, SGD는 탐색 범위 자체를 제한한다.
정리
- Uniform Stability는 -독립적으로 알고리즘의 robustness를 측정한다. 같은 가설공간에서도 알고리즘에 따라 stability가 달라진다.
- 정리 6.2·6.3: -stable 알고리즘의 일반화 gap은 기대값 , 고확률로 .
- Ridge: strong convexity → . 정규화 강도가 stability를 직접 제어한다.
- SGD: non-expansive step → . Early stopping은 implicit regularization이다.
Zhang et al.의 역설에 대한 stability의 답은 이렇다: 신경망이 일반화하는 이유는 가설공간이 작아서가 아니라, SGD가 유한 단계에서 안정적으로 수렴하기 때문이다 — 적어도 부분적으로는.