학습이란 무엇인가 — 통계적 학습 이론의 기초 언어
진짜 위험과 경험 위험의 차이부터 No Free Lunch 정리와 iid 가정이 깨지는 경우까지, 통계적 학습 이론의 핵심 정식화를 추적한다.
- 01 학습이란 무엇인가 — 통계적 학습 이론의 기초 언어
- 02 집중부등식은 왜 ML 이론의 기초인가
- 03 PAC Learning이란 무엇인가 — 학습 가능성의 수학적 정의
- 04 VC 차원은 왜 신경망을 설명하지 못하는가
- 05 Rademacher 복잡도는 왜 VC보다 강한가
- 06 SGD는 왜 일반화하는가 — Stability 이론의 답
- 07 모델 복잡도를 어떻게 선택해야 하는가
“테스트 오차가 왜 훈련 오차보다 높은가?” 이 질문에 정확히 답하려면 두 개의 risk를 구분하는 언어가 먼저 필요하다. 통계적 학습 이론(SLT)은 그 언어를 제공한다. 우리가 계산할 수 있는 것과 우리가 정말 알고 싶은 것 — 이 간극을 어떻게 수학적으로 좁히는가?
두 개의 위험
학습 문제는 4-튜플 로 정의된다. 여기서 는 우리가 결코 직접 볼 수 없는 데이터 생성 분포다. 우리가 관찰하는 것은 오직 그 분포에서 iid로 뽑힌 유한 샘플 뿐이다.
이 비대칭에서 두 개의 risk가 탄생한다.
는 우리가 알고 싶은 것이지만 계산할 수 없고, 는 계산할 수 있는 것이지만 우리가 원하는 게 아니다. SLT의 모든 정리는 이 둘의 차이, 즉 generalization gap 를 확률적으로 bound하는 일이다.
고정된 와 iid 샘플 에 대해, .
기대값의 선형성과 의 동일분포성에 의해,
단, 이는 고정된 에서만 성립한다. 데이터에 의존하는 에서는 가 보다 작을 수 있다 — 이것이 과적합의 수학적 뿌리다.
손실함수가 “정답”을 결정한다
손실함수 의 선택은 단순한 계산 편의가 아니다. 어떤 loss를 쓰느냐가 어떤 “정답 예측기”를 지향하는가를 결정한다.
만약 분포 를 완전히 안다면 달성 가능한 최소 위험이 존재한다. 이를 Bayes risk 라 하고, 이를 달성하는 를 Bayes 최적 예측기라 한다. Bayes 예측기의 구체적 형태는 손실에 따라 달라진다.
| 손실 | Bayes 최적 |
|---|---|
| Squared loss | — 조건부 평균 |
| Absolute loss | — 조건부 중앙값 |
| 0-1 loss | — 조건부 mode |
| Cross-entropy | 조건부 분포 자체 |
ERM과 Excess Risk의 3분해
거의 모든 지도학습 알고리즘은 **ERM(Empirical Risk Minimization)**이다.
ERM이 SLT의 중심인 이유는 이 원리가 excess risk를 세 가지 독립된 원천으로 분해하기 때문이다.
각 항이 무엇을 바꿔서 줄어드는지가 명확히 분리된다. approximation은 모델 아키텍처의 문제, estimation은 데이터 양의 문제, optimization은 수렴 알고리즘의 문제다.
estimation error에 대해 핵심 보조정리가 성립한다.
이것이 uniform convergence가 estimation error를 통제한다는 SLT의 핵심 관찰이다. 유한 가설공간 에서 Hoeffding + Union Bound를 적용하면, 확률 로 다음이 성립한다.
를 키우면 approximation error는 감소하지만 estimation error는 증가한다. 이 tension이 “데이터가 적으면 단순 모델, 많으면 복잡 모델”이라는 실무 규칙의 이론적 근거다. 고전적 U-shape 일반화 곡선이 이 3분해의 직접적인 시각화다.
No Free Lunch와 과적합의 정체
과적합을 “train acc 높고 test acc 낮다”로 정의하면 충분한가? SLT는 세 가지 관점을 분리한다.
- Gap 관점: 가 크다.
- Excess risk 관점: estimation error가 approximation error를 지배한다.
- Training dynamics 관점: validation loss가 어느 시점 이후 상승한다.
세 관점은 같은 현상을 다른 각도에서 본다. “generalization gap이 작다”는 것과 “excess risk가 작다”는 것은 독립이다. 상수 예측기 “항상 0.5 출력”은 gap이 0이지만 excess risk는 클 수 있다. 진짜 학습의 목표는 excess risk 최소화다.
를 모든 가측함수로 놓고 ERM을 하면 어떻게 되는가? ERM은 “훈련 라벨 기억(memorization)“이 되어 는 로 수렴하지 않는다. 이것이 No Free Lunch 정리의 핵심이다. 인 유한 입력 공간에서, 임의의 학습 알고리즘 에 대해 어떤 분포 가 존재해 realizable임에도 이 성립한다. 관측되지 않은 점에서 알고리즘은 라벨 정보가 없으므로, 가능한 모든 라벨링에 대해 평균을 내면 오차 기대값이 이상이고 Pigeonhole + Markov로 확률 하한이 따라온다. SLT의 모든 주장은 본질적으로 “가 VC 유한” 같은 제약 하에서의 주장이다.
iid 가정과 분포 이동
Ch2~Ch7의 모든 정리는 “iid 샘플 “으로 시작한다. iid는 두 개의 독립된 가정이다 — **독립(Independence)**과 동일분포(Identically distributed). 둘은 각각 다른 방식으로 깨지고, 대응 방식도 다르다.
| 위반 유형 | 무엇이 깨지는가 | 수학적 대응 |
|---|---|---|
| 시계열 의존성 | Hoeffding의 분해 | -mixing, effective |
| Covariate shift ( 변화) | 계산 | Importance weighting |
| Concept drift ( 변화) | 고정 가정 자체 | Online learning |
-mixing sequence에서는 effective sample size 로 대체하면 많은 SLT bound이 생존한다. iid 위반은 “완전한 붕괴”가 아니라 rate 감소로 나타난다. Covariate shift에서는 importance-weighted ERM이 통계적으로 올바른 대응이지만, 가중치 분산 이 발산하면 추정이 불안정해진다. Concept drift — 자체가 변하는 경우 — 는 고정 가정이 근본적으로 무너지므로 online learning이나 지속 학습으로만 대응 가능하다.
정리
- 두 risk: 는 알고 싶지만 볼 수 없고, 는 계산할 수 있지만 우리가 원하는 게 아니다. SLT 전체는 이 gap을 bound하는 일이다.
- 손실함수: 어떤 loss를 쓰느냐가 Bayes 최적 예측기의 형태를 결정한다. MSE는 조건부 평균, 0-1은 조건부 mode, cross-entropy는 조건부 분포 자체를 지향한다.
- ERM 3분해: excess risk = approximation + estimation + optimization. 각 항은 모델