Valiant의 PAC learnability 정의부터 Fundamental Theorem까지, '얼마나 많은 데이터가 있으면 학습이 보장되는가'를 추적한다.
“내 모델이 충분한 데이터로 학습되면 잘 일반화할까?” 이 질문에 “아마도”가 아닌 정량적 답을 제시하는 것이 통계적 학습 이론(SLT)의 전체 목표다. 그 핵심에 PAC learnability가 있다. 얼마나 많은 샘플이 있어야 학습이 보장되는가?
점근 수렴을 버리다
1970년대까지의 통계 학습 이론은 ”LS→LD as n→∞“만 보였다 — 점근 수렴. 하지만 실무자는 “지금 10,000개 샘플로 무엇을 할 수 있나?”를 묻는다.
Valiant(1984)는 학습 가능성을 유한 샘플에서의 확률적 성공 보장으로 재정의했다. 형식적으로:
∃m:(0,1)2→N,∀D,∀ϵ,δ∈(0,1),
n≥m(ϵ,δ)⇒PS∼Dn[LD(A(S))≤infh∈HLD(h)+ϵ]≥1−δ.
세 항을 분리해서 읽으면:
- “Approximately Correct” (ϵ): 출력 가설의 진짜 위험이 H 내 최선 + ϵ 이하.
- “Probably” (1−δ): 이 조건이 확률 1−δ 이상으로 성립. δ는 허용하는 실패 확률.
- Sample complexity m(ϵ,δ): 이 둘을 동시에 보장하기 위한 최소 샘플 수.
이것이 PAC다. “충분히 많은 데이터가 필요하다”는 모호한 주장을 정량화한 것이 Valiant의 혁신이다.
Realizable의 빠른 수렴
가설공간 H에 오차 0인 완벽한 가설 h∗가 존재하는 realizable case는 분석이 단순하면서도 날카롭다.
정리 1
· Realizable PAC — 유한 가설공간
∣H∣<∞이고 ∃h∗∈H s.t. LD(h∗)=0일 때, ERM은
m(ϵ,δ)=⌈ϵlog(∣H∣/δ)⌉
개의 샘플로 PAC learn한다.
▷ 증명
“나쁜 사건”을 정의한다: Bh:={LD(h)>ϵ}∩{LS(h)=0}. 이는 진짜로는 나쁜데 샘플에서 우연히 완벽하게 맞는 가설이다.
각 h에 대해 LD(h)>ϵ이면 LS(h)=0일 확률은 (1−ϵ)n≤e−nϵ.
Union bound로 묶으면
P[∃h:Bh]≤∣H∣⋅e−nϵ.
이를 δ 이하로 하면 n≥log(∣H∣/δ)/ϵ. □
∎
핵심 관찰: sample complexity가 1/ϵ에 선형이다. ϵ을 절반으로 줄이면 샘플이 2배면 된다. 그리고 ∣H∣에는 로그로 의존하므로, 가설공간이 100배 커져도 샘플은 log100≈7배만 늘면 된다.
Agnostic으로 — ϵ이 ϵ2이 되는 이유
현실 데이터에는 노이즈가 있다. H 안에 완벽한 가설이 없을 수 있다. 이것이 agnostic case다: infhLD(h)=:LH∗≥0.
realizable에서는 “나쁜 가설이 우연히 LS=0이 되는” 한 방향만 막으면 됐다. agnostic에서는 양방향을 모두 통제해야 한다 — LS(h)가 LD(h)보다 너무 작거나 너무 클 수 있다. Hoeffding의 양쪽 꼬리를 쓴다:
P[∣LS(h)−LD(h)∣≥2ϵ]≤2e−nϵ2/2.
Union bound 후 2∣H∣e−nϵ2/2≤δ를 정리하면
m(ϵ,δ)=⌈ϵ22log(2∣H∣/δ)⌉.
지수의 ϵ→ϵ2 변환이 sample complexity를 1/ϵ에서 1/ϵ2으로 만든다. 정확도를 2배 높이려면 샘플이 4배 필요하다.
✎ 트레이드오프
Realizable(1/ϵ rate)은 “완벽한 가설이 존재한다”는 강한 가정 위에 서 있다. 이 가정을 버리는 순간 — 즉 노이즈나 모델 미스매치를 허용하는 순간 — sample complexity가 제곱으로 악화된다. 현실 문제는 거의 항상 agnostic이다.
VC 차원과 Fundamental Theorem
유한 H에서 한 걸음 더 나가면 무한 가설공간의 문제가 기다린다. 선형 분류기, 신경망, SVM — 이들은 모두 ∣H∣=∞다. 여기서 VC 차원이 등장한다.
VC(H)는 H가 임의의 레이블 패턴으로 분류할 수 있는 점의 최대 개수다. SLT의 핵심 정리는 이것이 유한성의 올바른 척도임을 말한다:
다음 네 조건은 동치다:
(a) H가 agnostic PAC learnable
(b) H가 uniform convergence property 만족
(c) ERM이 H를 agnostic PAC learn
(d) VC(H)<∞
핵심 방향은 (d) → (b)다. VC가 유한이면 Sauer-Shelah Lemma에 의해 성장 함수가 다항식으로 억제된다:
ΠH(n)≤(den)d.
이 다항 성장이 지수 감소 e−nϵ2/8에 압도당하므로 uniform convergence가 성립한다. 그리고 sample complexity는
mH(ϵ,δ)=Θ(ϵ2d+log(1/δ)).
VC 차원에 선형으로, 지수적으로 의존하지 않는다.
Occam의 면도날 — 짧은 설명의 보상
또 다른 각도에서 같은 현상을 볼 수 있다. 각 가설에 description length ∣h∣ (비트)를 배정하고 Kraft 부등식 ∑h2−∣h∣≤1을 만족시키면, realizable case에서 다음 bound가 성립한다:
LD(h)≤n∣h∣+log(1/δ).
“더 짧은 설명”이 “더 강한 일반화 보장”으로 직접 변환된다. 이것이 MDL(Minimum Description Length) 원리의 수학적 내용이다.
유한 H bound m∼log∣H∣/ϵ과 비교하면, Occam bound m∼∣h∣/ϵ은 가설공간 전체가 아니라 선택된 가설 하나의 복잡도에만 의존한다. 가설공간이 넓더라도 간단한 해를 찾을 수 있다면 샘플을 아낄 수 있다.
정리
- PAC learnability는 “점근 수렴” 대신 유한 샘플에서의 확률적 보장 — m(ϵ,δ)개 샘플로 확률 1−δ로 오차 ϵ 이하.
- Realizable case: m=O(log∣H∣/ϵ), fast rate 1/ϵ.
- Agnostic case: m=O(log∣H∣/ϵ2), 1/ϵ2로 악화. 양쪽 꼬리를 통제해야 하기 때문.
- Fundamental Theorem: PAC learnability ⟺ uniform convergence ⟺ VC(H)<∞.
- Occam bound: 짧은 description length가 직접 강한 일반화 보장으로 변환된다.
VC 차원이 무한인 신경망이 왜 실전에서 일반화하는지는 이 고전 이론으로 설명되지 않는다. 다음은 Rademacher 복잡도와 안정성 기반 bound로 넘어간다.
REF Blumer, A., Ehrenfeucht, A., Haussler, D., and Warmuth, M. K. · 1987 · Occam's Razor · Information Processing Letters