IQ Lab
← all posts
AI 2026.04.28 · 10 min read Advanced

PAC Learning이란 무엇인가 — 학습 가능성의 수학적 정의

Valiant의 PAC learnability 정의부터 Fundamental Theorem까지, '얼마나 많은 데이터가 있으면 학습이 보장되는가'를 추적한다.


“내 모델이 충분한 데이터로 학습되면 잘 일반화할까?” 이 질문에 “아마도”가 아닌 정량적 답을 제시하는 것이 통계적 학습 이론(SLT)의 전체 목표다. 그 핵심에 PAC learnability가 있다. 얼마나 많은 샘플이 있어야 학습이 보장되는가?

점근 수렴을 버리다

1970년대까지의 통계 학습 이론은 ”LSLDL_S \to L_\mathcal{D} as nn \to \infty“만 보였다 — 점근 수렴. 하지만 실무자는 “지금 10,000개 샘플로 무엇을 할 수 있나?”를 묻는다.

Valiant(1984)는 학습 가능성을 유한 샘플에서의 확률적 성공 보장으로 재정의했다. 형식적으로:

m:(0,1)2N,D,ϵ,δ(0,1),\exists\, m:(0,1)^2 \to \mathbb{N},\quad \forall \mathcal{D},\quad \forall \epsilon, \delta \in (0,1),

nm(ϵ,δ)PSDn ⁣[LD(A(S))infhHLD(h)+ϵ]1δ.n \geq m(\epsilon, \delta) \Rightarrow \mathbb{P}_{S \sim \mathcal{D}^n}\!\left[L_\mathcal{D}(A(S)) \leq \inf_{h \in \mathcal{H}} L_\mathcal{D}(h) + \epsilon\right] \geq 1 - \delta.

세 항을 분리해서 읽으면:

  • “Approximately Correct” (ϵ\epsilon): 출력 가설의 진짜 위험이 H\mathcal{H} 내 최선 + ϵ\epsilon 이하.
  • “Probably” (1δ1-\delta): 이 조건이 확률 1δ1-\delta 이상으로 성립. δ\delta는 허용하는 실패 확률.
  • Sample complexity m(ϵ,δ)m(\epsilon, \delta): 이 둘을 동시에 보장하기 위한 최소 샘플 수.

이것이 PAC다. “충분히 많은 데이터가 필요하다”는 모호한 주장을 정량화한 것이 Valiant의 혁신이다.

Realizable의 빠른 수렴

가설공간 H\mathcal{H}에 오차 0인 완벽한 가설 hh^*가 존재하는 realizable case는 분석이 단순하면서도 날카롭다.

정리 1 · Realizable PAC — 유한 가설공간

H<|\mathcal{H}| < \infty이고 hH\exists h^* \in \mathcal{H} s.t. LD(h)=0L_\mathcal{D}(h^*) = 0일 때, ERM은

m(ϵ,δ)=log(H/δ)ϵm(\epsilon, \delta) = \left\lceil \frac{\log(|\mathcal{H}|/\delta)}{\epsilon} \right\rceil

개의 샘플로 PAC learn한다.

▷ 증명

“나쁜 사건”을 정의한다: Bh:={LD(h)>ϵ}{LS(h)=0}B_h := \{L_\mathcal{D}(h) > \epsilon\} \cap \{L_S(h) = 0\}. 이는 진짜로는 나쁜데 샘플에서 우연히 완벽하게 맞는 가설이다.

hh에 대해 LD(h)>ϵL_\mathcal{D}(h) > \epsilon이면 LS(h)=0L_S(h) = 0일 확률은 (1ϵ)nenϵ(1-\epsilon)^n \leq e^{-n\epsilon}.

Union bound로 묶으면

P[h:Bh]Henϵ.\mathbb{P}[\exists h: B_h] \leq |\mathcal{H}| \cdot e^{-n\epsilon}.

이를 δ\delta 이하로 하면 nlog(H/δ)/ϵn \geq \log(|\mathcal{H}|/\delta)/\epsilon. \square

핵심 관찰: sample complexity가 1/ϵ1/\epsilon에 선형이다. ϵ\epsilon을 절반으로 줄이면 샘플이 2배면 된다. 그리고 H|\mathcal{H}|에는 로그로 의존하므로, 가설공간이 100배 커져도 샘플은 log1007\log 100 \approx 7배만 늘면 된다.

Agnostic으로 — ϵ\epsilonϵ2\epsilon^2이 되는 이유

현실 데이터에는 노이즈가 있다. H\mathcal{H} 안에 완벽한 가설이 없을 수 있다. 이것이 agnostic case다: infhLD(h)=:LH0\inf_h L_\mathcal{D}(h) =: L_\mathcal{H}^* \geq 0.

realizable에서는 “나쁜 가설이 우연히 LS=0L_S = 0이 되는” 한 방향만 막으면 됐다. agnostic에서는 양방향을 모두 통제해야 한다 — LS(h)L_S(h)LD(h)L_\mathcal{D}(h)보다 너무 작거나 너무 클 수 있다. Hoeffding의 양쪽 꼬리를 쓴다:

P ⁣[LS(h)LD(h)ϵ2]2enϵ2/2.\mathbb{P}\!\left[|L_S(h) - L_\mathcal{D}(h)| \geq \frac{\epsilon}{2}\right] \leq 2e^{-n\epsilon^2/2}.

Union bound 후 2Henϵ2/2δ2|\mathcal{H}|e^{-n\epsilon^2/2} \leq \delta를 정리하면

m(ϵ,δ)=2log(2H/δ)ϵ2.m(\epsilon, \delta) = \left\lceil \frac{2\log(2|\mathcal{H}|/\delta)}{\epsilon^2} \right\rceil.

지수의 ϵϵ2\epsilon \to \epsilon^2 변환이 sample complexity를 1/ϵ1/\epsilon에서 1/ϵ21/\epsilon^2으로 만든다. 정확도를 2배 높이려면 샘플이 4배 필요하다.

트레이드오프

Realizable(1/ϵ1/\epsilon rate)은 “완벽한 가설이 존재한다”는 강한 가정 위에 서 있다. 이 가정을 버리는 순간 — 즉 노이즈나 모델 미스매치를 허용하는 순간 — sample complexity가 제곱으로 악화된다. 현실 문제는 거의 항상 agnostic이다.

VC 차원과 Fundamental Theorem

유한 H\mathcal{H}에서 한 걸음 더 나가면 무한 가설공간의 문제가 기다린다. 선형 분류기, 신경망, SVM — 이들은 모두 H=|\mathcal{H}| = \infty다. 여기서 VC 차원이 등장한다.

VC(H)\text{VC}(\mathcal{H})H\mathcal{H}가 임의의 레이블 패턴으로 분류할 수 있는 점의 최대 개수다. SLT의 핵심 정리는 이것이 유한성의 올바른 척도임을 말한다:

다음 네 조건은 동치다:
(a) H\mathcal{H}가 agnostic PAC learnable
(b) H\mathcal{H}가 uniform convergence property 만족
(c) ERM이 H\mathcal{H}를 agnostic PAC learn
(d) VC(H)<\text{VC}(\mathcal{H}) < \infty

핵심 방향은 (d) → (b)다. VC가 유한이면 Sauer-Shelah Lemma에 의해 성장 함수가 다항식으로 억제된다:

ΠH(n)(end)d.\Pi_\mathcal{H}(n) \leq \left(\frac{en}{d}\right)^d.

이 다항 성장이 지수 감소 enϵ2/8e^{-n\epsilon^2/8}에 압도당하므로 uniform convergence가 성립한다. 그리고 sample complexity는

mH(ϵ,δ)=Θ ⁣(d+log(1/δ)ϵ2).m_\mathcal{H}(\epsilon, \delta) = \Theta\!\left(\frac{d + \log(1/\delta)}{\epsilon^2}\right).

VC 차원에 선형으로, 지수적으로 의존하지 않는다.

Occam의 면도날 — 짧은 설명의 보상

또 다른 각도에서 같은 현상을 볼 수 있다. 각 가설에 description length h|h| (비트)를 배정하고 Kraft 부등식 h2h1\sum_h 2^{-|h|} \leq 1을 만족시키면, realizable case에서 다음 bound가 성립한다:

LD(h)h+log(1/δ)n.L_\mathcal{D}(h) \leq \frac{|h| + \log(1/\delta)}{n}.

“더 짧은 설명”이 “더 강한 일반화 보장”으로 직접 변환된다. 이것이 MDL(Minimum Description Length) 원리의 수학적 내용이다.

유한 H\mathcal{H} bound mlogH/ϵm \sim \log|\mathcal{H}|/\epsilon과 비교하면, Occam bound mh/ϵm \sim |h|/\epsilon은 가설공간 전체가 아니라 선택된 가설 하나의 복잡도에만 의존한다. 가설공간이 넓더라도 간단한 해를 찾을 수 있다면 샘플을 아낄 수 있다.

정리

  • PAC learnability는 “점근 수렴” 대신 유한 샘플에서의 확률적 보장m(ϵ,δ)m(\epsilon, \delta)개 샘플로 확률 1δ1-\delta로 오차 ϵ\epsilon 이하.
  • Realizable case: m=O(logH/ϵ)m = O(\log|\mathcal{H}|/\epsilon), fast rate 1/ϵ1/\epsilon.
  • Agnostic case: m=O(logH/ϵ2)m = O(\log|\mathcal{H}|/\epsilon^2), 1/ϵ21/\epsilon^2로 악화. 양쪽 꼬리를 통제해야 하기 때문.
  • Fundamental Theorem: PAC learnability ⟺ uniform convergence ⟺ VC(H)<\text{VC}(\mathcal{H}) < \infty.
  • Occam bound: 짧은 description length가 직접 강한 일반화 보장으로 변환된다.

VC 차원이 무한인 신경망이 왜 실전에서 일반화하는지는 이 고전 이론으로 설명되지 않는다. 다음은 Rademacher 복잡도와 안정성 기반 bound로 넘어간다.

REF
Valiant, L. G. · 1984 · A Theory of the Learnable · Communications of the ACM
REF
Blumer, A., Ehrenfeucht, A., Haussler, D., and Warmuth, M. K. · 1987 · Occam's Razor · Information Processing Letters