ML 논문에서 “수렴”이라는 단어는 아무 맥락 없이 쓰인다. SGD가 수렴한다, MLE가 수렴한다, Monte Carlo 추정이 수렴한다. 그런데 이 수렴들은 모두 다른 의미다. Xn→X라는 기호 하나에 최소 네 가지 다른 정의가 들어 있고, 그 강도 차이가 알고리즘 보장의 강도를 결정한다. 어느 의미의 수렴을 주장하고 있는가?
수렴의 네 가지 얼굴
네 종류의 수렴은 강도 순으로 다음과 같이 정리된다.
a.s.⇒in prob⇒in distandLp⇒in prob
거의확실수렴(a.s.): P(limn→∞Xn(ω)=X(ω))=1. 거의 모든 표본경로 ω가 수렴한다. 가장 강하다.
확률수렴(in probability): 모든 ε>0에 대해 limnP(∣Xn−X∣>ε)=0. “큰 차이가 생기는 사건의 확률이 0으로 간다”는 진술이지, 각 경로가 수렴한다는 진술이 아니다.
Lp 수렴: E[∣Xn−X∣p]→0. Markov 부등식으로 바로 in probability를 함의한다.
분포수렴(in distribution): FX의 연속점 x에서 FXn(x)→FX(x). 분포만 비교하며 확률변수 자체는 비교하지 않는다. 가장 약하다.
역이 성립하지 않는 반례들
역이 일반적으로 성립하지 않는다는 것이 핵심이다. Typewriter sequence는 in probability이지만 a.s.가 아니다: Xn=1[j/2k,(j+1)/2k] (여기서 n=2k+j)는 P(Xn=1)=1/2k→0이므로 in probability로 0에 수렴하지만, 임의의 ω∈(0,1)에서 Xn(ω)=1이 무한 번 발생한다. Spike sequenceXn=n⋅1[0,1/n]은 a.s. 0에 수렴하지만 E[∣Xn∣]=1로 L1 수렴하지 않는다. a.s.와 Lp는 서로를 함의하지 않으며 이 두 반례가 그 사실을 보여 준다.
✎ 트레이드오프
수렴 종류 선택은 어떤 보장이 실제로 필요한가에 달려 있다. MCMC에서는 경로 전체의 안정성(a.s.)이 필요하고, PAC learning에서는 확률 수렴으로 충분하다. Heavy-tail 분포에서는 Lp 가정 자체가 깨질 수 있으므로 in probability로 후퇴해야 한다.
Slutsky 정리는 약한 수렴에서 강한 결론을 끌어내는 도구다. XndX이고 Ynpc (상수)이면 Xn+YndX+c. MLE 점근 분석에서 표준오차 추정량 σ^npσ를 알면 n(θ^−θ0)/σ^ndN(0,1)이 된다. 분포 수렴만으로는 이 결론에 도달할 수 없고 추가 조건인 확률 수렴이 필요하다.
분산이 σ2/n으로 감소한다는 관찰이 전부다. Khintchine의 WLLN은 분산 가정조차 제거한다 — L1만으로 충분하다. 특성함수 φ(t/n)n→eiμt이고 Lévy 연속정리로 분포 수렴이 나오며, 상수로의 분포 수렴은 확률 수렴을 함의한다.
강법칙(SLLN): 같은 결론 Xˉn→μ이지만 in probability가 아니라 a.s.다.
WLLN: 특정 n에서 P(|X̄_n - μ| > ε) → 0 (각 n마다 오차가 클 확률이 작아짐)SLLN: P({ω : X̄_n(ω) → μ}) = 1 (한 번 추출된 경로 전체가 수렴)
정리 1
· Kolmogorov SLLN
{Xi} i.i.d., E[∣Xi∣]<∞이면 Xˉna.s.μ.
▷ 증명
L4 가정 하의 단순 증명. E[(Xˉn−μ)4]=O(1/n2). Markov로
P(∣Xˉn−μ∣>ε)≤n2C
∑1/n2<∞이므로 Borel-Cantelli 제1 정리: P(∣Xˉn−μ∣>ε i.o.)=0 for all ε>0. 따라서 Xˉna.s.μ. □
∎
Kolmogorov 0-1 법칙은 {Xˉn→μ}가 tail event임을 보장하므로 이 사건의 확률은 0 또는 1이다. SLLN은 그것이 1임을 확정한다. Glivenko-Cantelli 정리는 이를 균등 수렴으로 강화한다.
x∈Rsup∣F^n(x)−F(x)∣a.s.0
PAC learning의 generalization 보장은 여기서 시작한다.
중심극한정리 — 수렴의 모양
LLN은 Xˉn이 μ로 수렴한다고 말한다. CLT는 그 수렴의 속도와 형태를 명시한다.
정리 2
· Classical CLT
{Xi} i.i.d., E[Xi]=μ, Var(Xi)=σ2∈(0,∞)이면
Zn:=σn(Xˉn−μ)dN(0,1)
▷ 증명
WLOG μ=0, σ=1. 특성함수는
φZn(t)=φY(t/n)n
Taylor 전개: E[Y]=0, E[Y2]=1이므로 φY(s)=1−s2/2+o(s2). 따라서
φY(t/n)=1−2nt2+o(1/n)
이를 n제곱하면
φZn(t)=(1−2nt2+o(1/n))n→e−t2/2
e−t2/2는 N(0,1)의 특성함수다. Lévy 연속정리에 의해 ZndN(0,1). □
∎
증명의 핵심은 세 단계다: 합의 특성함수가 곱으로 분해되고, Taylor 전개로 각 인수를 근사하며, 극한이 알려진 특성함수로 수렴한다. Lindeberg-Feller 일반화는 i.i.d. 가정을 제거한다 — “어떤 단일 항도 합 전체를 지배하지 않는다”는 Lindeberg 조건만으로 충분하다. Berry-Esseen 정리는 수렴 속도를 정량화한다.
xsup∣FZn(x)−Φ(x)∣≤σ3nCρ
O(1/n) 균등 수렴이다. MLE의 점근 정규성 n(θ^−θ0)dN(0,I−1), 신뢰구간, A/B 테스트의 정규 근사 — 전부 이 정리의 응용이다.
Monte Carlo — 차원의 저주 없는 수렴
Monte Carlo 적분은 LLN과 CLT가 만나는 지점이다. 목표: I=Ep[f(X)]. 추정량: I^n=n1∑f(Xi).
일관성 (SLLN): I^na.s.I
오차 분포 (CLT): n(I^n−I)dN(0,σf2)
표준오차: σf/n — 차원 d에 무관
격자 적분(Riemann)은 d차원에서 정확도 O(n−k/d)를 얻는다. 차원이 늘수록 같은 정확도에 지수적으로 많은 점이 필요하다. Monte Carlo는 O(1/n) 수렴률이 차원과 독립이다. Importance Sampling은 분산을 줄인다. w(x)=p(x)/q(x)로 가중하면
I^nIS=n1∑w(Xi)f(Xi)a.s.I
최적 제안 분포 q∗(x)∝∣f(x)∣p(x)에서 분산이 0이 된다. VAE의 ELBO 추정, policy gradient, MCMC 사후 추정 모두 이 틀 안에 있다.
정리
수렴 종류는 강도가 다르다: a.s. ⇒ in prob ⇒ in dist, Lp $\Rightarrow