ML 코드를 쓰다 보면 이상한 패턴을 발견한다. EM 알고리즘의 E-step, Bellman 방정식의 backup, REINFORCE의 baseline subtraction, ELBO의 분해 — 전혀 다른 알고리즘인데 증명 구조가 동일하다. 그 공통 뼈대가 조건부 기댓값 E[X∣G] 이다. 왜 이 하나의 개념이 이토록 많은 곳에 나타나는가?
독립성: ML 가정의 시작점
거의 모든 ML 정리는 i.i.d. 가정에서 출발한다. 그런데 “독립”이 정확히 무엇인지 물으면 대개 “서로 영향을 주지 않는다”는 직관만 나온다. 측도론은 이를 세 층위로 분리한다.
두 사건 A,B의 독립은
P(A∩B)=P(A)P(B)
이다. 세 사건 이상으로 넘어가면 **쌍독립(pairwise)**과 **상호독립(mutual)**이 갈라진다. Bernstein이 구성한 반례를 보자. Ω={1,2,3,4}에 균등 측도를 주고 A={1,2}, B={1,3}, C={1,4}로 정의하면
P(A∩B)=41=P(A)P(B),P(A∩C)=41,P(B∩C)=41
모든 쌍이 독립이다. 그러나
P(A∩B∩C)=41=81=P(A)P(B)P(C)
쌍독립이지만 상호독립이 아니다. CLT와 SLLN의 강한 형태는 상호독립을 요구한다. i.i.d.를 “대충 독립”으로 쓰면 이 구분이 흐릿해진다.
조건부 기댓값의 Kolmogorov 정의
연속 확률변수 Y에서 “Y=y일 때 X의 기댓값”을 직접 정의하려면 P(Y=y)=0이라는 벽에 부딪힌다. Kolmogorov는 이 문제를 σ-대수로 우회했다.
정의 1
· 조건부 기댓값 (Kolmogorov)
X∈L1(P), G⊆F sub-σ-대수. E[X∣G]는 다음 두 조건을 만족하는 확률변수다.
(C1)G-가측: {E[X∣G]≤c}∈G for all c.
(C2) 적분 일치: 모든 A∈G에 대해
∫AE[X∣G]dP=∫AXdP
이 조건을 만족하는 확률변수는 a.s. 유일하다.
존재성은 Radon-Nikodym 정리로 보장된다. ν(A):=∫AXdP를 G 위의 부호측도로 정의하면 ν≪P∣G이고, Radon-Nikodym 밀도가 바로 E[X∣G]다.
기하학적으로 보면 이렇다. X∈L2일 때 E[X∣G]는 X의 부분공간 L2(G)로의 직교 사영이다.
E[X∣G]=argminY∈L2(G)E[(X−Y)2]
MMSE estimator가 X^=E[X∣Y]인 이유가 여기 있다.
Tower와 Pull-out — 알고리즘의 분해 도구
조건부 기댓값의 성질 중 두 개가 특히 중요하다.
Tower Property: G1⊆G2이면
E[E[X∣G2]∣G1]=E[X∣G1]a.s.
“더 세밀한 정보로 만든 추정을 더 거친 정보로 평균 내면, 처음부터 거친 정보로 추정한 것과 같다.” EM의 monotonicity, Bellman backup, ELBO 분해가 모두 이 한 줄에서 나온다.
bias-variance tradeoff의 수학적 기반이고, mini-batch SGD에서 배치 크기 B를 늘리면 분산이 1/B로 줄어드는 이유다.
조건부 Jensen: φ가 볼록이면
E[φ(X)∣G]≥φ(E[X∣G])a.s.
φ=−log로 놓으면 조건부 KL ≥0, 즉 ELBO ≤logp(x)가 나온다.
Bayes 정리와 베이지안 추론의 측도론
조건부 확률 P(A∣B)=P(A∩B)/P(B)는 새로운 확률측도를 정의한다. P(B)>0이면 P(⋅∣B)는 가산가법성·정규화를 모두 만족하는 확률측도이고, 확률론의 모든 정리가 이 새 측도에서 상속된다.
Bayes 정리는 이 정의로부터 두 줄 계산이다.
p(θ∣x)=p(x)p(x∣θ)π(θ),p(x)=∫p(x∣θ)π(θ)dθ
베이지안 관점의 핵심 도약은 모수 θ를 확률변수로 취급한다는 점이다. 측도론적으로 이는 (Θ×X) 위의 결합측도 P=π⊗p(⋅∣θ)를 정의하고, 사후분포를 regular conditional probability로 읽는 것이다.
Conjugate prior는 이 구조에서 자연스럽게 나온다. 지수족 가능도 p(x∣θ)∝exp(T(x)⊤θ−A(θ))에 대응하는 conjugate prior는 π(θ)∝exp(a⊤θ−bA(θ))이고, Bayes update 후 사후분포는 (a+T(x),b+1)로 매개변수가 바뀐 같은 family다. 측도공간이 닫힌다.
사후분포가 closed form이 아닐 때 MCMC가 개입한다. Markov chain의 stationary distribution이 p(θ∣x)이고 chain이 ergodic이면 Birkhoff 정리에 의해
T1∑t=1Tf(θt)a.s.Ep(θ∣x)[f(θ)]
시간 평균이 공간 평균으로 수렴한다. Metropolis-Hastings는 acceptance ratio를 min(1,π(θ′)q(θ′→θ)/π(θ)q(θ→θ′))로 설계해 detailed balance를 자동으로 만족시키고, 이것이 stationary distribution이 목표 사후분포임을 보장한다.
✎ 트레이드오프
Conjugate prior: closed-form update, 온라인 학습에 유리. 단, 표현 가능한 prior family가 극히 제한적이다.
VI (Variational Inference): 임의 모델에 적용 가능, GPU로 확장. 단, mean-field 가정이 사후분포를 과도하게 단순화할 수 있다.
MCMC: 점근적으로 정확한 샘플. 단, mixing 시간이 multi-modal posterior에서 폭발할 수 있고 수렴 진단이 어렵다.
정리
독립성은 단계가 있다 — 쌍독립과 상호독립은 다르고, i.i.d.는 상호독립을 요구한다.
조건부 기댓값 E[X∣G]는 Radon-Nikodym으로 존재가 보장되고, L2에서는 직교 사영이다.