IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

조건부 기댓값은 왜 ML의 모든 곳에 있는가

독립성의 엄밀한 정의부터 Bayes 정리, 조건부 기댓값의 Kolmogorov 정의, Tower·Pull-out 성질, 그리고 베이지안 추론의 측도론적 기초까지 — ML 핵심 알고리즘을 관통하는 하나의 수학적 구조를 추적한다.


ML 코드를 쓰다 보면 이상한 패턴을 발견한다. EM 알고리즘의 E-step, Bellman 방정식의 backup, REINFORCE의 baseline subtraction, ELBO의 분해 — 전혀 다른 알고리즘인데 증명 구조가 동일하다. 그 공통 뼈대가 조건부 기댓값 E[XG]\mathbb{E}[X \mid \mathcal{G}] 이다. 왜 이 하나의 개념이 이토록 많은 곳에 나타나는가?

독립성: ML 가정의 시작점

거의 모든 ML 정리는 i.i.d. 가정에서 출발한다. 그런데 “독립”이 정확히 무엇인지 물으면 대개 “서로 영향을 주지 않는다”는 직관만 나온다. 측도론은 이를 세 층위로 분리한다.

두 사건 A,BA, B의 독립은

P(AB)=P(A)P(B)\mathbb{P}(A \cap B) = \mathbb{P}(A)\mathbb{P}(B)

이다. 세 사건 이상으로 넘어가면 **쌍독립(pairwise)**과 **상호독립(mutual)**이 갈라진다. Bernstein이 구성한 반례를 보자. Ω={1,2,3,4}\Omega = \{1,2,3,4\}에 균등 측도를 주고 A={1,2}A = \{1,2\}, B={1,3}B = \{1,3\}, C={1,4}C = \{1,4\}로 정의하면

P(AB)=14=P(A)P(B),P(AC)=14,P(BC)=14\mathbb{P}(A \cap B) = \tfrac{1}{4} = \mathbb{P}(A)\mathbb{P}(B), \quad \mathbb{P}(A \cap C) = \tfrac{1}{4}, \quad \mathbb{P}(B \cap C) = \tfrac{1}{4}

모든 쌍이 독립이다. 그러나

P(ABC)=1418=P(A)P(B)P(C)\mathbb{P}(A \cap B \cap C) = \tfrac{1}{4} \neq \tfrac{1}{8} = \mathbb{P}(A)\mathbb{P}(B)\mathbb{P}(C)

쌍독립이지만 상호독립이 아니다. CLT와 SLLN의 강한 형태는 상호독립을 요구한다. i.i.d.를 “대충 독립”으로 쓰면 이 구분이 흐릿해진다.

조건부 기댓값의 Kolmogorov 정의

연속 확률변수 YY에서 “Y=yY = y일 때 XX의 기댓값”을 직접 정의하려면 P(Y=y)=0\mathbb{P}(Y = y) = 0이라는 벽에 부딪힌다. Kolmogorov는 이 문제를 σ-대수로 우회했다.

정의 1 · 조건부 기댓값 (Kolmogorov)

XL1(P)X \in L^1(\mathbb{P}), GF\mathcal{G} \subseteq \mathcal{F} sub-σ-대수. E[XG]\mathbb{E}[X \mid \mathcal{G}]는 다음 두 조건을 만족하는 확률변수다.

(C1) G\mathcal{G}-가측: {E[XG]c}G\{\mathbb{E}[X \mid \mathcal{G}] \leq c\} \in \mathcal{G} for all cc.

(C2) 적분 일치: 모든 AGA \in \mathcal{G}에 대해

AE[XG]dP=AXdP\int_A \mathbb{E}[X \mid \mathcal{G}]\, d\mathbb{P} = \int_A X\, d\mathbb{P}

이 조건을 만족하는 확률변수는 a.s. 유일하다.

존재성은 Radon-Nikodym 정리로 보장된다. ν(A):=AXdP\nu(A) := \int_A X\, d\mathbb{P}G\mathcal{G} 위의 부호측도로 정의하면 νPG\nu \ll \mathbb{P}|_\mathcal{G}이고, Radon-Nikodym 밀도가 바로 E[XG]\mathbb{E}[X \mid \mathcal{G}]다.

기하학적으로 보면 이렇다. XL2X \in L^2일 때 E[XG]\mathbb{E}[X \mid \mathcal{G}]XX의 부분공간 L2(G)L^2(\mathcal{G})로의 직교 사영이다.

E[XG]=argminYL2(G)E[(XY)2]\mathbb{E}[X \mid \mathcal{G}] = \arg\min_{Y \in L^2(\mathcal{G})} \mathbb{E}[(X - Y)^2]

MMSE estimator가 X^=E[XY]\hat{X} = \mathbb{E}[X \mid Y]인 이유가 여기 있다.

Tower와 Pull-out — 알고리즘의 분해 도구

조건부 기댓값의 성질 중 두 개가 특히 중요하다.

Tower Property: G1G2\mathcal{G}_1 \subseteq \mathcal{G}_2이면

E[E[XG2]G1]=E[XG1]a.s.\mathbb{E}[\mathbb{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] = \mathbb{E}[X \mid \mathcal{G}_1] \quad \text{a.s.}

“더 세밀한 정보로 만든 추정을 더 거친 정보로 평균 내면, 처음부터 거친 정보로 추정한 것과 같다.” EM의 monotonicity, Bellman backup, ELBO 분해가 모두 이 한 줄에서 나온다.

Pull-out Property: YYG\mathcal{G}-가측이면

E[YXG]=YE[XG]a.s.\mathbb{E}[YX \mid \mathcal{G}] = Y \cdot \mathbb{E}[X \mid \mathcal{G}] \quad \text{a.s.}

G\mathcal{G}의 정보로 결정되는 YY는 조건부 기댓값 밖으로 빠져나온다. REINFORCE에서 baseline b(s)b(s)σ(S)\sigma(S)-가측이면

E[logπθ(as)b(s)]=E ⁣[b(s)E[logπθ(as)s]=0]=0\mathbb{E}[\nabla \log \pi_\theta(a \mid s) \cdot b(s)] = \mathbb{E}\!\left[b(s)\underbrace{\mathbb{E}[\nabla \log \pi_\theta(a \mid s) \mid s]}_{=\,0}\right] = 0

이 되어 baseline subtraction이 unbiased임이 증명된다.

Eve's Law

Tower의 직접적인 귀결로 분산 분해가 따라온다.

Var(X)=E[Var(XY)]within-group+Var(E[XY])between-group\text{Var}(X) = \underbrace{\mathbb{E}[\text{Var}(X \mid Y)]}_{\text{within-group}} + \underbrace{\text{Var}(\mathbb{E}[X \mid Y])}_{\text{between-group}}

bias-variance tradeoff의 수학적 기반이고, mini-batch SGD에서 배치 크기 BB를 늘리면 분산이 1/B1/B로 줄어드는 이유다.

조건부 Jensen: φ\varphi가 볼록이면

E[φ(X)G]φ(E[XG])a.s.\mathbb{E}[\varphi(X) \mid \mathcal{G}] \geq \varphi(\mathbb{E}[X \mid \mathcal{G}]) \quad \text{a.s.}

φ=log\varphi = -\log로 놓으면 조건부 KL 0\geq 0, 즉 ELBO logp(x)\leq \log p(x)가 나온다.

Bayes 정리와 베이지안 추론의 측도론

조건부 확률 P(AB)=P(AB)/P(B)\mathbb{P}(A \mid B) = \mathbb{P}(A \cap B)/\mathbb{P}(B)는 새로운 확률측도를 정의한다. P(B)>0\mathbb{P}(B) > 0이면 P(B)\mathbb{P}(\cdot \mid B)는 가산가법성·정규화를 모두 만족하는 확률측도이고, 확률론의 모든 정리가 이 새 측도에서 상속된다.

Bayes 정리는 이 정의로부터 두 줄 계산이다.

p(θx)=p(xθ)π(θ)p(x),p(x)=p(xθ)π(θ)dθp(\theta \mid x) = \frac{p(x \mid \theta)\, \pi(\theta)}{p(x)}, \qquad p(x) = \int p(x \mid \theta)\, \pi(\theta)\, d\theta

베이지안 관점의 핵심 도약은 모수 θ\theta를 확률변수로 취급한다는 점이다. 측도론적으로 이는 (Θ×X)(\Theta \times \mathcal{X}) 위의 결합측도 P=πp(θ)\mathbb{P} = \pi \otimes p(\cdot \mid \theta)를 정의하고, 사후분포를 regular conditional probability로 읽는 것이다.

Conjugate prior는 이 구조에서 자연스럽게 나온다. 지수족 가능도 p(xθ)exp(T(x)θA(θ))p(x \mid \theta) \propto \exp(T(x)^\top \theta - A(\theta))에 대응하는 conjugate prior는 π(θ)exp(aθbA(θ))\pi(\theta) \propto \exp(\mathbf{a}^\top \theta - b\, A(\theta))이고, Bayes update 후 사후분포는 (a+T(x),b+1)(\mathbf{a} + T(x),\, b+1)로 매개변수가 바뀐 같은 family다. 측도공간이 닫힌다.

사후분포가 closed form이 아닐 때 MCMC가 개입한다. Markov chain의 stationary distribution이 p(θx)p(\theta \mid x)이고 chain이 ergodic이면 Birkhoff 정리에 의해

1Tt=1Tf(θt)a.s.Ep(θx)[f(θ)]\frac{1}{T}\sum_{t=1}^T f(\theta_t) \xrightarrow{\text{a.s.}} \mathbb{E}_{p(\theta \mid x)}[f(\theta)]

시간 평균이 공간 평균으로 수렴한다. Metropolis-Hastings는 acceptance ratio를 min(1,π(θ)q(θθ)/π(θ)q(θθ))\min(1,\, \pi(\theta')q(\theta' \to \theta)/\pi(\theta)q(\theta \to \theta'))로 설계해 detailed balance를 자동으로 만족시키고, 이것이 stationary distribution이 목표 사후분포임을 보장한다.

트레이드오프

Conjugate prior: closed-form update, 온라인 학습에 유리. 단, 표현 가능한 prior family가 극히 제한적이다.

VI (Variational Inference): 임의 모델에 적용 가능, GPU로 확장. 단, mean-field 가정이 사후분포를 과도하게 단순화할 수 있다.

MCMC: 점근적으로 정확한 샘플. 단, mixing 시간이 multi-modal posterior에서 폭발할 수 있고 수렴 진단이 어렵다.

정리

  • 독립성은 단계가 있다 — 쌍독립과 상호독립은 다르고, i.i.d.는 상호독립을 요구한다.
  • 조건부 기댓값 E[XG]\mathbb{E}[X \mid \mathcal{G}]는 Radon-Nikodym으로 존재가 보장되고, L2L^2에서는 직교 사영이다.
  • Tower는 EM·Bellman·ELBO를, Pull-out은 REINFORCE baseline을, 조건부 Jensen은 KL 0\geq 0을 하나의 틀로 통합한다.
  • 베이지안 추론은 모수 공간 위의 측도 연산이다 — conjugacy, MCMC, VI는 모두 intractable evidence를 우회하는 서로 다른 전략이다.

수식이 다르고 알고리즘이 달라 보여도, 그 아래에는 언제나 같은 구조가 있다.