조건부 기댓값은 왜 ML의 모든 곳에 있는가

독립성의 엄밀한 정의부터 Bayes 정리, 조건부 기댓값의 Kolmogorov 정의, Tower·Pull-out 성질, 그리고 베이지안 추론의 측도론적 기초까지 — ML 핵심 알고리즘을 관통하는 하나의 수학적 구조를 추적한다.

ML 코드를 쓰다 보면 이상한 패턴을 발견한다. EM 알고리즘의 E-step, Bellman 방정식의 backup, REINFORCE의 baseline subtraction, ELBO의 분해 — 전혀 다른 알고리즘인데 증명 구조가 동일하다. 그 공통 뼈대가 조건부 기댓값 $\mathbb{E}[X \mid \mathcal{G}]$ 이다. 왜 이 하나의 개념이 이토록 많은 곳에 나타나는가?

독립성: ML 가정의 시작점

거의 모든 ML 정리는 i.i.d. 가정에서 출발한다. 그런데 “독립”이 정확히 무엇인지 물으면 대개 “서로 영향을 주지 않는다”는 직관만 나온다. 측도론은 이를 세 층위로 분리한다.

두 사건 $A, B$ 의 독립은

$\mathbb{P}(A \cap B) = \mathbb{P}(A)\mathbb{P}(B)$

이다. 세 사건 이상으로 넘어가면 **쌍독립(pairwise)**과 **상호독립(mutual)**이 갈라진다. Bernstein이 구성한 반례를 보자. $\Omega = \{1,2,3,4\}$ 에 균등 측도를 주고 $A = \{1,2\}$ , $B = \{1,3\}$ , $C = \{1,4\}$ 로 정의하면

$\mathbb{P}(A \cap B) = \tfrac{1}{4} = \mathbb{P}(A)\mathbb{P}(B), \quad \mathbb{P}(A \cap C) = \tfrac{1}{4}, \quad \mathbb{P}(B \cap C) = \tfrac{1}{4}$

모든 쌍이 독립이다. 그러나

$\mathbb{P}(A \cap B \cap C) = \tfrac{1}{4} \neq \tfrac{1}{8} = \mathbb{P}(A)\mathbb{P}(B)\mathbb{P}(C)$

쌍독립이지만 상호독립이 아니다. CLT와 SLLN의 강한 형태는 상호독립을 요구한다. i.i.d.를 “대충 독립”으로 쓰면 이 구분이 흐릿해진다.

조건부 기댓값의 Kolmogorov 정의

연속 확률변수 $Y$ 에서 “ $Y = y$ 일 때 $X$ 의 기댓값”을 직접 정의하려면 $\mathbb{P}(Y = y) = 0$ 이라는 벽에 부딪힌다. Kolmogorov는 이 문제를 σ-대수로 우회했다.

정의 1 · 조건부 기댓값 (Kolmogorov)

$X \in L^1(\mathbb{P})$ , $\mathcal{G} \subseteq \mathcal{F}$ sub-σ-대수. $\mathbb{E}[X \mid \mathcal{G}]$ 는 다음 두 조건을 만족하는 확률변수다.

(C1) $\mathcal{G}$ -가측: $\{\mathbb{E}[X \mid \mathcal{G}] \leq c\} \in \mathcal{G}$ for all $c$ .

(C2) 적분 일치: 모든 $A \in \mathcal{G}$ 에 대해

$\int_A \mathbb{E}[X \mid \mathcal{G}]\, d\mathbb{P} = \int_A X\, d\mathbb{P}$

이 조건을 만족하는 확률변수는 a.s. 유일하다.

존재성은 Radon-Nikodym 정리로 보장된다. $\nu(A) := \int_A X\, d\mathbb{P}$ 를 $\mathcal{G}$ 위의 부호측도로 정의하면 $\nu \ll \mathbb{P}|_\mathcal{G}$ 이고, Radon-Nikodym 밀도가 바로 $\mathbb{E}[X \mid \mathcal{G}]$ 다.

기하학적으로 보면 이렇다. $X \in L^2$ 일 때 $\mathbb{E}[X \mid \mathcal{G}]$ 는 $X$ 의 부분공간 $L^2(\mathcal{G})$ 로의 직교 사영이다.

$\mathbb{E}[X \mid \mathcal{G}] = \arg\min_{Y \in L^2(\mathcal{G})} \mathbb{E}[(X - Y)^2]$

MMSE estimator가 $\hat{X} = \mathbb{E}[X \mid Y]$ 인 이유가 여기 있다.

Tower와 Pull-out — 알고리즘의 분해 도구

조건부 기댓값의 성질 중 두 개가 특히 중요하다.

Tower Property: $\mathcal{G}_1 \subseteq \mathcal{G}_2$ 이면

$\mathbb{E}[\mathbb{E}[X \mid \mathcal{G}_2] \mid \mathcal{G}_1] = \mathbb{E}[X \mid \mathcal{G}_1] \quad \text{a.s.}$

“더 세밀한 정보로 만든 추정을 더 거친 정보로 평균 내면, 처음부터 거친 정보로 추정한 것과 같다.” EM의 monotonicity, Bellman backup, ELBO 분해가 모두 이 한 줄에서 나온다.

Pull-out Property: $Y$ 가 $\mathcal{G}$ -가측이면

$\mathbb{E}[YX \mid \mathcal{G}] = Y \cdot \mathbb{E}[X \mid \mathcal{G}] \quad \text{a.s.}$

$\mathcal{G}$ 의 정보로 결정되는 $Y$ 는 조건부 기댓값 밖으로 빠져나온다. REINFORCE에서 baseline $b(s)$ 가 $\sigma(S)$ -가측이면

$\mathbb{E}[\nabla \log \pi_\theta(a \mid s) \cdot b(s)] = \mathbb{E}\!\left[b(s)\underbrace{\mathbb{E}[\nabla \log \pi_\theta(a \mid s) \mid s]}_{=\,0}\right] = 0$

이 되어 baseline subtraction이 unbiased임이 증명된다.

✎ Eve's Law

Tower의 직접적인 귀결로 분산 분해가 따라온다.

$\text{Var}(X) = \underbrace{\mathbb{E}[\text{Var}(X \mid Y)]}_{\text{within-group}} + \underbrace{\text{Var}(\mathbb{E}[X \mid Y])}_{\text{between-group}}$

bias-variance tradeoff의 수학적 기반이고, mini-batch SGD에서 배치 크기 $B$ 를 늘리면 분산이 $1/B$ 로 줄어드는 이유다.

조건부 Jensen: $\varphi$ 가 볼록이면

$\mathbb{E}[\varphi(X) \mid \mathcal{G}] \geq \varphi(\mathbb{E}[X \mid \mathcal{G}]) \quad \text{a.s.}$

$\varphi = -\log$ 로 놓으면 조건부 KL $\geq 0$ , 즉 ELBO $\leq \log p(x)$ 가 나온다.

Bayes 정리와 베이지안 추론의 측도론

조건부 확률 $\mathbb{P}(A \mid B) = \mathbb{P}(A \cap B)/\mathbb{P}(B)$ 는 새로운 확률측도를 정의한다. $\mathbb{P}(B) > 0$ 이면 $\mathbb{P}(\cdot \mid B)$ 는 가산가법성·정규화를 모두 만족하는 확률측도이고, 확률론의 모든 정리가 이 새 측도에서 상속된다.

Bayes 정리는 이 정의로부터 두 줄 계산이다.

$p(\theta \mid x) = \frac{p(x \mid \theta)\, \pi(\theta)}{p(x)}, \qquad p(x) = \int p(x \mid \theta)\, \pi(\theta)\, d\theta$

베이지안 관점의 핵심 도약은 모수 $\theta$ 를 확률변수로 취급한다는 점이다. 측도론적으로 이는 $(\Theta \times \mathcal{X})$ 위의 결합측도 $\mathbb{P} = \pi \otimes p(\cdot \mid \theta)$ 를 정의하고, 사후분포를 regular conditional probability로 읽는 것이다.

Conjugate prior는 이 구조에서 자연스럽게 나온다. 지수족 가능도 $p(x \mid \theta) \propto \exp(T(x)^\top \theta - A(\theta))$ 에 대응하는 conjugate prior는 $\pi(\theta) \propto \exp(\mathbf{a}^\top \theta - b\, A(\theta))$ 이고, Bayes update 후 사후분포는 $(\mathbf{a} + T(x),\, b+1)$ 로 매개변수가 바뀐 같은 family다. 측도공간이 닫힌다.

사후분포가 closed form이 아닐 때 MCMC가 개입한다. Markov chain의 stationary distribution이 $p(\theta \mid x)$ 이고 chain이 ergodic이면 Birkhoff 정리에 의해

$\frac{1}{T}\sum_{t=1}^T f(\theta_t) \xrightarrow{\text{a.s.}} \mathbb{E}_{p(\theta \mid x)}[f(\theta)]$

시간 평균이 공간 평균으로 수렴한다. Metropolis-Hastings는 acceptance ratio를 $\min(1,\, \pi(\theta')q(\theta' \to \theta)/\pi(\theta)q(\theta \to \theta'))$ 로 설계해 detailed balance를 자동으로 만족시키고, 이것이 stationary distribution이 목표 사후분포임을 보장한다.

✎ 트레이드오프

Conjugate prior: closed-form update, 온라인 학습에 유리. 단, 표현 가능한 prior family가 극히 제한적이다.

VI (Variational Inference): 임의 모델에 적용 가능, GPU로 확장. 단, mean-field 가정이 사후분포를 과도하게 단순화할 수 있다.

MCMC: 점근적으로 정확한 샘플. 단, mixing 시간이 multi-modal posterior에서 폭발할 수 있고 수렴 진단이 어렵다.

정리

독립성은 단계가 있다 — 쌍독립과 상호독립은 다르고, i.i.d.는 상호독립을 요구한다.
조건부 기댓값 $\mathbb{E}[X \mid \mathcal{G}]$ 는 Radon-Nikodym으로 존재가 보장되고, $L^2$ 에서는 직교 사영이다.
Tower는 EM·Bellman·ELBO를, Pull-out은 REINFORCE baseline을, 조건부 Jensen은 KL $\geq 0$ 을 하나의 틀로 통합한다.
베이지안 추론은 모수 공간 위의 측도 연산이다 — conjugacy, MCMC, VI는 모두 intractable evidence를 우회하는 서로 다른 전략이다.

수식이 다르고 알고리즘이 달라 보여도, 그 아래에는 언제나 같은 구조가 있다.