베이즈 추론의 다섯 가지 근본 질문

Prior에서 Posterior까지, MLE·MAP·Full Bayesian의 등가성부터 Bernstein–von Mises 수렴까지 베이지안 ML의 핵심 구조를 추적한다.

베이지안 머신러닝 교재를 펼치면 처음 마주치는 것은 하나의 수식이다.

p(\theta|D) = \frac{p(D|\theta)\,p(\theta)}{p(D)}

이 수식이 단순해 보이는 이유는 분모 $p(D) = \int p(D|\theta)p(\theta)\,d\theta$ 를 계산하지 않았기 때문이다. 이 적분 하나가 계산 불가능하다는 사실이 Variational Inference, MCMC, Laplace Approximation, BNN — 현대 베이지안 ML의 거의 모든 도구의 존재 이유다. 왜 분모 하나가 이토록 많은 것을 결정하는가?

Bayes 정리의 네 항

$p(\theta|D) \propto p(D|\theta)\,p(\theta)$ 라는 비례 관계부터 시작하자. 네 항의 역할을 구분하는 것이 모든 베이지안 계산의 출발점이다.

항	이름	역할
$p(\theta)$	Prior	데이터를 보기 전의 믿음
$p(D\\|\theta)$	Likelihood	모수가 고정됐을 때 데이터를 설명하는 정도
$p(\theta\\|D)$	Posterior	데이터로 업데이트된 믿음
$p(D)$	Evidence	모든 $\theta$ 에 대한 likelihood의 평균

Evidence $p(D)$ 는 posterior 내부에서는 $\theta$ 와 무관한 정규화 상수다. 그래서 posterior의 형태를 구할 때는 무시할 수 있다. 그런데 이 “단순한 상수”가 두 모델 $M_1, M_2$ 의 비교에서는 핵심이 된다.

$\frac{p(M_1|D)}{p(M_2|D)} = \underbrace{\frac{p(D|M_1)}{p(D|M_2)}}_{\text{Bayes factor}} \cdot \frac{p(M_1)}{p(M_2)}$

Bayes factor는 각 모델의 evidence 비율이다. 복잡한 모델은 prior를 넓게 펼쳐야 하므로 evidence가 작아진다. 모델 복잡도에 대한 자동 Occam’s razor가 이 공식에 내장되어 있다.

✎ Evidence의 이중성

$p(D)$ 는 posterior 계산에선 상수(무시 가능)이지만, 모델 비교에선 핵심 지표다. 같은 항이 맥락에 따라 완전히 다른 역할을 한다.

한편 데이터가 순차적으로 $D_1, D_2$ 로 도착하고 조건부 독립이면 다음이 성립한다.

$p(\theta|D_1, D_2) \propto p(D_2|\theta)\,\underbrace{p(\theta|D_1)}_{\text{어제의 posterior}}$

어제의 posterior가 오늘의 prior 역할을 한다. Bayes 정리는 믿음의 순차적 업데이트 공식이기도 하다.

MLE, MAP, Full Bayesian — 점진적 일반화

세 접근은 “prior에 얼마나 정보를 담느냐”의 스펙트럼이다.

$\text{MLE} \subset \text{MAP} \subset \text{Full Bayesian}$

MLE는 likelihood를 최대화하는 점추정이다. MAP는 posterior를 최대화하는 점추정으로, $\log p(D|\theta) + \log p(\theta)$ 를 최대화한다. Full Bayesian은 posterior 분포 전체를 유지한다.

정리 1 · L2 정규화 = Gaussian Prior MAP

회귀 모형 $y_i = f(x_i;\theta) + \epsilon_i$ , $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$ 과 prior $\theta \sim \mathcal{N}(0, \tau^2 I)$ 하에서 MAP 추정은 L2-regularized least squares와 같다. 정규화 강도는 $\lambda = \sigma^2/\tau^2$ .

▷ 증명

Log-likelihood: $-\frac{1}{2\sigma^2}\sum_i(y_i - f(x_i;\theta))^2 + \text{const}$

Log-prior: $-\frac{1}{2\tau^2}\|\theta\|_2^2 + \text{const}$

MAP objective는 두 항의 합을 최대화하므로, 음수를 붙이고 $2\sigma^2$ 로 스케일하면 $\sum_i(y_i - f_i)^2 + \frac{\sigma^2}{\tau^2}\|\theta\|_2^2$ 최소화. $\square$

∎

이 등식의 귀결은 직접적이다. PyTorch의 weight_decay=1e-4는 분산 $\tau^2 = 10^4$ 인 Gaussian prior의 MAP이다. L1 정규화는 Laplace prior MAP이고, Dropout은 Bernoulli prior의 variational approximation이다. 딥러닝 실무자가 매일 쓰는 regularization 기법들이 베이지안 prior 선택의 다른 표현이다.

MAP은 posterior를 delta 함수로 근사한다. 그 대가로 epistemic uncertainty를 완전히 버린다. Full Bayesian이 필요한 이유가 여기 있다.

Conjugate Prior — 닫힌형 Posterior가 존재할 때

비공액(non-conjugate) 모델에서 posterior는 닫힌형이 없다. 그런데 likelihood가 exponential family에 속하면, 대응하는 conjugate prior를 선택했을 때 posterior가 같은 family 내에서 파라미터만 업데이트된다.

$p(\theta) \in \mathcal{F} \implies p(\theta|D) \in \mathcal{F}$

대표적 쌍들:

Likelihood	Prior	Posterior
Bernoulli( $\theta$ )	Beta( $\alpha, \beta$ )	Beta( $\alpha+k,\, \beta+n-k$ )
Poisson( $\lambda$ )	Gamma( $a, b$ )	Gamma( $a+\sum x_i,\, b+n$ )
Normal( $\mu$ , known $\sigma^2$ )	Normal( $\mu_0, \tau_0^2$ )	Normal( $\mu_n, \tau_n^2$ )
Multinomial( $\pi$ )	Dirichlet( $\alpha$ )	Dirichlet( $\alpha + x$ )

Normal–Normal 쌍에서 posterior precision은 prior precision에 데이터 precision을 더해서 얻는다.

$\tau_n^{-2} = \tau_0^{-2} + n\sigma^{-2}$

이 precision additivity는 Fisher 정보의 가산성과 동일한 구조다. Prior 파라미터 $(\alpha, \beta)$ 를 “가상의 이전 관측”으로 해석하면, 베이지안 업데이트는 실제 관측에 가상 관측을 더하는 연산이다.

Conjugate 구조가 없으면 CAVI의 좌표 업데이트는 닫힌형이 되지 않는다. LDA의 Collapsed Gibbs가 작동하는 것도, VAE에서 KL 항이 해석적 공식을 갖는 것도 모두 conjugate 관계의 직접 결과다.

Predictive Distribution — 불확실성의 두 종류

점추정 $p(y^*|\hat\theta)$ 와 posterior predictive $p(y^*|D)$ 는 다르다.

$p(y^*|D) = \int p(y^*|\theta)\,p(\theta|D)\,d\theta$

분산을 분해하면 두 불확실성이 드러난다.

\text{Var}[y^*|D] = \underbrace{\mathbb{E}_{\theta|D}[\text{Var}(y^*|\theta)]}_{\text{aleatoric}} + \underbrace{\text{Var}_{\theta|D}[\mathbb{E}(y^*|\theta)]}_{\text{epistemic}}

Aleatoric은 관측 노이즈다. 같은 $\theta$ 하에서도 $y^*$ 는 퍼진다. 데이터가 아무리 많아도 줄지 않는다. Epistemic은 모델 불확실성이다. $\theta$ 에 대해 아직 모르는 정도다. 데이터가 쌓일수록 posterior가 좁아지면서 0으로 수렴한다.

Normal–Normal의 경우 predictive 분산은 $\tau_n^2 + \sigma^2$ 이다. Plug-in은 $\sigma^2$ 만 본다. $\tau_n^2$ 만큼 항상 과소 추정한다. OOD 데이터에서 plug-in이 과신(overconfident)하는 이유가 바로 이것이다.

Bernstein–von Mises — Prior는 결국 잊혀진다

데이터 $n \to \infty$ 에서 posterior는 어떻게 되는가?

p(\theta|D_n) \xrightarrow{TV} \mathcal{N}\!\left(\hat\theta_{MLE},\, \frac{F^{-1}(\theta_0)}{n}\right)

prior의 선택과 무관하게, 충분한 데이터가 있으면 posterior는 MLE 중심 Gaussian으로 수렴한다. $F(\theta_0)$ 는 Fisher 정보 행렬이다.

네 가지 귀결이 따라온다. (1) prior가 잊혀진다. (2) Bayesian credible interval과 frequentist confidence interval이 점근적으로 일치한다. (3) posterior가 Gaussian이므로 Laplace 근사가 asymptotically exact하다. (4) 수렴률은 $O(n^{-1/2})$ 로 CLT와 같다.

⚠ BvM의 적용 범위

BvM은 유한 차원, 정칙 모델에서만 성립한다. BNN처럼 파라미터가 $10^6$ 차원이거나, mixture model처럼 non-identifiable하거나, ReLU처럼 비매끄러운 경우에는 엄밀히 적용되지 않는다. 실전에서는 “local mode 주변에서 Gaussian 근사”로 활용하는 것이 현실적이다.

Beta-Bernoulli로 확인해보면: posterior Beta $(\alpha+k, \beta+n-k)$ 의 분산은 $\approx \theta_0(1-\theta_0)/n$ 이고, Poisson Fisher의 역수 $F^{-1}/n = \theta_0(1-\theta_0)/n$ 과 정확히 일치한다. Beta(1,1), Beta(0.5, 0.5), Beta(10,10)으로 prior를 달리해도 $n$ 이 충분히 크면 모두 같은 Gaussian으로 수렴한다.

정리

$p(D)$ 는 posterior 내부에선 상수지만 일반적으로 intractable하다 — 이 intractability가 VI와 MCMC의 존재 이유다.
L2 정규화 = Gaussian prior MAP, L1 = Laplace prior MAP. 딥러닝의 regularization은 베이지안 prior 선택의 다른 언어다.
Conjugate prior는 posterior를 닫힌형으로 만든다. CAVI, Collapsed Gibbs, VAE KL 해석해가 모두 이 구조에 의존한다.
Posterior predictive는 epistemic + aleatoric으로 분산을 분해한다. Plug-in은 epistemic을 버린다.
데이터가 충분하면 prior는 잊혀지고 posterior는 Fisher 정보 기반 Gaussian으로 수렴한다(BvM).

다음 글에서는 evidence $p(D)$ 를 직접 계산하는 대신 lower bound를 최적화하는 Variational Inference의 핵심 아