IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

KL divergence 최소화는 왜 두 개의 다른 연산인가

e-projection과 m-projection의 비대칭성에서 출발해 EM 알고리즘, Variational Inference, MaxEnt까지, KL 기하학의 통일 원리를 추적한다.


D(pq)D(p \| q)를 최소화할 때, 어느 인자를 고정하고 어느 쪽을 움직이느냐에 따라 전혀 다른 기하학적 연산이 탄생한다. 이 비대칭성은 단순한 수식 트릭이 아니다. EM 알고리즘의 E-step과 M-step이 왜 다른지, Variational Inference가 왜 mode-seeking인지, Maximum Entropy 원리가 왜 exponential family를 낳는지 — 이 모든 질문이 하나의 답으로 수렴한다. KL divergence를 최소화하는 두 가지 방향, e-projection과 m-projection이란 무엇인가?

두 projection의 정의

분포 다양체 S\mathcal{S} 위의 부분다양체 MM에 대해 두 projection을 정의한다.

m-projection: qSq \in \mathcal{S}를 고정하고, MM 위에서 pp를 움직여 D(pq)D(p \| q)를 최소화한다.

ΠM(m)(q)=argminpMD(pq)\Pi_M^{(m)}(q) = \arg\min_{p \in M} D(p \| q)

e-projection: pSp \in \mathcal{S}를 고정하고, MM 위에서 qq를 움직여 D(pq)D(p \| q)를 최소화한다.

ΠM(e)(p)=argminqMD(pq)\Pi_M^{(e)}(p) = \arg\min_{q \in M} D(p \| q)

이름의 유래는 어떤 geodesic으로 내려가느냐에 있다. e-geodesic은 θ\theta (natural parameter) 좌표에서 직선, 즉 ptp01tp1tp_t \propto p_0^{1-t} p_1^t로 정의된다. m-geodesic은 η\eta (expectation) 좌표에서 직선, 즉 pt=(1t)p0+tp1p_t = (1-t)p_0 + t p_1 (혼합)이다.

“m-flat 다양체에 투영할 때는 e-geodesic으로, e-flat 다양체에 투영할 때는 m-geodesic으로 내려간다.” 이 교차 쌍대성이 핵심이다.

정리 1 · 일반화 Pythagoras 정리 (Amari 2000)

MM이 e-flat이고 q^=ΠM(e)(p)\hat{q} = \Pi_M^{(e)}(p)면, 모든 qMq \in M에 대해 다음이 성립한다.

D(pq)=D(pq^)+D(q^q)D(p \| q) = D(p \| \hat{q}) + D(\hat{q} \| q)
▷ 증명

q^\hat{q}pp의 e-projection이므로, pp에서 q^\hat{q}로의 m-geodesic이 MM에 수직이다. MM이 e-flat이므로 q^\hat{q}qq를 잇는 경로는 e-geodesic이다. Canonical divergence 공식 D(pq)=ψ(θq)+ψ(ηp)θqTηpD(p \| q) = \psi(\theta_q) + \psi^*(\eta_p) - \theta_q^T \eta_p로 전개하면, 수직성 조건 (ηpηq^)Tv=0(\eta_p - \eta_{\hat{q}})^T v = 0이 교차 항을 소거하고 등식이 성립한다.

EM 알고리즘: 두 projection의 교대

잠재변수 모델 p(x,zθ)p(x, z | \theta)에서 MLE를 직접 구하기 어려운 이유는 logp(x,zθ)dz\log \int p(x, z | \theta) dz 때문이다. EM은 보조분포 q(z)q(z)를 도입해 ELBO를 분해한다.

logp(xθ)=Eq[logp(x,zθ)logq(z)]L(q,θ)+KL(qp(zx,θ))\log p(x|\theta) = \underbrace{\mathbb{E}_q[\log p(x,z|\theta) - \log q(z)]}_{\mathcal{L}(q, \theta)} + \text{KL}(q \| p(z|x,\theta))

이 분해를 기하학적으로 읽으면 다음과 같다 (Csiszár & Tusnády 1984).

  • E-step: qq를 움직여 KL(qp(zx,θ(t)))\text{KL}(q \| p(z|x,\theta^{(t)}))를 최소화. 해는 q(t+1)=p(zx,θ(t))q^{(t+1)} = p(z|x, \theta^{(t)}). 이는 “데이터 공간 D\mathcal{D}에서 현재 모델 점으로의 m-projection”이다.

  • M-step: θ\theta를 움직여 D(q(t+1)pθ)D(q^{(t+1)} \| p_\theta)를 최소화. 이는 “모델 다양체 M\mathcal{M} 위에서 q(t+1)q^{(t+1)}e-projection”이다.

두 projection의 교대는 ELBO를 단조 증가시킨다. Pythagoras 정리가 이 수렴을 분해한다.

D(q(t+1)pθ(t))=D(q(t+1)pθ(t+1))+D(pθ(t+1)pθ(t))D(q^{(t+1)} \| p_{\theta^{(t)}}) = D(q^{(t+1)} \| p_{\theta^{(t+1)}}) + D(p_{\theta^{(t+1)}} \| p_{\theta^{(t)}})

두 번째 항이 매 iteration의 KL 감소량이다. E-step 후 KL=0\text{KL} = 0이 되고, M-step이 ELBO를 올리므로 logp(xθ(t+1))logp(xθ(t))\log p(x|\theta^{(t+1)}) \geq \log p(x|\theta^{(t)})가 보장된다.

Variational Inference: reverse KL의 기하

VI는 사후분포 p(θx)p(\theta|x)를 variational family Q\mathcal{Q} 안에서 근사한다.

q=argminqQKL(qp(θx))q^* = \arg\min_{q \in \mathcal{Q}} \text{KL}(q \| p(\theta|x))

이것은 reverse KL의 최소화다. D(qp)D(q \| p)에서는 qqpp의 zero 영역을 밟으면 KL\text{KL} \to \infty가 된다. 따라서 qqpp의 support 안에 갇히도록 수렴한다.

Mode-seeking vs Mean-seeking

Reverse KL minqD(qp)\min_q D(q\|p): qqpp가 0인 곳을 피한다 → 단일 mode에 집중 (mode-seeking). 다모드 분포에서 VI는 한 mode를 선택한다.

Forward KL minqD(pq)\min_q D(p\|q): pp가 있는 곳에 qq도 있어야 한다 → 모든 mode를 포괄 (mean-seeking). MLE가 이 방향이다.

Mean-field family QMF={q:q(θ)=iqi(θi)}\mathcal{Q}_\text{MF} = \{q : q(\theta) = \prod_i q_i(\theta_i)\}는 exp family 가정 하에서 자연 파라미터 θ\theta 좌표에서 cross-term 없는 affine 부분공간, 즉 e-flat 부분다양체다. 이 구조가 CAVI (Coordinate Ascent VI)의 closed-form 업데이트를 낳는다.

qj(θj)exp(Eqj[logp(x,θ)])q_j^*(\theta_j) \propto \exp\left(\mathbb{E}_{q_{-j}}[\log p(x, \theta)]\right)

그러나 e-flat이 주는 선물에는 대가가 따른다. 상관된 사후분포에서 mean-field는 variance를 과소추정한다. 예를 들어 ρ=0.8\rho = 0.8의 2D Gaussian posterior에서 mean-field 해의 표준편차는 이론값의 1ρ20.6\sqrt{1 - \rho^2} \approx 0.6배에 불과하다.

MaxEnt: e-projection으로서의 엔트로피 최대화

Jaynes의 최대 엔트로피 원리를 정식화하면 다음과 같다. 제약 Ep[Ti]=μi\mathbb{E}_p[T_i] = \mu_i 하에서 H(p)H(p)를 최대화하라. 일반화된 형태(MinRelEnt)는 prior p0p_0에 대해 D(pp0)D(p \| p_0)를 최소화하는 문제다.

Lagrangian 풀면 해는 항상 exponential family 형태다.

p(x)=p0(x)exp ⁣(iλiTi(x))Z(λ)p^*(x) = \frac{p_0(x) \exp\!\left(\sum_i \lambda_i T_i(x)\right)}{Z(\lambda)}

기하학적으로 이것은 무엇인가? 제약 집합 C={p:Ep[Ti]=μi}\mathcal{C} = \{p : \mathbb{E}_p[T_i] = \mu_i\}η\eta (expectation) 좌표에서 affine 초평면들의 교집합, 즉 m-flat 부분다양체다. pp^*p0p_0의 **e-projection onto C\mathcal{C}**다 (Csiszár 1975).

p=ΠC(e)(p0)p^* = \Pi_\mathcal{C}^{(e)}(p_0)

Pythagoras 정리가 여기서도 성립한다. 임의 pCp \in \mathcal{C}에 대해 D(pp0)=D(pp)+D(pp0)D(p \| p_0) = D(p \| p^*) + D(p^* \| p_0). 이것이 MaxEnt 해의 유일성 증명이기도 하다. “주어진 정보 이상을 주장하지 말라”는 Jaynes의 원칙은 “prior에서 제약 다양체로의 e-projection”이라는 기하학적 문장과 정확히 동치다.

Gaussian이 “mean과 variance만 알 때 최대 엔트로피 분포”인 이유, softmax가 “범주형에서 moment 제약 MaxEnt”인 이유가 여기서 나온다. MaxEnt, exp family, e-projection은 같은 현상의 세 얼굴이다.

트레이드오프

두 projection의 트레이드오프

m-projection (argminpD(pq)\arg\min_p D(p \| q)): mean-seeking. qq의 모든 mass를 커버하려 한다. MLE, forward KL minimization이 여기에 속한다.

e-projection (argminqD(pq)\arg\min_q D(p \| q)): mode-seeking. 단일 모드에 집중한다. VI (reverse KL), MaxEnt의 해가 여기에 속한다.

어느 쪽이 “옳은가”의 문제가 아니다. mode-finding이 목적이면 e-projection이 적합하고, 분포 전체를 커버해야 하면 m-projection이 적합하다. Pythagoras 정리는 e-flat 다양체에서만 정확하게 성립한다는 점도 트레이드오프다 — mean-field VI의 CAVI가 closed-form인 이유도, variance underestimation이 발생하는 이유도 e-flatness에서 온다.

정리

  • KL divergence D(pq)D(p \| q)에서 pp를 움직이면 m-projection, qq를 움직이면 e-projection이다. 이 비대칭성이 통계 추론 전체를 관통한다.
  • EM의 E-step은 m-projection, M-step은 e-projection이다. Pythagoras 정리가 매 iteration의 ELBO 증가를 분해한다.
  • VI의 reverse KL은 e-flat 다양체로의 projection이며, mode-seeking과 variance underestimation은 이 구조의 필연적 귀결이다.
  • MaxEnt 해는 prior의 e-projection onto m-flat 제약 다양체다. Gaussian, softmax, Boltzmann 분포가 모두 이 원리에서 나온다.

수식의 비대칭 하나가 기계학습 추론의 절반을 설명한다.

REF
Amari, S. and Nagaoka, H. · 2000 · Methods of Information Geometry · American Mathematical Society