KL divergence 최소화는 왜 두 개의 다른 연산인가
e-projection과 m-projection의 비대칭성에서 출발해 EM 알고리즘, Variational Inference, MaxEnt까지, KL 기하학의 통일 원리를 추적한다.
- 01 분포 공간이 휘어진 이유 — 정보기하의 기초
- 02 Fisher 정보량은 왜 세 얼굴을 가지는가
- 03 KL 발산은 하나가 아니다 — α-divergence와 정보기하의 통일 언어
- 04 지수족은 왜 분포 공간의 아핀 부분다양체인가
- 05 Natural Gradient는 왜 좌표를 묻지 않는가
- 06 KL divergence 최소화는 왜 두 개의 다른 연산인가
- 07 정보기하가 현대 AI를 어떻게 만드는가
를 최소화할 때, 어느 인자를 고정하고 어느 쪽을 움직이느냐에 따라 전혀 다른 기하학적 연산이 탄생한다. 이 비대칭성은 단순한 수식 트릭이 아니다. EM 알고리즘의 E-step과 M-step이 왜 다른지, Variational Inference가 왜 mode-seeking인지, Maximum Entropy 원리가 왜 exponential family를 낳는지 — 이 모든 질문이 하나의 답으로 수렴한다. KL divergence를 최소화하는 두 가지 방향, e-projection과 m-projection이란 무엇인가?
두 projection의 정의
분포 다양체 위의 부분다양체 에 대해 두 projection을 정의한다.
m-projection: 를 고정하고, 위에서 를 움직여 를 최소화한다.
e-projection: 를 고정하고, 위에서 를 움직여 를 최소화한다.
이름의 유래는 어떤 geodesic으로 내려가느냐에 있다. e-geodesic은 (natural parameter) 좌표에서 직선, 즉 로 정의된다. m-geodesic은 (expectation) 좌표에서 직선, 즉 (혼합)이다.
“m-flat 다양체에 투영할 때는 e-geodesic으로, e-flat 다양체에 투영할 때는 m-geodesic으로 내려간다.” 이 교차 쌍대성이 핵심이다.
이 e-flat이고 면, 모든 에 대해 다음이 성립한다.
는 의 e-projection이므로, 에서 로의 m-geodesic이 에 수직이다. 이 e-flat이므로 와 를 잇는 경로는 e-geodesic이다. Canonical divergence 공식 로 전개하면, 수직성 조건 이 교차 항을 소거하고 등식이 성립한다.
EM 알고리즘: 두 projection의 교대
잠재변수 모델 에서 MLE를 직접 구하기 어려운 이유는 때문이다. EM은 보조분포 를 도입해 ELBO를 분해한다.
이 분해를 기하학적으로 읽으면 다음과 같다 (Csiszár & Tusnády 1984).
-
E-step: 를 움직여 를 최소화. 해는 . 이는 “데이터 공간 에서 현재 모델 점으로의 m-projection”이다.
-
M-step: 를 움직여 를 최소화. 이는 “모델 다양체 위에서 의 e-projection”이다.
두 projection의 교대는 ELBO를 단조 증가시킨다. Pythagoras 정리가 이 수렴을 분해한다.
두 번째 항이 매 iteration의 KL 감소량이다. E-step 후 이 되고, M-step이 ELBO를 올리므로 가 보장된다.
Variational Inference: reverse KL의 기하
VI는 사후분포 를 variational family 안에서 근사한다.
이것은 reverse KL의 최소화다. 에서는 가 의 zero 영역을 밟으면 가 된다. 따라서 는 의 support 안에 갇히도록 수렴한다.
Reverse KL : 는 가 0인 곳을 피한다 → 단일 mode에 집중 (mode-seeking). 다모드 분포에서 VI는 한 mode를 선택한다.
Forward KL : 가 있는 곳에 도 있어야 한다 → 모든 mode를 포괄 (mean-seeking). MLE가 이 방향이다.
Mean-field family 는 exp family 가정 하에서 자연 파라미터 좌표에서 cross-term 없는 affine 부분공간, 즉 e-flat 부분다양체다. 이 구조가 CAVI (Coordinate Ascent VI)의 closed-form 업데이트를 낳는다.
그러나 e-flat이 주는 선물에는 대가가 따른다. 상관된 사후분포에서 mean-field는 variance를 과소추정한다. 예를 들어 의 2D Gaussian posterior에서 mean-field 해의 표준편차는 이론값의 배에 불과하다.
MaxEnt: e-projection으로서의 엔트로피 최대화
Jaynes의 최대 엔트로피 원리를 정식화하면 다음과 같다. 제약 하에서 를 최대화하라. 일반화된 형태(MinRelEnt)는 prior 에 대해 를 최소화하는 문제다.
Lagrangian 풀면 해는 항상 exponential family 형태다.
기하학적으로 이것은 무엇인가? 제약 집합 는 (expectation) 좌표에서 affine 초평면들의 교집합, 즉 m-flat 부분다양체다. 는 의 **e-projection onto **다 (Csiszár 1975).
Pythagoras 정리가 여기서도 성립한다. 임의 에 대해 . 이것이 MaxEnt 해의 유일성 증명이기도 하다. “주어진 정보 이상을 주장하지 말라”는 Jaynes의 원칙은 “prior에서 제약 다양체로의 e-projection”이라는 기하학적 문장과 정확히 동치다.
Gaussian이 “mean과 variance만 알 때 최대 엔트로피 분포”인 이유, softmax가 “범주형에서 moment 제약 MaxEnt”인 이유가 여기서 나온다. MaxEnt, exp family, e-projection은 같은 현상의 세 얼굴이다.
트레이드오프
m-projection (): mean-seeking. 의 모든 mass를 커버하려 한다. MLE, forward KL minimization이 여기에 속한다.
e-projection (): mode-seeking. 단일 모드에 집중한다. VI (reverse KL), MaxEnt의 해가 여기에 속한다.
어느 쪽이 “옳은가”의 문제가 아니다. mode-finding이 목적이면 e-projection이 적합하고, 분포 전체를 커버해야 하면 m-projection이 적합하다. Pythagoras 정리는 e-flat 다양체에서만 정확하게 성립한다는 점도 트레이드오프다 — mean-field VI의 CAVI가 closed-form인 이유도, variance underestimation이 발생하는 이유도 e-flatness에서 온다.
정리
- KL divergence 에서 를 움직이면 m-projection, 를 움직이면 e-projection이다. 이 비대칭성이 통계 추론 전체를 관통한다.
- EM의 E-step은 m-projection, M-step은 e-projection이다. Pythagoras 정리가 매 iteration의 ELBO 증가를 분해한다.
- VI의 reverse KL은 e-flat 다양체로의 projection이며, mode-seeking과 variance underestimation은 이 구조의 필연적 귀결이다.
- MaxEnt 해는 prior의 e-projection onto m-flat 제약 다양체다. Gaussian, softmax, Boltzmann 분포가 모두 이 원리에서 나온다.
수식의 비대칭 하나가 기계학습 추론의 절반을 설명한다.