IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

KL 발산은 하나가 아니다 — α-divergence와 정보기하의 통일 언어

KL 발산의 정보이론적 기원부터 Bregman 발산과의 동치, α-divergence 가족까지 — 현대 AI 손실 함수를 관통하는 하나의 기하학적 구조를 추적한다.


분류 손실 함수, VAE의 ELBO, TRPO의 신뢰 영역, 확산 모델의 변분 경계 — 이것들은 서로 다른 알고리즘처럼 보이지만 하나의 수학적 객체 위에 세워져 있다. 그 객체가 KL 발산이다. 그런데 KL은 단독 개념이 아니다. 볼록 함수의 “접평면과의 차이”인 Bregman 발산과 완전히 동치이고, α라는 매개변수로 무한히 확장되는 발산 가족의 한 점이다. 왜 이 구조가 정보기하 전체를 지배하는가?

KL은 정보 손실이다

KL 발산을 “거리”라고 부르는 것은 오해를 낳는다. KL(pq)KL(qp)\operatorname{KL}(p \| q) \neq \operatorname{KL}(q \| p)이므로 거리의 대칭성 조건을 위반한다. 정확한 해석은 잘못된 모델로 인한 정보 손실이다.

진짜 분포가 pp인데 qq로 설계한 코드를 쓴다면, 최적 코드보다 매번 KL(pq)\operatorname{KL}(p \| q) 비트만큼 더 쓴다. 이 초과 비트가 KL이다. 그래서 KL(pq)0\operatorname{KL}(p \| q) \geq 0이고, p=qp = q일 때만 0이 된다 — Jensen 부등식의 직접적인 귀결이다.

비대칭성은 버그가 아니라 두 가지 다른 “관점”을 인코딩한다.

  • Forward KL KL(pq)\operatorname{KL}(p \| q): pp가 지지하는 모든 영역을 qq가 반드시 커버해야 한다. 아니면 ++\infty. 이 압박이 qqpp의 모든 mode에 걸쳐 퍼지게 만든다 — mean-seeking.
  • Reverse KL KL(qp)\operatorname{KL}(q \| p): qq가 지지하는 곳에서만 p>0p > 0이면 된다. qq가 mode 하나만 잡아도 페널티가 없다 — mode-seeking.

VAE에서 KL(qϕ(zx)p(z))\operatorname{KL}(q_\phi(z|x) \| p(z))를 쓰는 이유, TRPO에서 KL(πoldπθ)δ\operatorname{KL}(\pi_\text{old} \| \pi_\theta) \leq \delta 제약을 쓰는 이유는 이 비대칭성을 의도적으로 이용하는 것이다.

Fisher는 KL의 미분이다

KL과 Fisher 정보행렬의 관계는 단순한 유사성이 아니라 정확한 수학적 동치다.

KL(pθpθ+ε)=12εF(θ)ε+O(ε3)\operatorname{KL}(p_\theta \| p_{\theta + \varepsilon}) = \frac{1}{2} \varepsilon^\top F(\theta) \varepsilon + O(\|\varepsilon\|^3)

KL의 2차 테일러 근사가 Fisher quadratic form이다. 다르게 말하면 Fisher는 KL의 미분, KL은 Fisher의 적분이다.

이 관계가 Natural Gradient Descent(NGD)의 이론적 기반이다. KL 제약 아래 손실을 최소화하는 문제

minθL(θ)s.t.KL(pθpθ)ε\min_{\theta'} L(\theta') \quad \text{s.t.} \quad \operatorname{KL}(p_\theta \| p_{\theta'}) \leq \varepsilon

를 2차 근사로 풀면 θθF(θ)1L(θ)\theta' - \theta \propto F(\theta)^{-1} \nabla L(\theta), 즉 NGD 업데이트가 나온다. TRPO가 KL 신뢰 영역을 Fisher quadratic으로 근사하는 것도, PPO가 그것을 ratio clipping으로 다시 근사하는 것도 모두 이 연쇄에서 온다.

Bregman 발산 — 볼록 함수의 초과량

볼록 함수 ψ\psi가 하나 있으면, 그 접평면과 실제 함수값의 차이로 발산을 정의할 수 있다.

Dψ(x,y):=ψ(x)ψ(y)ψ(y),xyD_\psi(x, y) := \psi(x) - \psi(y) - \langle \nabla\psi(y),\, x - y\rangle

볼록성 때문에 항상 0\geq 0이고, 등호는 x=yx = y에서만 성립한다. 이것이 Bregman 발산이다.

특수 경우를 나열하면 그 일반성이 드러난다.

ψ(x)\psi(x)Dψ(x,y)D_\psi(x, y)
12x2\frac{1}{2}\|x\|^212xy2\frac{1}{2}\|x - y\|^2 (제곱 유클리드)
xilogxi\sum x_i \log x_ixilog(xi/yi)(xiyi)\sum x_i \log(x_i/y_i) - \sum(x_i - y_i) (일반화 KL)
logxi-\sum \log x_i(xi/yilog(xi/yi)1)\sum(x_i/y_i - \log(x_i/y_i) - 1) (Itakura-Saito)

이제 핵심 정리가 등장한다.

정리 1 · 지수족에서 KL = Bregman

지수족 pθ(x)=h(x)exp(θT(x)ψ(θ))p_\theta(x) = h(x)\exp(\theta^\top T(x) - \psi(\theta))에서, cumulant 함수 ψ\psi에 대해

KL(pθ1pθ2)=Dψ(θ2,θ1).\operatorname{KL}(p_{\theta_1} \| p_{\theta_2}) = D_\psi(\theta_2, \theta_1).
▷ 증명

직접 계산한다.

KL(pθ1pθ2)=Eθ1[logpθ1logpθ2]=(θ1θ2)η1(ψ(θ1)ψ(θ2)),\operatorname{KL}(p_{\theta_1} \| p_{\theta_2}) = \mathbb{E}_{\theta_1}[\log p_{\theta_1} - \log p_{\theta_2}] = (\theta_1 - \theta_2)^\top \eta_1 - (\psi(\theta_1) - \psi(\theta_2)),

여기서 η1=Eθ1[T(X)]=ψ(θ1)\eta_1 = \mathbb{E}_{\theta_1}[T(X)] = \nabla\psi(\theta_1). 정리하면

=ψ(θ2)ψ(θ1)ψ(θ1),θ2θ1=Dψ(θ2,θ1).= \psi(\theta_2) - \psi(\theta_1) - \langle \nabla\psi(\theta_1), \theta_2 - \theta_1\rangle = D_\psi(\theta_2, \theta_1). \quad \square

KL이 ψ\psi의 “tangent gap”이라는 해석이 여기서 나온다. 그리고 ψ\psi의 Hessian이 Fisher 정보행렬과 같으므로(F(θ)=2ψ(θ)F(\theta) = \nabla^2\psi(\theta)), 정보기하의 local 구조(Fisher)와 global 구조(KL)가 하나의 볼록 함수 ψ\psi로 통일된다.

두 좌표계의 쌍대성

지수족은 두 가지 자연스러운 좌표계를 갖는다.

  • Natural parameter θ\theta: “exp 안에서 linear”한 추상 표현.
  • Expectation parameter η=ψ(θ)=Eθ[T(X)]\eta = \nabla\psi(\theta) = \mathbb{E}_\theta[T(X)]: 직접 관측 가능한 통계값.

두 좌표는 Legendre 변환으로 연결된다. ψ(η)=supθ[θ,ηψ(θ)]\psi^*(\eta) = \sup_\theta[\langle\theta, \eta\rangle - \psi(\theta)]를 dual potential이라 하면,

KL(pθ1pθ2)=Dψ(θ2,θ1)=Dψ(η1,η2)=ψ(θ2)+ψ(η1)θ2,η1.\operatorname{KL}(p_{\theta_1} \| p_{\theta_2}) = D_\psi(\theta_2, \theta_1) = D_{\psi^*}(\eta_1, \eta_2) = \psi(\theta_2) + \psi^*(\eta_1) - \langle\theta_2, \eta_1\rangle.

같은 KL이 세 가지 등가 형태로 표현된다. 마지막 형태 ψ(θ2)+ψ(η1)θ2,η1\psi(\theta_2) + \psi^*(\eta_1) - \langle\theta_2, \eta_1\rangle가 Amari의 canonical divergence다.

두 Fisher는 서로 역행렬

θ\theta-좌표의 Fisher F(θ)=2ψ(θ)F(\theta) = \nabla^2\psi(\theta)η\eta-좌표의 Fisher F(η)=2ψ(η)F^*(\eta) = \nabla^2\psi^*(\eta)는 서로 역행렬이다. NGD가 θ\theta 공간에서 F1gF^{-1}g를 쓰는 것은, η\eta 공간에서 단순 gradient descent를 하는 것과 동치다.

α-divergence — KL을 넘어서

KL은 더 큰 발산 가족의 한 점이다.

Dα(pq)=1α(1α)(1pαq1αdμ),α0,1D_\alpha(p \| q) = \frac{1}{\alpha(1-\alpha)}\left(1 - \int p^\alpha q^{1-\alpha}\, d\mu\right), \quad \alpha \neq 0, 1

특수 한계: α1\alpha \to 1이면 KL(pq)\operatorname{KL}(p\|q), α0\alpha \to 0이면 KL(qp)\operatorname{KL}(q\|p), α=1/2\alpha = 1/2이면 2H22H^2(Hellinger²), α=2\alpha = 2이면 12χ2\frac{1}{2}\chi^2.

α\alpha는 “어느 분포에 기울어질 것인가”의 매개변수다. α<1\alpha < 1qq-tail에 관대해 mode-seeking, α>1\alpha > 1pp-tail에 민감해 mean-seeking으로 기운다. 결정적인 사실은 2차 항은 모든 α에서 동일하다는 것이다.

Dα(pθpθ+ε)=12εF(θ)ε+12α6Tijkεiεjεk+O(ε4)D_\alpha(p_\theta \| p_{\theta+\varepsilon}) = \frac{1}{2}\varepsilon^\top F(\theta)\varepsilon + \frac{1-2\alpha}{6}T_{ijk}\varepsilon^i\varepsilon^j\varepsilon^k + O(\|\varepsilon\|^4)

모든 α-divergence가 같은 Fisher 계량을 국소적으로 유도한다. α는 3차 항 이상에서만 갈라진다 — 이것이 α-connection의 α\alpha 매개변수가 되는 이유다.

실무에서 α의 선택은 명시적 트레이드오프다. Rényi VAE(Li & Turner 2016)는 α<1\alpha < 1에서 tighter ELBO, α>1\alpha > 1에서 더 다양한 posterior를 얻는다. Rényi Differential Privacy(Mironov 2017)는 Rényi 발산 RαR_\alpha의 합성이 additive해 DP-SGD의 개인정보 예산 추적에 표준으로 쓰인다.

트레이드오프

α-divergence는 KL의 한계를 모드 문제, 아웃라이어 민감성, tail 거동 세 측면에서 동시에 조절한다. 그러나 “최적 α”는 데이터 의존적이므로 하이퍼파라미터 탐색이 필요하고, α>1\alpha > 1에서는 p/qp/q가 큰 영역에 수치적으로 불안정하다. Wasserstein 같은 완전히 다른 클래스의 발산이 필요한 경우(분포 지지가 겹치지 않는 GAN 학습 초기)에는 f-divergence 전체 가족으로도 해결되지 않는다.

정리

  • KL은 정보 손실이다 — “잘못된 모델의 초과 비트.” 비대칭성은 결함이 아니