IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

정보이론은 어떻게 AI의 모든 손실함수를 하나로 설명하는가

Cross-Entropy와 MLE의 동등성부터 ELBO 분해, MDL, Information Bottleneck, Diffusion ELBO, Fisher 기하까지 — AI 학습 목적함수의 공통 뿌리를 추적한다.


분류 모델의 CrossEntropyLoss, VAE의 재구성 오차, Diffusion의 MSE, RLHF의 Bradley-Terry 손실 — 이것들은 얼핏 제각각처럼 보인다. 그런데 단 하나의 질문으로 모두 관통된다: 데이터를 가장 짧게 설명하려면 파라미터를 어떻게 조정해야 하는가?

모든 손실함수의 공통 분모: Cross-Entropy

Cross-entropy H(p,q)=xp(x)logq(x)H(p, q) = -\sum_x p(x) \log q(x) 는 “실제 분포 pp 에서 온 데이터를 모델 qq 의 코드로 기술할 때 평균 비트 수”다. 핵심 항등식은 다음이다.

H(p,q)=H(p)+D(pq)H(p, q) = H(p) + D(p \| q)

H(p)H(p)θ\theta 에 무관한 상수이므로, Cross-Entropy 최소화는 곧 D(pqθ)D(p \| q_\theta) 최소화다. 그리고 MLE는 maxlogqθ(xi)\max \sum \log q_\theta(x_i), 즉 minH(p^,qθ)\min H(\hat{p}, q_\theta)와 동치다. 결국 분류기를 학습하든 언어모델을 학습하든, 우리는 항상 같은 일을 하고 있다 — 경험분포와 모델분포 사이의 KL을 줄인다.

Perplexity의 정보이론적 의미

언어모델의 PPL은 exp(H(p^,qθ))\exp(H(\hat{p}, q_\theta))다. PPL = 20이면 “매 토큰마다 20개 후보 중 하나 수준의 불확실성”, 즉 log2204.3\log_2 20 \approx 4.3 bits/token. Uniform 분포(vocab=50000)의 15.6 bits와 비교하면 11 bits를 압축한 셈이다.

ELBO: 잠재변수 모델에서의 정확한 분해

p(zx)p(z|x) 를 직접 계산할 수 없을 때 — VAE, Diffusion, 모든 잠재변수 모델에서 — 다음 항등식이 출발점이 된다.

logp(x)=Eq(zx)[logp(xz)]D(q(zx)p(z))ELBO+D(q(zx)p(zx))\log p(x) = \underbrace{\mathbb{E}_{q(z|x)}[\log p(x|z)] - D(q(z|x) \| p(z))}_{\text{ELBO}} + D(q(z|x) \| p(z|x))

ELBO는 logp(x)\log p(x) 의 하한이 아니라 정확한 분해다. Gap은 항상 근사 posterior와 진짜 posterior 사이의 KL이다. Encoder가 완벽하다면 gap은 0이 된다.

두 항의 역할은 명확하다. Reconstruction term Eq[logp(xz)]\mathbb{E}_q[\log p(x|z)]는 “zz로부터 xx를 얼마나 잘 복원하는가”를, KL term D(q(zx)p(z))D(q(z|x) \| p(z))는 “posterior가 prior에서 얼마나 벗어났는가”를 잰다. β\beta-VAE는 KL 계수를 β>1\beta > 1로 키워 I(X;Z)I(X;Z)를 압축함으로써 latent 축의 disentanglement를 유도한다.

MDL: 모델 복잡도도 비트로 센다

Rissanen(1978)의 MDL 원리는 같은 프레임을 모델 선택으로 확장한다.

M^=argminM{L(M)+L(DM)}\hat{M} = \arg\min_M \{ L(M) + L(D|M) \}

L(M)=logp(M)L(M) = -\log p(M), L(DM)=logp(DM)L(D|M) = -\log p(D|M) 으로 놓으면 이것은 MAP 추정과 동치다. L2 정규화는 θN(0,1/λ)\theta \sim \mathcal{N}(0, 1/\lambda) prior 하의 MDL이고, L1은 Laplace prior다. BIC의 k2logn\frac{k}{2}\log n 페널티는 Rissanen stochastic complexity의 선행항이다.

Information Bottleneck: 좋은 표현의 정의

Tishby(1999)는 표현 ZZ의 최적성을 다음 목적으로 정의했다.

minp(zx)[I(X;Z)βI(Z;Y)]\min_{p(z|x)} \big[ I(X;Z) - \beta\, I(Z;Y) \big]

I(X;Z)I(X;Z)는 작을수록 좋다 — ZZXX를 압축했다는 뜻. I(Z;Y)I(Z;Y)는 클수록 좋다 — ZZ가 레이블 YY를 예측한다는 뜻. β\beta는 두 힘의 균형이다.

Alemi(2016)의 VIB는 이를 tractable하게 만든다. I(X;Z)I(X;Z)를 KL로 상한하고, I(Z;Y)I(Z;Y)를 분류기 log-likelihood로 하한하면:

LVIB=Eq(zx)[logq(yz)]+βD(q(zx)r(z))\mathcal{L}_\text{VIB} = -\mathbb{E}_{q(z|x)}[\log q(y|z)] + \beta \cdot D(q(z|x) \| r(z))

구조가 VAE와 완전히 같다. Target만 ”xx 재구성”에서 ”yy 예측”으로 바뀌었을 뿐이다. VAE는 unsupervised IB, VIB는 supervised VAE다.

Diffusion ELBO: KL의 시간 합산

DDPM의 학습 목적도 같은 분해에서 출발한다. Latent가 하나인 VAE와 달리, Diffusion은 x1:Tx_{1:T} 전체를 잠재변수로 가진다.

logpθ(x0)D(q(xTx0)p(xT))LT0+t=2TD(q(xt1xt,x0)pθ(xt1xt))Lt1logpθ(x0x1)L0-\log p_\theta(x_0) \leq \underbrace{D(q(x_T|x_0) \| p(x_T))}_{L_T \approx 0} + \sum_{t=2}^T \underbrace{D(q(x_{t-1}|x_t,x_0) \| p_\theta(x_{t-1}|x_t))}_{L_{t-1}} - \underbrace{\log p_\theta(x_0|x_1)}_{L_0}

Lt1L_{t-1}은 두 Gaussian 사이의 KL이다. q(xt1xt,x0)q(x_{t-1}|x_t, x_0)는 closed form Gaussian이고, pθp_\theta도 Gaussian으로 파라미터화한다. 두 Gaussian KL을 전개하면 Ho(2020)의 단순 MSE loss가 나온다.

Lsimple(θ)=Et,x0,ϵ[ϵϵθ(αˉtx0+1αˉtϵ,t)2]\mathcal{L}_\text{simple}(\theta) = \mathbb{E}_{t,x_0,\epsilon}\bigl[\|\epsilon - \epsilon_\theta(\sqrt{\bar\alpha_t}\,x_0 + \sqrt{1-\bar\alpha_t}\,\epsilon,\, t)\|^2\bigr]

이 loss는 full ELBO의 각 tt별 KL 계수를 1로 reweight한 버전이다. 그리고 Song(2021)이 보였듯 Denoising Score Matching과 상수 factor를 제외하면 정확히 동치다.

Fisher 정보: KL의 무한소 기하

파라미터를 조금 바꿨을 때 분포가 얼마나 변하는가를 측정하면 Fisher Information Matrix가 나온다.

정리 1 · KL의 2차 근사
D(pθpθ+dθ)=12dθI(θ)dθ+O(dθ3)D(p_\theta \| p_{\theta + d\theta}) = \frac{1}{2} d\theta^\top I(\theta)\, d\theta + O(\|d\theta\|^3)
▷ 증명

D(pθpθ+dθ)=Epθ[(θ+dθ)(θ)]D(p_\theta \| p_{\theta+d\theta}) = -\mathbb{E}_{p_\theta}[\ell(\theta+d\theta) - \ell(\theta)]를 Taylor 전개한다. E[]=0\mathbb{E}[\nabla\ell] = 0 (score의 기대값이 0)이므로 1차 항은 사라지고, E[2]=I(θ)\mathbb{E}[\nabla^2\ell] = -I(\theta)를 이용하면 2차 항만 남는다. \blacksquare

즉 Fisher는 파라미터 공간 위의 Riemannian metric이다. 이 metric으로 steepest descent를 정의하면 Natural Gradient I(θ)1LI(\theta)^{-1}\nabla L가 된다. Adam의 vtv_t는 대각 empirical Fisher의 running estimate로 볼 수 있다 — Adam이 diagonal natural gradient descent에 가까운 이유다.

트레이드오프

Natural Gradient는 파라미터 재구성에 invariant하고 이론적으로 optimal하지만, I(θ)1I(\theta)^{-1}의 계산 비용이 파라미터 수의 제곱에 비례한다. K-FAC(Martens 2015)는 층별 Kronecker factorization으로, Adam은 대각 근사로 이 비용을 줄인다. 정확도와 비용 사이의 균형이 여전히 활발한 연구 주제다.

정리

여섯 챕터가 말하는 것은 결국 하나다.

  • Cross-Entropy 최소화 = MLE = KL 최소화 = 데이터의 최단 코드 학습.
  • ELBO는 잠재변수 모델에서 이 원리를 정확하게 분해한다 — gap은 posterior 근사 오차.
  • MDL은 모델 자체의 complexity도 코드 길이로 환산해 Occam의 면도날을 수치화한다.
  • Information Bottleneck은 “좋은 표현”을 I(X;Z)I(X;Z)I(Z;Y)I(Z;Y)의 트레이드오프로 정의한다.
  • Diffusion ELBO는 VAE의 단일 잠재변수를 TT-step 시퀀스로 확장한 것이며 MSE loss가 그 귀결이다.
  • Fisher Information은 KL의 2차 근사로서, 파라미터 공간에 정보이론적 기하를 부여한다.

이 모든 아이디어의 공통 언어는 비트다 — 데이터를 설명하는 데 드는 최소 코드 길이.

REF
Kingma, D.P. and Welling, M. · 2013 · Auto-Encoding Variational Bayes · ICLR 2014
REF
Ho, J., Jain, A., and Abbeel, P. · 2020 · Denoising Diffusion Probabilistic Models · NeurIPS 2020