IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

지수족은 왜 분포 공간의 아핀 부분다양체인가

로그밀도의 선형성에서 출발해 쌍대평탄(dually flat) 구조까지, 지수족이 정보기하의 중심이 되는 이유를 추적한다.


정규분포, 베르누이, 포아송, 디리클레 — 통계학에서 중요한 거의 모든 분포가 지수족(exponential family)에 속한다. 이것은 우연이 아니다. 지수족은 “주어진 모멘트 제약 하에서 최대 엔트로피를 갖는 분포”로 자연스럽게 튀어나오며, 기하학적으로는 분포 공간에서 아핀(affine) 부분다양체를 이룬다. 이 아핀 구조가 MLE의 볼록성, Fisher 정보의 해석적 계산, EM 알고리즘의 수렴 보장을 동시에 설명한다. 왜 로그밀도의 선형성 하나가 이토록 많은 것을 만들어내는가?

로그 공간에서의 아핀 구조

지수족의 정의는 단순하다.

p(xθ)=exp ⁣(θTT(x)ψ(θ))h(x)p(x \mid \theta) = \exp\!\bigl(\theta^T T(x) - \psi(\theta)\bigr) h(x)

여기서 T(x)T(x)는 충분통계량, θ\theta는 canonical(정준) 파라미터, ψ(θ)=logexp(θTT)hdν\psi(\theta) = \log \int \exp(\theta^T T) h \, d\nu는 로그-분배함수(cumulant function)다.

이 정의에서 핵심은 한 가지다. xx를 고정하고 θ\theta의 함수로 보면, 로그밀도가 θ\theta의 아핀 함수다.

logp(xθ)=θTT(x)θ의 아핀항ψ(θ)θ의 볼록항+logh(x)θ와 무관\log p(x \mid \theta) = \underbrace{\theta^T T(x)}_{\theta\text{의 아핀항}} - \underbrace{\psi(\theta)}_{\theta\text{의 볼록항}} + \underbrace{\log h(x)}_{\theta\text{와 무관}}

이 구조가 말하는 바는 명확하다. 로그 공간에서 지수족은 T1(x),,Td(x)T_1(x), \dots, T_d(x)를 기저로 하는 dd차원 아핀 부분공간이다. Amari가 이 구조를 e-flat(“exponentially flat”)이라 부른 이유가 바로 여기에 있다.

베르누이 분포로 맛보기를 하면 이해가 빠르다. p(xp)=px(1p)1xp(x \mid p) = p^x(1-p)^{1-x}의 로그를 전개하면 canonical 파라미터 θ=logp1p\theta = \log\frac{p}{1-p} (logit)가 자연스럽게 등장하고, cumulant function은 ψ(θ)=log(1+eθ)\psi(\theta) = \log(1 + e^\theta)가 된다. Logistic 회귀의 sigmoid가 곧 ψ(θ)=E[X]\nabla\psi(\theta) = \mathbb{E}[X]라는 사실은 이 구조의 직접적 귀결이다.

Cumulant Function이 모든 것을 담는다

지수족의 놀라운 성질은 cumulant function ψ(θ)\psi(\theta) 하나가 분포의 모든 모멘트 정보를 담고 있다는 점이다.

ψ(θ)=Eθ[T(X)],2ψ(θ)=Covθ[T(X)]=F(θ)\nabla\psi(\theta) = \mathbb{E}_\theta[T(X)], \qquad \nabla^2\psi(\theta) = \operatorname{Cov}_\theta[T(X)] = F(\theta)

1차 미분은 충분통계량의 기댓값, 2차 미분은 공분산 — 그리고 그 공분산이 Fisher 정보 행렬과 정확히 일치한다. 이것이 단일 등식 F=2ψF = \nabla^2\psi다.

정리 1 · Fisher = Hessian of ψ

Regular minimal 지수족에서 ψ\psi는 엄격 볼록(strictly convex)이며, Fisher 정보 행렬은

Fij(θ)=ijψ(θ)=Covθ[Ti,Tj]F_{ij}(\theta) = \partial_i\partial_j\psi(\theta) = \operatorname{Cov}_\theta[T_i, T_j]

를 만족한다. 특히 ψ\psi의 엄격 볼록성은 F0F \succ 0을 보장한다.

▷ 증명

Score 함수 ilogp=Tiiψ=TiE[Ti]\partial_i \log p = T_i - \partial_i\psi = T_i - \mathbb{E}[T_i]임을 확인하면,

Fij=E[(TiETi)(TjETj)]=Cov[Ti,Tj]=ijψF_{ij} = \mathbb{E}[(T_i - \mathbb{E}T_i)(T_j - \mathbb{E}T_j)] = \operatorname{Cov}[T_i, T_j] = \partial_i\partial_j\psi

엄격 볼록성은 minimal 조건(T의 아핀 독립성)에서 Hölder 부등식의 등호 조건을 이용해 증명한다.

이 등식은 MLE의 전역 수렴도 설명한다. nn개 관측의 로그우도

(θ)=θTT(xi)nψ(θ)\ell(\theta) = \theta^T \sum T(x_i) - n\psi(\theta)

를 최대화하면 ψ(θ^)=1nT(xi)\nabla\psi(\hat\theta) = \frac{1}{n}\sum T(x_i), 즉 모델의 기대 충분통계량 = 관측 충분통계량이라는 모멘트 매칭 조건이 나온다. 볼록 최적화이므로 해가 유일하다. Energy-Based Model의 gradient

θlogpθ(x)=T(x)ψ(θ)=T(x)Epθ[T]\nabla_\theta \log p_\theta(x) = T(x) - \nabla\psi(\theta) = T(x) - \mathbb{E}_{p_\theta}[T]

즉 “관측 통계 − 모델 통계”도 같은 등식의 귀결이다.

Legendre 변환과 두 좌표의 쌍대성

ψ\psi가 엄격 볼록이므로 Legendre 변환이 잘 정의된다.

ψ(η)=supθ(θTηψ(θ))\psi^*(\eta) = \sup_\theta\bigl(\theta^T\eta - \psi(\theta)\bigr)

ψ(θ)=η\nabla\psi(\theta) = \eta의 역사상이 ψ(η)=θ\nabla\psi^*(\eta) = \theta이며, 두 함수는 Fenchel-Young 등식 ψ(θ)+ψ(η)=θTη\psi(\theta) + \psi^*(\eta) = \theta^T\eta로 엮인다.

이로부터 두 좌표계가 생겨난다. Canonical 파라미터 θ\theta는 로그우도의 아핀항 계수로 최적화에 유리하고, Expectation 파라미터 η=Eθ[T(X)]\eta = \mathbb{E}_\theta[T(X)]는 관측 가능한 기댓값으로 추정에 유리하다. 두 좌표계의 Fisher 행렬은 서로 역행렬이다.

F(η)=2ψ(η)=F(θ)1F^*(\eta) = \nabla^2\psi^*(\eta) = F(\theta)^{-1}
트레이드오프: 어떤 좌표를 써야 하는가

θ\theta 좌표에서 로그우도는 볼록 — MLE와 SGD에 최적. η\eta 좌표에서 KL divergence의 기울기는 유클리드 구조를 가짐 — Variational Inference와 Mirror Descent에 최적. Natural Gradient F1gF^{-1}gθ\theta에서의 연산이지만 η\eta-공간의 유클리드 gradient와 수치적으로 동치다. 두 좌표가 모두 필요한 이유가 여기 있다.

Legendre 변환을 통해 KL divergence도 단일한 대수 표현을 얻는다.

KL(pθ1pθ2)=ψ(θ2)+ψ(η1)θ2Tη1\operatorname{KL}(p_{\theta_1} \| p_{\theta_2}) = \psi(\theta_2) + \psi^*(\eta_1) - \theta_2^T\eta_1

한 분포는 θ\theta, 다른 분포는 η\eta로 표현되는 이 “혼합 좌표 표현”이 Pythagoras 정리의 정확한 출처다.

쌍대 아핀 연결과 e/m-Connection

같은 리만 계량 위에 여러 아핀 연결이 가능하다. 지수족에는 두 개의 자연스러운 flat 연결이 있다. e-connection (e)\nabla^{(e)}θ\theta 좌표에서 크리스토펠 기호가 0이어서 θ\theta-직선이 측지선이 되고, m-connection (m)\nabla^{(m)}η\eta 좌표에서 크리스토펠 기호가 0이어서 η\eta-직선이 측지선이 된다.

두 연결 모두 torsion-free이지만 metric-compatible이 아니다. 그러나 Fisher 계량에 대해 쌍대(dual) 관계를 만족한다.

Xg(Y,Z)=g ⁣(X(e)Y,Z)+g ⁣(Y,X(m)Z)X g(Y, Z) = g\!\left(\nabla^{(e)}_X Y,\, Z\right) + g\!\left(Y,\, \nabla^{(m)}_X Z\right)

이 관계가 “쌍대평탄(dually flat)“의 심장이다. 두 연결의 평균

(0)=12 ⁣((e)+(m))\nabla^{(0)} = \tfrac{1}{2}\!\left(\nabla^{(e)} + \nabla^{(m)}\right)

이 Fisher 계량의 Levi-Civita 연결과 일치한다는 사실도 이 쌍대성의 귀결이다.

Generalized Pythagoras와 쌍대평탄의 응용

쌍대평탄 구조가 낳는 가장 강력한 결과는 일반화 Pythagoras 정리다.

정리 2 · Generalized Pythagoras (Amari)

쌍대평탄 다양체에서 세 분포 P,Q,RP, Q, RPP-QQ를 m-측지선으로, QQ-RR을 e-측지선으로 연결하고 두 측지선이 QQ에서 직교

(θRθQ)T(ηPηQ)=0(\theta_R - \theta_Q)^T(\eta_P - \eta_Q) = 0

를 만족하면, D(PR)=D(PQ)+D(QR)D(P \| R) = D(P \| Q) + D(Q \| R)이 정확히 성립한다.

▷ 증명

Canonical divergence 정의와 Legendre 등식 ψ(θQ)+ψ(ηQ)=θQTηQ\psi(\theta_Q) + \psi^*(\eta_Q) = \theta_Q^T\eta_Q를 이용해 전개하면

D(PR)D(PQ)D(QR)=(θRθQ)T(ηPηQ)D(P\|R) - D(P\|Q) - D(Q\|R) = -(\theta_R - \theta_Q)^T(\eta_P - \eta_Q)

직교 조건에서 우변이 0이 되어 등호가 성립한다.

이 정리는 AI 학습 알고리즘 전반에 걸쳐 구체적 귀결을 만든다. EM 알고리즘의 E-step은 m-projection, M-step은 e-projection이며 두 projection의 교대가 KL을 단조 감소시키는 이유가 Pythagoras다. Variational Inference에서 mean-field family가 e-flat 부분다양체를 이루고, ELBO 최대화가 그 위로의 e-projection으로 해석된다. Natural Gradient F1gF^{-1}g가 parameterization-invariant한 이유도 η\eta 좌표에서 Fisher 행렬이 역행렬로 바뀌어 유클리드 gradient와 동치가 되는 쌍대성의 귀결이다.

정리

  • 지수족의 본질은 로그밀도가 T(x)T(x)의 선형 결합이라는 것이다. 이 e-flat 구조가 MLE 볼록성과 유일성을 보장한다.