정규분포, 베르누이, 포아송, 디리클레 — 통계학에서 중요한 거의 모든 분포가 지수족(exponential family)에 속한다. 이것은 우연이 아니다. 지수족은 “주어진 모멘트 제약 하에서 최대 엔트로피를 갖는 분포”로 자연스럽게 튀어나오며, 기하학적으로는 분포 공간에서 아핀(affine) 부분다양체를 이룬다. 이 아핀 구조가 MLE의 볼록성, Fisher 정보의 해석적 계산, EM 알고리즘의 수렴 보장을 동시에 설명한다. 왜 로그밀도의 선형성 하나가 이토록 많은 것을 만들어내는가?
로그 공간에서의 아핀 구조
지수족의 정의는 단순하다.
p(x∣θ)=exp(θTT(x)−ψ(θ))h(x)
여기서 T(x)는 충분통계량, θ는 canonical(정준) 파라미터, ψ(θ)=log∫exp(θTT)hdν는 로그-분배함수(cumulant function)다.
이 정의에서 핵심은 한 가지다. x를 고정하고 θ의 함수로 보면, 로그밀도가 θ의 아핀 함수다.
logp(x∣θ)=θ의아핀항θTT(x)−θ의볼록항ψ(θ)+θ와무관logh(x)
이 구조가 말하는 바는 명확하다. 로그 공간에서 지수족은 T1(x),…,Td(x)를 기저로 하는 d차원 아핀 부분공간이다. Amari가 이 구조를 e-flat(“exponentially flat”)이라 부른 이유가 바로 여기에 있다.
베르누이 분포로 맛보기를 하면 이해가 빠르다. p(x∣p)=px(1−p)1−x의 로그를 전개하면 canonical 파라미터 θ=log1−pp (logit)가 자연스럽게 등장하고, cumulant function은 ψ(θ)=log(1+eθ)가 된다. Logistic 회귀의 sigmoid가 곧 ∇ψ(θ)=E[X]라는 사실은 이 구조의 직접적 귀결이다.
Cumulant Function이 모든 것을 담는다
지수족의 놀라운 성질은 cumulant function ψ(θ) 하나가 분포의 모든 모멘트 정보를 담고 있다는 점이다.
∇ψ(θ)=Eθ[T(X)],∇2ψ(θ)=Covθ[T(X)]=F(θ)
1차 미분은 충분통계량의 기댓값, 2차 미분은 공분산 — 그리고 그 공분산이 Fisher 정보 행렬과 정확히 일치한다. 이것이 단일 등식 F=∇2ψ다.
정리 1
· Fisher = Hessian of ψ
Regular minimal 지수족에서 ψ는 엄격 볼록(strictly convex)이며, Fisher 정보 행렬은
Fij(θ)=∂i∂jψ(θ)=Covθ[Ti,Tj]
를 만족한다. 특히 ψ의 엄격 볼록성은 F≻0을 보장한다.
▷ 증명
Score 함수 ∂ilogp=Ti−∂iψ=Ti−E[Ti]임을 확인하면,
Fij=E[(Ti−ETi)(Tj−ETj)]=Cov[Ti,Tj]=∂i∂jψ
엄격 볼록성은 minimal 조건(T의 아핀 독립성)에서 Hölder 부등식의 등호 조건을 이용해 증명한다.
∎
이 등식은 MLE의 전역 수렴도 설명한다. n개 관측의 로그우도
ℓ(θ)=θT∑T(xi)−nψ(θ)
를 최대화하면 ∇ψ(θ^)=n1∑T(xi), 즉 모델의 기대 충분통계량 = 관측 충분통계량이라는 모멘트 매칭 조건이 나온다. 볼록 최적화이므로 해가 유일하다. Energy-Based Model의 gradient
∇θlogpθ(x)=T(x)−∇ψ(θ)=T(x)−Epθ[T]
즉 “관측 통계 − 모델 통계”도 같은 등식의 귀결이다.
Legendre 변환과 두 좌표의 쌍대성
ψ가 엄격 볼록이므로 Legendre 변환이 잘 정의된다.
ψ∗(η)=θsup(θTη−ψ(θ))
∇ψ(θ)=η의 역사상이 ∇ψ∗(η)=θ이며, 두 함수는 Fenchel-Young 등식 ψ(θ)+ψ∗(η)=θTη로 엮인다.
이로부터 두 좌표계가 생겨난다. Canonical 파라미터θ는 로그우도의 아핀항 계수로 최적화에 유리하고, Expectation 파라미터η=Eθ[T(X)]는 관측 가능한 기댓값으로 추정에 유리하다. 두 좌표계의 Fisher 행렬은 서로 역행렬이다.
F∗(η)=∇2ψ∗(η)=F(θ)−1
✎ 트레이드오프: 어떤 좌표를 써야 하는가
θ 좌표에서 로그우도는 볼록 — MLE와 SGD에 최적. η 좌표에서 KL divergence의 기울기는 유클리드 구조를 가짐 — Variational Inference와 Mirror Descent에 최적. Natural Gradient F−1g는 θ에서의 연산이지만 η-공간의 유클리드 gradient와 수치적으로 동치다. 두 좌표가 모두 필요한 이유가 여기 있다.
Legendre 변환을 통해 KL divergence도 단일한 대수 표현을 얻는다.
KL(pθ1∥pθ2)=ψ(θ2)+ψ∗(η1)−θ2Tη1
한 분포는 θ, 다른 분포는 η로 표현되는 이 “혼합 좌표 표현”이 Pythagoras 정리의 정확한 출처다.
쌍대 아핀 연결과 e/m-Connection
같은 리만 계량 위에 여러 아핀 연결이 가능하다. 지수족에는 두 개의 자연스러운 flat 연결이 있다. e-connection∇(e)는 θ 좌표에서 크리스토펠 기호가 0이어서 θ-직선이 측지선이 되고, m-connection∇(m)은 η 좌표에서 크리스토펠 기호가 0이어서 η-직선이 측지선이 된다.
두 연결 모두 torsion-free이지만 metric-compatible이 아니다. 그러나 Fisher 계량에 대해 쌍대(dual) 관계를 만족한다.
Xg(Y,Z)=g(∇X(e)Y,Z)+g(Y,∇X(m)Z)
이 관계가 “쌍대평탄(dually flat)“의 심장이다. 두 연결의 평균
∇(0)=21(∇(e)+∇(m))
이 Fisher 계량의 Levi-Civita 연결과 일치한다는 사실도 이 쌍대성의 귀결이다.
Generalized Pythagoras와 쌍대평탄의 응용
쌍대평탄 구조가 낳는 가장 강력한 결과는 일반화 Pythagoras 정리다.
정리 2
· Generalized Pythagoras (Amari)
쌍대평탄 다양체에서 세 분포 P,Q,R이 P-Q를 m-측지선으로, Q-R을 e-측지선으로 연결하고 두 측지선이 Q에서 직교
(θR−θQ)T(ηP−ηQ)=0
를 만족하면, D(P∥R)=D(P∥Q)+D(Q∥R)이 정확히 성립한다.
▷ 증명
Canonical divergence 정의와 Legendre 등식 ψ(θQ)+ψ∗(ηQ)=θQTηQ를 이용해 전개하면
D(P∥R)−D(P∥Q)−D(Q∥R)=−(θR−θQ)T(ηP−ηQ)
직교 조건에서 우변이 0이 되어 등호가 성립한다.
∎
이 정리는 AI 학습 알고리즘 전반에 걸쳐 구체적 귀결을 만든다. EM 알고리즘의 E-step은 m-projection, M-step은 e-projection이며 두 projection의 교대가 KL을 단조 감소시키는 이유가 Pythagoras다. Variational Inference에서 mean-field family가 e-flat 부분다양체를 이루고, ELBO 최대화가 그 위로의 e-projection으로 해석된다. Natural Gradient F−1g가 parameterization-invariant한 이유도 η 좌표에서 Fisher 행렬이 역행렬로 바뀌어 유클리드 gradient와 동치가 되는 쌍대성의 귀결이다.
정리
지수족의 본질은 로그밀도가 T(x)의 선형 결합이라는 것이다. 이 e-flat 구조가 MLE 볼록성과 유일성을 보장한다.