IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

지수족은 왜 통계학의 중심에 있는가

충분통계량의 압축 원리부터 지수족의 로그분할함수, MLE 모멘트 매칭, Basu 정리까지 — 데이터를 파라미터로 연결하는 하나의 구조를 추적한다.


정규분포, 베르누이, 포아송, 감마 — 이 분포들은 서로 전혀 다른 것처럼 보이지만, 모두 같은 수식 구조에서 나온다. 그리고 로지스틱 회귀의 gradient가 “예측 확률 − 실제 레이블”이라는 아름다운 형태를 갖는 것도, MLE가 항상 수렴한다는 것도 우연이 아니다. 이 모든 것이 하나의 구조 — 지수족(exponential family) — 에서 나온다. 왜 이 구조가 그토록 많은 것을 설명하는가?

충분통계량 — 데이터 압축의 한계

통계 추론의 첫 번째 질문은 단순하다: 원본 데이터 중 무엇을 버려도 되는가?

X1,,XnBer(p)X_1, \ldots, X_n \sim \mathrm{Ber}(p)에서 pp를 추정하려면 Xi\sum X_i 하나로 충분하다. 주어진 Xi=k\sum X_i = k 조건에서 XX의 조건부 분포는 pp와 무관하게 (nk)\binom{n}{k}가지 배열 위의 균일분포다. 파라미터에 관한 모든 정보가 Xi\sum X_i에 담겨 있다는 뜻이다. 이것이 충분통계량(sufficient statistic) 의 핵심이다.

Pθ(XAT(X)=t)=K(At)(θ에 독립)\mathbb{P}_\theta(X \in A \mid T(X) = t) = K(A \mid t) \quad \text{(} \theta \text{에 독립)}

충분통계량을 판별하는 실용적 도구는 Fisher-Neyman 인수분해 정리다.

정리 1 · Fisher-Neyman 인수분해

TTθ\theta에 대해 충분통계량     \iff 음이 아닌 함수 gθg_\thetahh가 존재해

pθ(x)=gθ(T(x))h(x)p_\theta(x) = g_\theta(T(x)) \cdot h(x)

가 거의 모든 xx에서 성립한다. hhθ\theta에 의존하지 않는다.

▷ 증명

이산 버전의 역방향(\Leftarrow)만 보인다. pθ(x)=gθ(T(x))h(x)p_\theta(x) = g_\theta(T(x)) h(x) 가정 아래, T(x)=tT(x) = t인 집합을 AtA_t라 하면

Pθ(X=xT=t)=gθ(t)h(x)gθ(t)yAth(y)=h(x)yAth(y)\mathbb{P}_\theta(X = x \mid T = t) = \frac{g_\theta(t) h(x)}{g_\theta(t) \sum_{y \in A_t} h(y)} = \frac{h(x)}{\sum_{y \in A_t} h(y)}

θ\theta가 사라졌다. 따라서 TT는 충분이다. \square

이 정리로 주요 분포의 충분통계량을 바로 읽어낼 수 있다.

분포충분통계량
Ber(p)\mathrm{Ber}(p), Poi(λ)\mathrm{Poi}(\lambda), Exp(λ)\mathrm{Exp}(\lambda)Xi\sum X_i
N(μ,σ2)\mathcal{N}(\mu, \sigma^2)(Xi, Xi2)(\sum X_i,\ \sum X_i^2)
U(0,θ)U(0, \theta)maxXi\max X_i
Gamma(α,β)\mathrm{Gamma}(\alpha, \beta), 둘 다 미지(Xi, logXi)(\sum X_i,\ \sum \log X_i)

U(0,θ)U(0,\theta)의 경우 support가 θ\theta에 의존하지만 충분성은 이를 요구하지 않는다. 인수분해가 성립하면 충분하다.

최소충분통계량과 정보의 한계

충분통계량은 유일하지 않다. 표본 전체 (X1,,Xn)(X_1, \ldots, X_n)도 충분이다. 그렇다면 “가장 많이 압축한” 충분통계량은 무엇인가?

Lehmann-Scheffé 판정법은 이 질문에 직접 답한다. 우도비 p(x;θ)/p(y;θ)p(x;\theta)/p(y;\theta)θ\theta에 무관한 것과 T(x)=T(y)T(x) = T(y)가 동치이면 TT가 최소충분통계량이다. 직관적으로, 우도비가 θ\theta와 무관하다는 것은 두 데이터 포인트 xxyy가 파라미터 추론 관점에서 완전히 같은 정보를 담는다는 뜻이다. 이 동치관계로 표본공간을 분할하면 그것이 최소충분통계량의 역상 구조가 된다.

N(μ,σ2)\mathcal{N}(\mu, \sigma^2)에서 우도비를 계산하면 (xi,xi2)=(yi,yi2)(\sum x_i, \sum x_i^2) = (\sum y_i, \sum y_i^2)일 때만 θ\theta 무관이 되므로, (Xˉ,S2)(\bar X, S^2)이 최소충분이다. 파라미터가 하나인 N(θ,θ2)\mathcal{N}(\theta, \theta^2)에서는 오히려 최소충분이 2차원이다 — 이런 curved exponential family는 파라미터 개수보다 충분통계량 차원이 클 수 있다.

정보이론과의 연결

최소충분통계량은 AI에서 information bottleneck의 이론적 한계점이다. 표현 T(X)T(X)θ\theta에 대한 정보 I(T;θ)=I(X;θ)I(T;\theta) = I(X;\theta)를 보존하면서 크기를 최소화한 것이 바로 최소충분이다. 이미지 임베딩이 “태스크에 대한 근사 최소충분”을 찾는 과정으로 해석되는 이유다.

완비성과 Basu 정리

충분통계량이 있을 때 또 다른 질문이 생긴다: 기댓값이 모든 θ\theta에서 0이 되는 비자명한 함수가 존재하는가? 통계량 TT완비라는 것은, 임의의 가측 함수 gg에 대해 Eθ[g(T)]=0 θE_\theta[g(T)] = 0 \ \forall\theta이면 Pθ(g(T)=0)=1 θP_\theta(g(T) = 0) = 1 \ \forall\theta가 성립함이다. Regular 지수족에서 자연매개변수 공간이 Rk\mathbb{R}^k의 개집합을 포함하면 자연충분통계량은 완비다 — 증명의 핵심은 Eθ[g(T)]=0E_\theta[g(T)] = 0이 Laplace 변환의 소멸을 의미하고 유일성 정리에 의해 g=0g = 0 a.s.가 따라온다는 것이다.

완비성의 가장 강력한 귀결은 Basu 정리다.

정리 2 · Basu

TT가 완비충분통계량이고 AA가 보조통계량(분포가 θ\theta와 무관)이면, TAT \perp A이다.

▷ 증명

AA가 보조이므로 P(AB)=pBP(A \in B) = p_Bθ\theta와 무관한 상수. TT의 충분성에 의해 hB(t)P(ABT=t)h_B(t) \equiv P(A \in B \mid T = t)θ\theta와 무관하다. g(t)=hB(t)pBg(t) = h_B(t) - p_B로 정의하면

Eθ[g(T)]=Pθ(AB)pB=0θE_\theta[g(T)] = P_\theta(A \in B) - p_B = 0 \quad \forall\theta

완비성에 의해 g(T)=0g(T) = 0 a.s., 즉 P(ABT)=P(AB)P(A \in B \mid T) = P(A \in B). \square

N(μ,σ2)\mathcal{N}(\mu, \sigma^2)에서 Xˉ\bar Xμ\mu에 대한 완비충분통계량이고 S2S^2μ\mu에 보조이므로 XˉS2\bar X \perp S^2 — Cochran 정리를 분포 계산 없이 얻는다.

지수족 — 로그분할함수 하나에서 모든 것이

이제 이 구조들이 하나로 모인다. 지수족은 다음 형태를 갖는 분포족이다.

p(x;η)=h(x)exp ⁣{ηTT(x)A(η)}p(x;\eta) = h(x) \exp\!\left\{\eta^T T(x) - A(\eta)\right\}

여기서 η\eta는 자연매개변수, T(x)T(x)는 충분통계량, A(η)=logh(x)eηTT(x)dxA(\eta) = \log \int h(x) e^{\eta^T T(x)} dx로그분할함수다. A(η)A(\eta) 하나에서 모든 통계적 구조가 나온다.

A(η)=Eη[T(X)]μ(η),2A(η)=Covη(T(X))=I(η)\nabla A(\eta) = E_\eta[T(X)] \equiv \mu(\eta), \qquad \nabla^2 A(\eta) = \mathrm{Cov}_\eta(T(X)) = I(\eta)

AA의 1차 미분이 기댓값 매개변수, 2차 미분이 Fisher 정보행렬이다. AA가 볼록함수이므로 ημ\eta \leftrightarrow \mu는 Legendre 변환으로 연결되는 쌍대 구조를 형성한다. KL divergence도 AA의 Bregman divergence로 표현된다.

KL(η1η2)=A(η2)A(η1)A(η1)T(η2η1)\mathrm{KL}(\eta_1 \| \eta_2) = A(\eta_2) - A(\eta_1) - \nabla A(\eta_1)^T(\eta_2 - \eta_1)

베르누이를 예로 들면 η=log(p/(1p))\eta = \log(p/(1-p)) (로짓), A(η)=log(1+eη)A(\eta) = \log(1+e^\eta) (softplus), A=σ(η)\nabla A = \sigma(\eta) (시그모이드). 로지스틱 회귀의 활성함수가 왜 시그모이드인지, 로짓이 왜 “자연스러운” 매개변수인지가 여기서 나온다. Softmax는 categorical 분포의 A\nabla A이고, cross-entropy loss는 지수족의 음의 로그우도다.

지수족에서 nn개의 iid 표본으로부터의 로그우도는

(η)=n[ηTTˉA(η)]+const,Tˉ=1ni=1nT(Xi)\ell(\eta) = n\bigl[\eta^T \bar T - A(\eta)\bigr] + \text{const}, \qquad \bar T = \frac{1}{n}\sum_{i=1}^n T(X_i)

Score 방정식 =0\nabla \ell = 0을 풀면 A(η^)=Tˉ\nabla A(\hat\eta) = \bar T이론 모멘트 = 표본 모멘트. MLE는 모멘트 매칭이다. AA의 볼록성에 의해 로그우도는 오목하므로, Tˉ\bar TT(X)T(\mathcal{X})의 convex hull 내부에 있는 한 MLE는 유일하게 존재한다.

트레이드오프

지수족의 강점은 구조의 단순함에서 나오지만, 그 단순함이 곧 한계다. Regular 지수족이 아닌 Cauchy, 혼합분포는 차원이 축소된 충분통계량을 갖지 않아 순서통계량 전체가 필요하다. Curved exponential family는 최소충분하지만 완비가 아니므로 UMVUE가 유일하지 않을 수 있다. 실제 데이터가 지정된 지수족에서 벗어나면 MLE는 KL 투영으로 수렴하는 근사 추정이 된다.

정리

  • 충분통계량 TT는 Fisher-Neyman 인수분해 pθ(x)=gθ(T(x))h(x)p_\theta(x) = g_\theta(T(x)) h(x)로 판별하며, 조건부 분포 XTX \mid Tθ\theta에 독립인 통계량이다.
  • 최소충분통계량은 우도비 p(x;θ)/p(y;θ)p(x;\theta)/p(y;\theta)θ\theta 무관인 것과 T(x)=T(y)T(x) = T(y)가 동치인 가장 거친 분할이다.
  • 완비충분통계량과 보조통