확률분포 공간에서 “두 분포 사이의 거리”를 말할 때, 우리는 암묵적으로 어떤 기하를 가정하고 있다. 정규분포 N(0,1)과 N(0,2)의 거리가 N(0,0.1)과 N(0,0.2)의 거리와 같을까? 유클리드 거리는 둘 다 1과 0.1로 전혀 다르다고 말하지만, Fisher-Rao 계량은 둘 다 0.98로 같다고 말한다. 왜 분포 공간은 평탄하지 않은가?
분포를 점으로 보기 위해
확률분포 pθ를 매개변수 공간 Θ 위의 점으로 보는 것은 직관적으로 자연스럽다. 하지만 이 “점들이 이루는 공간”이 어떤 구조를 갖는지는 자명하지 않다.
Softmax 출력 {p∈RK:pi≥0,∑pi=1}은 (K−1)-심플렉스다. 벡터공간이 아니므로 두 점의 단순 평균이 반드시 심플렉스 안에 머무르지 않는다. 공분산 행렬 공간 Sym+d는 SPD 다양체다. (Σ1+Σ2)/2를 단순 평균하면 양정치성이 깨질 수 있다. 정규분포족 {N(μ,σ2):σ>0}은 상반평면 {(μ,σ):σ>0} 위의 점들이고, Fisher 계량은 이 공간에 쌍곡기하를 준다.
이 공간들을 다루는 언어가 **매끈한 다양체(smooth manifold)**다. 다양체는 전역 좌표계 하나를 포기하는 대신, 국소 좌표계(차트)의 모음으로 공간을 덮는다. 차트가 겹치는 영역에서 좌표 변환(전이함수)이 C∞이면, 미분이 좌표계 선택에 무관해진다.
✎ 통계다양체의 조건
분포족 P={pθ:θ∈Θ}가 통계다양체가 되려면, Θ가 Rn의 열린집합이고, θ↦pθ가 단사이며, pθ(x)가 θ에 대해 C∞이어야 한다. 이때 Θ가 전역 차트가 되어 P는 n차원 매끈한 다양체 구조를 갖는다.
단, σ→0에서 Fisher 정보가 발산하거나 심플렉스의 경계(pi=0)에서 Fisher가 특이해지는 지점들은 다양체에서 제외해야 한다. “분포를 점으로 본다”는 것이 엄밀하려면, 이 가장자리 처리가 선행되어야 한다.
접공간과 스코어 함수
다양체 위의 각 점 pθ에는 접공간TpθP가 붙어 있다. 이것은 “그 점에서 뻗어나가는 방향들의 집합”이다. 접벡터를 정의하는 방법은 세 가지가 있고, 셋 다 동치다.
TpM={[γ]}곡선속도={derivations at p}=Rn/coord-equiv≅Rn
통계다양체에서 이 접공간은 구체적인 해석을 갖는다. 좌표기저 ∂/∂θi는 스코어 함수
si(x;θ)=∂θi∂logpθ(x)
에 대응한다. 접벡터 X=Xi∂i는 L2 함수 Xisi가 된다. 스코어가 Eθ[si]=0을 만족한다는 사실은 미분-적분 교환으로 즉시 따라온다.
명제 1
· 스코어 함수들은 접공간의 표현
통계다양체 P의 점 pθ에서, 사상 ∂/∂θi↦si(⋅;θ)는 단사 선형사상이며, 상은 {s∈L2(pθ):Eθ[s]=0}의 유한차원 부분공간이다.
▷ 증명
Eθ[si]=∫pθ∂θi∂logpθdx=∂θi∂∫pθdx=0. 단사성은 si들의 L2-선형독립에서 나온다 — 이것은 Fisher 정보 행렬이 양정치인 조건과 동치다.
∎
이 접공간 표현이 다음 장의 Fisher 계량으로 직접 이어진다. gij=E[sisj]는 정확히 L2-내적의 제한이다.
점마다 다른 자 — 리만 계량
리만 계량은 각 점의 접공간에 내적을 부여하는 구조다. 유클리드에서는 “모든 점에서 같은 자”를 쓰지만, 분포 공간에서는 점마다 자의 길이가 달라야 한다.
통계다양체의 자연스러운 계량은 Fisher-Rao 계량이다.
gij(θ):=Eθ[∂θi∂logpθ⋅∂θj∂logpθ]
정규분포 N(μ,σ2)의 경우 이 행렬은 diag(1/σ2,2/σ2)이다. 선소는
ds2=σ2dμ2+σ22dσ2
σ~=σ2로 치환하면 이것이 상반평면 쌍곡계량의 2배임을 확인할 수 있다. 정규분포족은 곡률이 −1/2인 쌍곡공간이다.
이 계량이 말하는 것은 명확하다. σ=0.1에서 평균을 0.01 이동하는 것과 σ=10에서 평균을 10 이동하는 것이 같은 정보량을 담는다. 유클리드 거리는 둘을 0.01 대 10으로 천 배 다르게 보지만, Fisher-Rao는 같다고 본다. 어느 쪽이 통계적으로 자연스러운가는 자명하다.
두 점을 잇는 최단 경로인 측지선은 Euler-Lagrange 방정식의 해로 주어진다.
γ¨k+Γijk(γ)γ˙iγ˙j=0
여기서 Γijk=21gkℓ(∂igjℓ+∂jgiℓ−∂ℓgij)는 Christoffel 기호다. 정규분포 다양체에서 수치 풀이하면 측지선들이 유클리드 직선이 아닌 쌍곡면의 곡선임을 볼 수 있다.
연결 — 서로 다른 점의 접공간을 이어주기
리만 계량을 주면 자동으로 따라오는 것이 있다. Levi-Civita 연결∇는 벡터장의 공변미분을 정의한다.
이 추가로 나온다. 그럼에도 ∇XY가 텐서가 되는 것은 ∂iYk의 변환에서 생기는 2차 항과 Christoffel의 2차 항이 정확히 상쇄되기 때문이다.
정리 2
· Levi-Civita 연결의 유일성 (Koszul 공식)
리만 다양체 (M,g) 위에 계량 호환(∇g=0)이고 torsion-free(Γijk=Γjik)인 연결이 유일하게 존재한다.
▷ 증명
계량 호환 조건을 세 좌표 순열로 쓴 뒤 (1)+(2)−(3)을 취하고 torsion-free를 적용하면
2gℓkΓijℓ=∂igjk+∂jgik−∂kgij
가 된다. 양변에 gkm을 곱하면 Γijm가 유일하게 결정된다.
∎
✎ 트레이드오프 — Levi-Civita vs 정보기하의 연결
Levi-Civita 연결은 리만기하의 “자연스러운 선택”이다. 계량 호환 + torsion-free가 유일성을 강제한다. 하지만 정보기하에서는 이 유일성을 포기하고 두 연결의 쌍을 도입한다. e-연결 ∇(e)은 exponential 좌표에서, m-연결 ∇(m)은 mixture 좌표에서 각각 Γ=0이 되도록 정의된다. 두 연결은 계량을 분담해
Xg(Y,Z)=g(∇X(e)Y,Z)+g(Y,∇X(m)Z)
를 만족한다. Levi-Civita는 α=0, 즉 두 연결의 평균이다. 이 쌍대 구조가 exponential family에서 KL divergence의 Pythagorean 정리를 가능하게 한다.
정리
확률분포족은 매개변수 공간을 전역 차트로 갖는 매끈한 다양체다. 심플렉스 경계, σ→0 등 특이점은 제외해야 한다.