다변수 정규분포(MVN)는 ML에서 단순히 “자주 쓰이는” 분포가 아니다. VAE의 latent prior, GP 회귀의 posterior, Kalman filter의 state update, PCA의 기하학 — 이 모두가 MVN의 서로 다른 얼굴이다. 왜 이 하나의 분포가 이토록 많은 곳에서 나타나는가?
MVN의 구조: Mahalanobis 거리와 타원체
1차원 정규분포의 지수부 (x−μ)2/σ2를 다차원으로 일반화하면 자연스럽게 Mahalanobis 거리가 등장한다.
f(x)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)⊤Σ−1(x−μ))
지수부의 이차형식 dM2=(x−μ)⊤Σ−1(x−μ)는 “공분산 구조를 고려한 거리”다. Σ=I이면 유클리드 거리로 환원되고, 일반 Σ에서는 분산이 큰 방향에서 더 관대하게 거리를 측정한다.
등확률 곡면 {f(x)=c}는 dM2=const와 동치이므로 타원체다. 타원체의 주축은 Σ의 고유벡터이고, 각 주축의 반지름은 λi다.
정리 1
· Mahalanobis 거리의 분포
X∼N(μ,Σ)이면
dM2(X,μ)=(X−μ)⊤Σ−1(X−μ)∼χd2
▷ 증명
Z=Σ−1/2(X−μ)∼N(0,I)이면 dM2=Z⊤Z=∑i=1dZi2. 독립 표준정규의 제곱합이므로 χd2를 따른다. □
∎
이 결과는 이상치 탐지에 직결된다. 95% 신뢰 타원체는 {dM2≤χd,0.952}로 정의되며, 이 경계 밖의 점은 이상치로 간주할 수 있다.
Affine 닫힘성: ML tractability의 근거
MVN이 ML 전반에서 쓰이는 핵심 이유는 Affine 변환에 닫혀 있다는 성질이다.
X∼N(μ,Σ)⟹Y=AX+b∼N(Aμ+b,AΣA⊤)
증명은 특성함수를 통해 가장 간결하게 나온다. φY(t)=eit⊤b⋅φX(A⊤t)에 MVN의 특성함수를 대입하면 N(Aμ+b,AΣA⊤)의 특성함수가 나온다.
이 성질의 직접적인 응용이 VAE의 reparameterization trick이다.
# z = μ_φ(x) + L_φ(x) · ε, ε ~ N(0, I)# affine map of standard normal → z ~ N(μ_φ, L_φ L_φᵀ)eps = torch.randn_like(std)z = mu + L @ eps # gradient가 μ, L 양쪽으로 흐른다
ϵ이 ϕ와 무관하므로 ∇ϕz가 깔끔하게 정의된다. Cholesky samplingX=μ+LZ도 같은 원리다 — 표준정규를 한 번 생성하고 Affine으로 밀면 된다.
조건부 분포와 Schur 보수
MVN의 또 다른 핵심 성질은 조건부 분포도 MVN이라는 것이다.
X=(X1X2)∼N((μ1μ2),(Σ11Σ21Σ12Σ22))
이면
X1∣X2=x2∼N(μ1∣2,Σ1∣2)
여기서
μ1∣2=μ1+Σ12Σ22−1(x2−μ2)
Σ1∣2=Σ11−Σ12Σ22−1Σ21
Σ1∣2가 바로 Schur 보수다. 직관적으로, 조건부 분산은 사전 분산 Σ11에서 “X2가 X1에 주는 정보”를 뺀 것이다. Σ12Σ22−1Σ21은 PSD이므로 관측은 항상 불확실성을 줄인다.
✎ 트레이드오프
조건부 평균 μ1∣2는 x2의 affine 함수다. MVN에서는 이것이 동시에 MMSE 추정량이 된다. 비-Gaussian 분포에서 MMSE는 비선형일 수 있고, closed form이 없다. Gaussian 가정을 쓰면 tractability를 얻고, 비선형 dependence 표현력을 잃는다.
이 공식이 Gaussian Process 회귀 예측식의 정체다. GP는 함수 공간 위의 MVN이고, 새 점 x∗에서의 posterior가 정확히 Schur 보수를 통해 나온다.