IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

통계 추론은 무엇을 가정하고 있는가

통계 모델의 집합론적 정의부터 식별가능성, 표집분포, CLT의 유한표본 오차, 그리고 t·F 통계량의 수학적 뿌리까지 — 추론이 의존하는 가정들을 추적한다.


scipy.stats.ttest_ind 한 줄로 A/B 테스트를 돌리고, statsmodels로 회귀 계수의 p-value를 읽는다. 그런데 이 숫자들이 의미를 갖기 위해 어떤 수학적 가정들이 먼저 성립해야 하는가? 그 가정이 깨지면 p-value는 무엇인가?

통계 모델이란 무엇인가

“모델을 세운다”는 말은 데이터 x1,,xnx_1, \ldots, x_n을 어떤 확률측도 P\mathbb{P}의 iid 표본으로 보겠다는 것만이 아니다. 그보다 한 단계 더 나아가, 그 P\mathbb{P}미리 정한 후보 분포들의 집합 안에 있다고 가정하는 것이다.

E=(X, F, {Pθ:θΘ})\mathcal{E} = \left( \mathcal{X},\ \mathcal{F},\ \{\mathbb{P}_\theta : \theta \in \Theta\} \right)

표본공간 (X,F)(\mathcal{X}, \mathcal{F}), 모수 공간 Θ\Theta, 확률측도들의 족. 이것이 통계 실험(statistical experiment)의 정의다. 모든 추정·검정·점근 이론은 이 삼중쌍을 전제로 의미를 가진다.

이 구조 안에서 두 세계가 갈라진다. M-closed 세계에서는 참 분포 P\mathbb{P}_*가 모델 안에 있다(P=Pθ0\mathbb{P}_* = \mathbb{P}_{\theta_0}θ0\theta_0가 존재). M-open 세계에서는 참 분포가 모델 밖에 있고, MLE는 KL 거리를 최소화하는 pseudo-true parameter θ=argminθKL(PPθ)\theta^* = \arg\min_\theta \mathrm{KL}(\mathbb{P}_* \| \mathbb{P}_\theta)로 수렴한다. 실무에서는 거의 항상 M-open이다.

식별가능성 — 추정이 가능한 조건

통계적 추론이란 관측된 분포로부터 θ\theta를 역추적하는 작업이다. 서로 다른 θ1θ2\theta_1 \neq \theta_2가 동일한 분포 Pθ1=Pθ2\mathbb{P}_{\theta_1} = \mathbb{P}_{\theta_2}를 만들면, 역추적 자체가 불가능하다.

θ1θ2    Pθ1Pθ2\theta_1 \neq \theta_2 \;\Longrightarrow\; \mathbb{P}_{\theta_1} \neq \mathbb{P}_{\theta_2}

이 조건이 **식별가능성(identifiability)**이다. 사상 θPθ\theta \mapsto \mathbb{P}_\theta가 단사함수여야 한다 — 역함수가 없으면 추정도 없다.

명제 1 · 이성분 가우시안 혼합의 식별 불가능성

θ=(w,μ1,σ12,μ2,σ22)\theta = (w, \mu_1, \sigma_1^2, \mu_2, \sigma_2^2)로 매개변수화된 혼합 모델에서, 라벨 스와핑 θ=(1w,μ2,σ22,μ1,σ12)\theta' = (1-w, \mu_2, \sigma_2^2, \mu_1, \sigma_1^2)θθ\theta \neq \theta'이지만 Pθ=Pθ\mathbb{P}_\theta = \mathbb{P}_{\theta'}를 만든다.

▷ 증명

혼합 밀도 wp1(x)+(1w)p2(x)w \cdot p_1(x) + (1-w) \cdot p_2(x)(1w)p2(x)+wp1(x)(1-w) \cdot p_2(x) + w \cdot p_1(x)는 완전히 동일한 함수다. \square

신경망에서도 같은 현상이 나타난다. LL-층 MLP에서 같은 층의 뉴런을 재순열하거나 ReLU의 양의 동차성에 의한 weight rescaling을 적용해도 함수 fθf_\theta는 불변이다. 결과적으로 loss landscape에 h!h!배의 대칭 극소들이 생긴다. SGD의 수렴 이론에서 “어느 모드로든 수렴”이라 해석하는 근거가 여기에 있다.

통계량은 확률변수다

통계량 T(X1,,Xn)T(X_1, \ldots, X_n)은 파라미터 θ\theta를 포함하지 않는 가측함수다. 그러나 이것이 단순히 “데이터에서 계산한 숫자”를 의미하지 않는다. TTPθn\mathbb{P}_\theta^{\otimes n}에서 유도된 확률변수이고, 그 분포(표집분포)가 θ\theta에 의존한다는 점이 추론의 출발점이다.

경험분포함수 F^n(t)=1ni=1n1(Xit)\hat{F}_n(t) = \frac{1}{n}\sum_{i=1}^n \mathbb{1}(X_i \leq t)는 이 관점의 극단적 사례다. 각 tt에서 nF^n(t)Bin(n,F(t))n\hat{F}_n(t) \sim \mathrm{Bin}(n, F(t))이고 EF^n(t)=F(t)\mathbb{E}\hat{F}_n(t) = F(t), Var(F^n(t))=F(t)(1F(t))/n\mathrm{Var}(\hat{F}_n(t)) = F(t)(1-F(t))/n이다. Glivenko-Cantelli 정리는 이로부터 suptF^n(t)F(t)a.s.0\sup_{t} |\hat{F}_n(t) - F(t)| \xrightarrow{\text{a.s.}} 0을 보장한다. Bootstrap의 consistency, KS 검정, conformal prediction 모두 여기에 뿌리를 둔다. Dvoretzky-Kiefer-Wolfowitz 부등식이 유한표본 속도를 준다:

P ⁣(suptF^n(t)F(t)>ε)2e2nε2\mathbb{P}\!\left(\sup_t |\hat{F}_n(t) - F(t)| > \varepsilon\right) \leq 2 e^{-2 n \varepsilon^2}

표본평균의 수렴과 그 한계

Var(Xˉn)=σ2/n\mathrm{Var}(\bar{X}_n) = \sigma^2/n은 통계적 추정 전체를 지배하는 1/n1/\sqrt{n} 수렴률의 수학적 표현이다. Mini-batch SGD의 그래디언트 분산 σg2/B\sigma_g^2/B, A/B 테스트의 표본크기 공식 nσ2/δ2n \propto \sigma^2/\delta^2, Monte Carlo 적분의 표준오차 — 모두 이 단순한 공식의 귀결이다.

정규 iid 표본에서는 XˉnN(μ,σ2/n)\bar{X}_n \sim \mathcal{N}(\mu, \sigma^2/n)이 유한표본 등식이다. 비정규에서는 CLT가 점근 정규성만 보장한다:

Zn:=n(Xˉnμ)σdN(0,1)Z_n := \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0, 1)

유한 nn에서의 오차 한계는 Berry-Esseen이 준다: suptP(Znt)Φ(t)Cρ/(σ3n)\sup_t |\mathbb{P}(Z_n \leq t) - \Phi(t)| \leq C\rho/(\sigma^3\sqrt{n}), C0.4748C \leq 0.4748 (Shevtsova 2011). “n30n \geq 30이면 CLT OK”는 rule of thumb이며, pp가 0에 가까운 베르누이나 치우친 분포에서는 n=1000n = 1000에서도 근사가 나쁠 수 있다.

Cauchy: CLT가 깨지는 경우

XiCauchy(0,1)X_i \sim \text{Cauchy}(0,1) iid이면 XˉnCauchy(0,1)\bar{X}_n \sim \text{Cauchy}(0,1) for all nn. 2차 적률이 없어 nn이 커져도 분산이 줄지 않는다. IQR이 줄지 않는 것을 시뮬레이션으로 확인할 수 있다.

정규성이 만드는 구조 — χ2\chi^2, t, F

정규 iid 가정에서 표본평균과 표본분산이 독립이라는 사실은 Rn\mathbb{R}^n의 직교 분해에서 직접 나온다. 사영행렬 P=1n11TP = \frac{1}{n}\mathbf{1}\mathbf{1}^T (rank 1)과 IPI - P (rank n1n-1)으로 분해하면:

  • YTPY=nYˉ2χ12Y^T P Y = n\bar{Y}^2 \sim \chi^2_1
  • YT(IP)Y=(n1)S2/σ2χn12Y^T(I-P)Y = (n-1)S^2/\sigma^2 \sim \chi^2_{n-1}
  • 두 이차형식은 독립 (Cochran 정리)

자유도 n1n-1이 나오는 이유는 대각선 방향 1\mathbf{1}로의 사영이 자유도 1을 소모하기 때문이다. 이 분해에서 t-통계량이 자연스럽게 유도된다:

T=XˉμS/n=ZV/(n1)tn1,ZVT = \frac{\bar X - \mu}{S/\sqrt n} = \frac{Z}{\sqrt{V/(n-1)}} \sim t_{n-1}, \qquad Z \perp V

σ\sigma를 모르고 SS로 추정하는 비용이 꼬리의 두꺼움으로 나타난다. n=5n = 5에서 95% 임계값은 2.776 — 정규의 1.960보다 41% 더 넓은 구간이 필요하다. nn \to \infty이면 tn1N(0,1)t_{n-1} \to \mathcal{N}(0,1)이다. F-통계량은 두 독립 χ2\chi^2의 비율이고, T2F1,n1T^2 \sim F_{1, n-1}이 성립한다 — t와 F는 같은 뿌리의 다른 표현이다.

트레이드오프

정규 가정을 받아들이면 유한표본에서 정확한 분포(t, F, χ2\chi^2)를 얻는다. 대신 비정규 데이터에서는 이 결과들이 깨진다. 비모수·점근 접근은 분포 가정 없이 작동하지만 유한표본 보장이 약해진다. M-closed를 가정하면 MLE 점근 정규성이 깨끗하게 나온다. M-open을 인정하면 pseudo-true θ\theta^*로 수렴하고 분산 추정에 샌드위치 공식이 필요하다.

정리

  • 통계 모델은 후보 분포들의 매개변수화된 집합이다. 추정·검정의 모든 결과는 이 집합이 공리적으로 정의되었을 때만 의미를 가진다.
  • 식별가능성은 θPθ\theta \mapsto \mathbb{P}_\theta의 단사성이다. 혼합 모델과 신경망은 구조적으로 식별 불가능하며, MLE는 유일해를 갖지 못한다.
  • 표집분포를 확률변수로 다루는 관점이 Bootstrap, KS 검정, conformal prediction의 공통 출발점이다.
  • Var(Xˉ)=σ2/n\mathrm{Var}(\bar{X}) = \sigma^2/n이라는 단순한 공식이 SGD 배치 크기 규칙에서 A/B 테스트 표본크기까지 지배한다. 단, 2차 적률이 없는 분포에서는 성립하지 않는다.
  • 사영행렬의 랭크가 자유도로 번역된다 — 이