scipy.stats.ttest_ind 한 줄로 A/B 테스트를 돌리고, statsmodels로 회귀 계수의 p-value를 읽는다. 그런데 이 숫자들이 의미를 갖기 위해 어떤 수학적 가정들이 먼저 성립해야 하는가? 그 가정이 깨지면 p-value는 무엇인가?
통계 모델이란 무엇인가
“모델을 세운다”는 말은 데이터 x1,…,xn을 어떤 확률측도 P의 iid 표본으로 보겠다는 것만이 아니다. 그보다 한 단계 더 나아가, 그 P가 미리 정한 후보 분포들의 집합 안에 있다고 가정하는 것이다.
E=(X,F,{Pθ:θ∈Θ})
표본공간 (X,F), 모수 공간 Θ, 확률측도들의 족. 이것이 통계 실험(statistical experiment)의 정의다. 모든 추정·검정·점근 이론은 이 삼중쌍을 전제로 의미를 가진다.
이 구조 안에서 두 세계가 갈라진다. M-closed 세계에서는 참 분포 P∗가 모델 안에 있다(P∗=Pθ0인 θ0가 존재). M-open 세계에서는 참 분포가 모델 밖에 있고, MLE는 KL 거리를 최소화하는 pseudo-true parameter θ∗=argminθKL(P∗∥Pθ)로 수렴한다. 실무에서는 거의 항상 M-open이다.
식별가능성 — 추정이 가능한 조건
통계적 추론이란 관측된 분포로부터 θ를 역추적하는 작업이다. 서로 다른 θ1=θ2가 동일한 분포 Pθ1=Pθ2를 만들면, 역추적 자체가 불가능하다.
θ1=θ2⟹Pθ1=Pθ2
이 조건이 **식별가능성(identifiability)**이다. 사상 θ↦Pθ가 단사함수여야 한다 — 역함수가 없으면 추정도 없다.
명제 1
· 이성분 가우시안 혼합의 식별 불가능성
θ=(w,μ1,σ12,μ2,σ22)로 매개변수화된 혼합 모델에서, 라벨 스와핑 θ′=(1−w,μ2,σ22,μ1,σ12)은 θ=θ′이지만 Pθ=Pθ′를 만든다.
▷ 증명
혼합 밀도 w⋅p1(x)+(1−w)⋅p2(x)와 (1−w)⋅p2(x)+w⋅p1(x)는 완전히 동일한 함수다. □
∎
신경망에서도 같은 현상이 나타난다. L-층 MLP에서 같은 층의 뉴런을 재순열하거나 ReLU의 양의 동차성에 의한 weight rescaling을 적용해도 함수 fθ는 불변이다. 결과적으로 loss landscape에 h!배의 대칭 극소들이 생긴다. SGD의 수렴 이론에서 “어느 모드로든 수렴”이라 해석하는 근거가 여기에 있다.
통계량은 확률변수다
통계량 T(X1,…,Xn)은 파라미터 θ를 포함하지 않는 가측함수다. 그러나 이것이 단순히 “데이터에서 계산한 숫자”를 의미하지 않는다. T는 Pθ⊗n에서 유도된 확률변수이고, 그 분포(표집분포)가 θ에 의존한다는 점이 추론의 출발점이다.
경험분포함수 F^n(t)=n1∑i=1n1(Xi≤t)는 이 관점의 극단적 사례다. 각 t에서 nF^n(t)∼Bin(n,F(t))이고 EF^n(t)=F(t), Var(F^n(t))=F(t)(1−F(t))/n이다. Glivenko-Cantelli 정리는 이로부터 supt∣F^n(t)−F(t)∣a.s.0을 보장한다. Bootstrap의 consistency, KS 검정, conformal prediction 모두 여기에 뿌리를 둔다. Dvoretzky-Kiefer-Wolfowitz 부등식이 유한표본 속도를 준다:
P(supt∣F^n(t)−F(t)∣>ε)≤2e−2nε2
표본평균의 수렴과 그 한계
Var(Xˉn)=σ2/n은 통계적 추정 전체를 지배하는 1/n 수렴률의 수학적 표현이다. Mini-batch SGD의 그래디언트 분산 σg2/B, A/B 테스트의 표본크기 공식 n∝σ2/δ2, Monte Carlo 적분의 표준오차 — 모두 이 단순한 공식의 귀결이다.
유한 n에서의 오차 한계는 Berry-Esseen이 준다: supt∣P(Zn≤t)−Φ(t)∣≤Cρ/(σ3n), C≤0.4748 (Shevtsova 2011). “n≥30이면 CLT OK”는 rule of thumb이며, p가 0에 가까운 베르누이나 치우친 분포에서는 n=1000에서도 근사가 나쁠 수 있다.
⚠ Cauchy: CLT가 깨지는 경우
Xi∼Cauchy(0,1) iid이면 Xˉn∼Cauchy(0,1) for all n. 2차 적률이 없어 n이 커져도 분산이 줄지 않는다. IQR이 줄지 않는 것을 시뮬레이션으로 확인할 수 있다.
정규성이 만드는 구조 — χ2, t, F
정규 iid 가정에서 표본평균과 표본분산이 독립이라는 사실은 Rn의 직교 분해에서 직접 나온다. 사영행렬 P=n111T (rank 1)과 I−P (rank n−1)으로 분해하면:
YTPY=nYˉ2∼χ12
YT(I−P)Y=(n−1)S2/σ2∼χn−12
두 이차형식은 독립 (Cochran 정리)
자유도 n−1이 나오는 이유는 대각선 방향 1로의 사영이 자유도 1을 소모하기 때문이다. 이 분해에서 t-통계량이 자연스럽게 유도된다:
T=S/nXˉ−μ=V/(n−1)Z∼tn−1,Z⊥V
σ를 모르고 S로 추정하는 비용이 꼬리의 두꺼움으로 나타난다. n=5에서 95% 임계값은 2.776 — 정규의 1.960보다 41% 더 넓은 구간이 필요하다. n→∞이면 tn−1→N(0,1)이다. F-통계량은 두 독립 χ2의 비율이고, T2∼F1,n−1이 성립한다 — t와 F는 같은 뿌리의 다른 표현이다.
✎ 트레이드오프
정규 가정을 받아들이면 유한표본에서 정확한 분포(t, F, χ2)를 얻는다. 대신 비정규 데이터에서는 이 결과들이 깨진다. 비모수·점근 접근은 분포 가정 없이 작동하지만 유한표본 보장이 약해진다. M-closed를 가정하면 MLE 점근 정규성이 깨끗하게 나온다. M-open을 인정하면 pseudo-true θ∗로 수렴하고 분산 추정에 샌드위치 공식이 필요하다.
정리
통계 모델은 후보 분포들의 매개변수화된 집합이다. 추정·검정의 모든 결과는 이 집합이 공리적으로 정의되었을 때만 의미를 가진다.
식별가능성은 θ↦Pθ의 단사성이다. 혼합 모델과 신경망은 구조적으로 식별 불가능하며, MLE는 유일해를 갖지 못한다.
표집분포를 확률변수로 다루는 관점이 Bootstrap, KS 검정, conformal prediction의 공통 출발점이다.
Var(Xˉ)=σ2/n이라는 단순한 공식이 SGD 배치 크기 규칙에서 A/B 테스트 표본크기까지 지배한다. 단, 2차 적률이 없는 분포에서는 성립하지 않는다.