IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

가설검정의 최적성은 어디서 오는가

신뢰구간의 pivot 구조부터 Neyman-Pearson 보조정리와 UMP 검정까지, 고전 통계 추론의 최적성 이론이 어떻게 ML의 설계 결정을 정당화하는지 추적한다.


고전 통계 추론에는 하나의 반복되는 질문이 있다. “이 절차가 최선인가?” 신뢰구간은 왜 특정 pivot을 써야 하는가, 가설검정은 왜 우도비를 기준으로 삼는가, 그리고 그 답이 ML의 이진 분류·이상 탐지·A/B 테스트와 어떻게 연결되는가?

신뢰구간 — 모수가 아니라 절차가 랜덤이다

신뢰구간에 대한 가장 흔한 오해는 “참값 θ\theta가 95% 확률로 구간 안에 있다”는 해석이다. 이것은 틀렸다. 참값은 고정되어 있고, 구간이 랜덤이다.

정확한 해석: 같은 절차를 반복하면 100번 중 95번은 만들어진 구간이 θ\theta를 포함한다. 개별 구간에 대해서는 “포함하거나 포함하지 않거나” 둘 중 하나일 뿐이다.

형식적으로, (1α)(1-\alpha)-신뢰구간 [L(X),U(X)][L(X), U(X)]의 정의는 다음과 같다.

Pθ(L(X)θU(X))1α,θΘP_\theta(L(X) \le \theta \le U(X)) \ge 1 - \alpha, \quad \forall \theta \in \Theta

이 구간을 체계적으로 만드는 도구가 pivot이다. Q(X,θ)Q(X, \theta)의 분포가 θ\theta와 무관할 때 이를 pivot이라 부른다. 이유는 단순하다. 분포를 알고 있으므로 분위수를 구할 수 있고, P(q1Qq2)=1αP(q_1 \le Q \le q_2) = 1-\alphaθ\theta에 대해 풀면 신뢰구간이 나온다.

표준 예제들은 이 아이디어의 변주다. σ\sigma 기지면 Z=n(Xˉμ)/σN(0,1)Z = \sqrt{n}(\bar{X} - \mu)/\sigma \sim N(0,1), σ\sigma 미지면 T=n(Xˉμ)/Stn1T = \sqrt{n}(\bar{X} - \mu)/S \sim t_{n-1}, 분산 추정에는 (n1)S2/σ2χn12(n-1)S^2/\sigma^2 \sim \chi^2_{n-1}. 지수분포 Exp(λ)\text{Exp}(\lambda)에서는 2λXiχ2n22\lambda \sum X_i \sim \chi^2_{2n}이 pivot이 된다.

이항 비율의 함정

Wald CI p^±zα/2p^(1p^)/n\hat{p} \pm z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}p^0\hat{p} \approx 0이나 11 근방에서 실제 커버리지가 명목 수준 아래로 급락한다. Wilson score CI가 실용적 표준이다.

Pivot의 구조 — 위치-척도 패밀리와 equivariance

Pivot이 자연스럽게 등장하는 조건이 있다. 위치-척도 패밀리 f(x;μ,σ)=1σf0(xμσ)f(x;\mu,\sigma) = \frac{1}{\sigma}f_0\left(\frac{x-\mu}{\sigma}\right)에서 location-equivariant 추정량 μ^\hat\mu와 scale-equivariant 추정량 σ^\hat\sigma를 쓰면

μ^μσ^,σ^σ,Xiμ^σ^\frac{\hat\mu - \mu}{\hat\sigma}, \quad \frac{\hat\sigma}{\sigma}, \quad \frac{X_i - \hat\mu}{\hat\sigma}

모두 (μ,σ)(\mu, \sigma)와 무관한 분포를 가진다. 정규분포의 TT 통계량이 tn1t_{n-1}이 되는 것은 이 구조의 귀결이다.

1-parameter 지수족 p(x;θ)=h(x)exp(η(θ)T(x)A(η))p(x;\theta) = h(x)\exp(\eta(\theta)T(x) - A(\eta))에서 η\eta가 단조이면 TT에 대한 MLR이 성립하고, 점근적으로 nI^1/2(θ^θ)N(0,I)\sqrt{n}\hat{I}^{1/2}(\hat\theta - \theta) \to N(0,I)가 pivot 역할을 한다. Normalizing flow의 핵심 아이디어 — 데이터 xx를 단순한 zN(0,I)z \sim N(0,I)로 변환하는 z=f1(x)z = f^{-1}(x) — 는 이 pivot 발상의 학습 버전이다.

가설검정의 프레임워크 — Type I과 Type II는 왜 비대칭인가

가설검정은 의사결정 이론의 특수한 사례다. H0H_0를 잘못 기각하는 Type I 오류와, H0H_0를 잘못 유지하는 Type II 오류 사이의 trade-off를 관리한다.

법정 비유가 유용하다. H0H_0는 “무죄 추정”이다. Type I은 무고한 사람을 유죄로 만드는 오류, Type II는 범인을 놓치는 오류다. 사회는 전자를 더 심각하게 본다. 그래서 유의수준 α\alpha를 작게 설정하고, Type II 오류(β\beta)는 어느 정도 허용한다.

p-value의 정확한 정의는 “관측된 검정통계량보다 같거나 더 극단적인 값이 H0H_0 하에서 관측될 확률”이다. H0H_0가 참일 때 p-value는 U(0,1)U(0,1)을 따른다. 이로부터 검정과 신뢰구간의 쌍대성이 나온다.

명제 1 · 검정-CI 쌍대성

(1α)(1-\alpha)-신뢰구간 C(X)C(X)와 크기 α\alpha 검정은 쌍대적이다. θ0C(X)\theta_0 \in C(X)인 것과 H0:θ=θ0H_0: \theta = \theta_0가 기각되지 않는 것은 동치다.

검정력(power) =1Type II= 1 - \text{Type II}α\alpha, 효과 크기, 표본 크기 nn, 분산의 함수다. Z-test 단측 검정의 필요 표본 크기 공식은 다음과 같다.

n=(zα+zβ)2σ2Δ2n = \frac{(z_\alpha + z_\beta)^2 \sigma^2}{\Delta^2}

효과 크기 d=0.3d = 0.3, α=0.05\alpha = 0.05, power 0.8을 목표로 하면 group당 약 87명이 필요하다. 이 네 요소 중 세 개가 고정되면 나머지 하나가 결정된다 — 표본을 줄이면 검정력이 떨어지고, 검정력을 높이려면 표본이 늘거나 α\alpha가 올라가야 한다.

Neyman-Pearson 보조정리 — 우도비가 왜 최적인가

단순 가설 대 단순 가설 검정에서 “크기 α\alpha를 지키면서 검정력을 최대화하는” 검정이 무엇인지 물으면, 답은 우도비 검정이다.

정리 2 · Neyman-Pearson 보조정리

단순 H0:θ=θ0H_0: \theta = \theta_0 vs H1:θ=θ1H_1: \theta = \theta_1에서, 상수 k0k \ge 0γ[0,1]\gamma \in [0,1]에 대해

ϕ(x)={1L(x;θ1)>kL(x;θ0)γL(x;θ1)=kL(x;θ0)0L(x;θ1)<kL(x;θ0)\phi^*(x) = \begin{cases} 1 & L(x;\theta_1) > k\,L(x;\theta_0) \\ \gamma & L(x;\theta_1) = k\,L(x;\theta_0) \\ 0 & L(x;\theta_1) < k\,L(x;\theta_0) \end{cases}

가 크기 α\alpha를 가지면, ϕ\phi^*는 MP(most powerful) level-α\alpha 검정이다.

▷ 증명

임의의 level-α\alpha 검정 ϕ\phi에 대해, 다음 부등식이 x\forall x에서 성립한다.

(ϕ(x)ϕ(x))(L(x;θ1)kL(x;θ0))0(\phi^*(x) - \phi(x))(L(x;\theta_1) - k\,L(x;\theta_0)) \ge 0

양변을 적분하면

(Eθ1[ϕ]Eθ1[ϕ])k(Eθ0[ϕ]Eθ0[ϕ])0(E_{\theta_1}[\phi^*] - E_{\theta_1}[\phi]) - k(E_{\theta_0}[\phi^*] - E_{\theta_0}[\phi]) \ge 0

Eθ0[ϕ]=αEθ0[ϕ]E_{\theta_0}[\phi^*] = \alpha \ge E_{\theta_0}[\phi]이고 k0k \ge 0이므로, βϕ(θ1)βϕ(θ1)\beta_{\phi^*}(\theta_1) \ge \beta_\phi(\theta_1). ∎

이 증명의 핵심은 “우도비가 높은 xx부터 기각역에 채운다”는 직관과 정확히 일치한다. ROC 곡선의 각 점은 서로 다른 임계값 kk에서의 NP 검정이며, NP 검정이 ROC의 upper boundary를 그린다.

Bayes 분류기와의 연결도 직접적이다. 사전확률 π0,π1\pi_0, \pi_1이 있을 때 Bayes 최적 분류기는 L(x;θ1)/L(x;θ0)>π0/π1L(x;\theta_1)/L(x;\theta_0) > \pi_0/\pi_1을 기준으로 결정한다 — k=π0/π1k = \pi_0/\pi_1로 놓은 NP 검정이다.

UMP와 MLR — 최적성이 성립하는 조건

복합 대립 가설 Θ1\Theta_1모든 점에서 동시에 MP인 검정을 UMP(Uniformly Most Powerful)라 한다. 이것이 존재하는 조건이 **Monotone Likelihood Ratio(MLR)**다.

θ1>θ0\theta_1 > \theta_0일 때마다 L(x;θ1)/L(x;θ0)L(x;\theta_1)/L(x;\theta_0)가 통계량 T(x)T(x)의 증가함수이면 MLR이 성립한다. Karlin-Rubin 정리는 MLR 모형에서 단측 검정 H0:θθ0H_0: \theta \le \theta_0 vs H1:θ>θ0H_1: \theta > \theta_0의 UMP가 T(x)>cT(x) > c 형태임을 보장한다.

1-parameter 지수족 p(x;θ)=h(x)exp(η(θ)T(x)A(η))p(x;\theta) = h(x)\exp(\eta(\theta)T(x) - A(\eta))η\eta가 단조이면 자동으로 MLR을 만족한다. 정규분포의 Xˉ\bar{X}, 지수분포의 Xi\sum X_i, Poisson의 Xi\sum X_i 모두 여기 해당한다.

트레이드오프: UMP의 한계

양측 검정 H1:θθ0H_1: \theta \ne \theta_0에서는 UMP가 거의 존재하지 않는다. θ1>θ0\theta_1 > \theta_0θ1<θ0\theta_1 < \theta_0에서 NP의 기각역이 반대 방향이므로 하나로 일치시킬 수 없다. 이 경우 UMPU(unbiased 제약 추가)나 LRT(5장)를 사용한다. 다변량 정규에서 Hotelling의 T2T^2는 불변성(invariance) 제약 하에서 UMP invariant가 된다.

정리

  • 신뢰구간은 “모수의 확률”이 아니라 “절차의 커버리지”로 해석해야 한다. Pivot은 모수를 소거하고 남은 순수한 랜덤성이며, 위치-척도 패밀리에서 자연스럽게 등장한다.
  • 가설검정은 Type I 오류를 $\alpha