고전 통계 추론에는 하나의 반복되는 질문이 있다. “이 절차가 최선인가?” 신뢰구간은 왜 특정 pivot을 써야 하는가, 가설검정은 왜 우도비를 기준으로 삼는가, 그리고 그 답이 ML의 이진 분류·이상 탐지·A/B 테스트와 어떻게 연결되는가?
신뢰구간 — 모수가 아니라 절차가 랜덤이다
신뢰구간에 대한 가장 흔한 오해는 “참값 θ가 95% 확률로 구간 안에 있다”는 해석이다. 이것은 틀렸다. 참값은 고정되어 있고, 구간이 랜덤이다.
정확한 해석: 같은 절차를 반복하면 100번 중 95번은 만들어진 구간이 θ를 포함한다. 개별 구간에 대해서는 “포함하거나 포함하지 않거나” 둘 중 하나일 뿐이다.
형식적으로, (1−α)-신뢰구간 [L(X),U(X)]의 정의는 다음과 같다.
Pθ(L(X)≤θ≤U(X))≥1−α,∀θ∈Θ
이 구간을 체계적으로 만드는 도구가 pivot이다. Q(X,θ)의 분포가 θ와 무관할 때 이를 pivot이라 부른다. 이유는 단순하다. 분포를 알고 있으므로 분위수를 구할 수 있고, P(q1≤Q≤q2)=1−α를 θ에 대해 풀면 신뢰구간이 나온다.
표준 예제들은 이 아이디어의 변주다. σ 기지면 Z=n(Xˉ−μ)/σ∼N(0,1), σ 미지면 T=n(Xˉ−μ)/S∼tn−1, 분산 추정에는 (n−1)S2/σ2∼χn−12. 지수분포 Exp(λ)에서는 2λ∑Xi∼χ2n2이 pivot이 된다.
⚠ 이항 비율의 함정
Wald CI p^±zα/2p^(1−p^)/n은 p^≈0이나 1 근방에서 실제 커버리지가 명목 수준 아래로 급락한다. Wilson score CI가 실용적 표준이다.
Pivot의 구조 — 위치-척도 패밀리와 equivariance
Pivot이 자연스럽게 등장하는 조건이 있다. 위치-척도 패밀리f(x;μ,σ)=σ1f0(σx−μ)에서 location-equivariant 추정량 μ^와 scale-equivariant 추정량 σ^를 쓰면
σ^μ^−μ,σσ^,σ^Xi−μ^
모두 (μ,σ)와 무관한 분포를 가진다. 정규분포의 T 통계량이 tn−1이 되는 것은 이 구조의 귀결이다.
1-parameter 지수족 p(x;θ)=h(x)exp(η(θ)T(x)−A(η))에서 η가 단조이면 T에 대한 MLR이 성립하고, 점근적으로 nI^1/2(θ^−θ)→N(0,I)가 pivot 역할을 한다. Normalizing flow의 핵심 아이디어 — 데이터 x를 단순한 z∼N(0,I)로 변환하는 z=f−1(x) — 는 이 pivot 발상의 학습 버전이다.
가설검정의 프레임워크 — Type I과 Type II는 왜 비대칭인가
가설검정은 의사결정 이론의 특수한 사례다. H0를 잘못 기각하는 Type I 오류와, H0를 잘못 유지하는 Type II 오류 사이의 trade-off를 관리한다.
법정 비유가 유용하다. H0는 “무죄 추정”이다. Type I은 무고한 사람을 유죄로 만드는 오류, Type II는 범인을 놓치는 오류다. 사회는 전자를 더 심각하게 본다. 그래서 유의수준 α를 작게 설정하고, Type II 오류(β)는 어느 정도 허용한다.
p-value의 정확한 정의는 “관측된 검정통계량보다 같거나 더 극단적인 값이 H0 하에서 관측될 확률”이다. H0가 참일 때 p-value는 U(0,1)을 따른다. 이로부터 검정과 신뢰구간의 쌍대성이 나온다.
명제 1
· 검정-CI 쌍대성
(1−α)-신뢰구간 C(X)와 크기 α 검정은 쌍대적이다. θ0∈C(X)인 것과 H0:θ=θ0가 기각되지 않는 것은 동치다.
검정력(power) =1−Type II는 α, 효과 크기, 표본 크기 n, 분산의 함수다. Z-test 단측 검정의 필요 표본 크기 공식은 다음과 같다.
n=Δ2(zα+zβ)2σ2
효과 크기 d=0.3, α=0.05, power 0.8을 목표로 하면 group당 약 87명이 필요하다. 이 네 요소 중 세 개가 고정되면 나머지 하나가 결정된다 — 표본을 줄이면 검정력이 떨어지고, 검정력을 높이려면 표본이 늘거나 α가 올라가야 한다.
Neyman-Pearson 보조정리 — 우도비가 왜 최적인가
단순 가설 대 단순 가설 검정에서 “크기 α를 지키면서 검정력을 최대화하는” 검정이 무엇인지 물으면, 답은 우도비 검정이다.
이 증명의 핵심은 “우도비가 높은 x부터 기각역에 채운다”는 직관과 정확히 일치한다. ROC 곡선의 각 점은 서로 다른 임계값 k에서의 NP 검정이며, NP 검정이 ROC의 upper boundary를 그린다.
Bayes 분류기와의 연결도 직접적이다. 사전확률 π0,π1이 있을 때 Bayes 최적 분류기는 L(x;θ1)/L(x;θ0)>π0/π1을 기준으로 결정한다 — k=π0/π1로 놓은 NP 검정이다.
UMP와 MLR — 최적성이 성립하는 조건
복합 대립 가설 Θ1의 모든 점에서 동시에 MP인 검정을 UMP(Uniformly Most Powerful)라 한다. 이것이 존재하는 조건이 **Monotone Likelihood Ratio(MLR)**다.
θ1>θ0일 때마다 L(x;θ1)/L(x;θ0)가 통계량 T(x)의 증가함수이면 MLR이 성립한다. Karlin-Rubin 정리는 MLR 모형에서 단측 검정 H0:θ≤θ0 vs H1:θ>θ0의 UMP가 T(x)>c 형태임을 보장한다.
1-parameter 지수족 p(x;θ)=h(x)exp(η(θ)T(x)−A(η))는 η가 단조이면 자동으로 MLR을 만족한다. 정규분포의 Xˉ, 지수분포의 ∑Xi, Poisson의 ∑Xi 모두 여기 해당한다.
✎ 트레이드오프: UMP의 한계
양측 검정 H1:θ=θ0에서는 UMP가 거의 존재하지 않는다. θ1>θ0과 θ1<θ0에서 NP의 기각역이 반대 방향이므로 하나로 일치시킬 수 없다. 이 경우 UMPU(unbiased 제약 추가)나 LRT(5장)를 사용한다. 다변량 정규에서 Hotelling의 T2는 불변성(invariance) 제약 하에서 UMP invariant가 된다.
정리
신뢰구간은 “모수의 확률”이 아니라 “절차의 커버리지”로 해석해야 한다. Pivot은 모수를 소거하고 남은 순수한 랜덤성이며, 위치-척도 패밀리에서 자연스럽게 등장한다.