IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

불편성보다 MSE — 추정 이론의 통합 원리

편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.


추정 이론은 표면적으로 편향, 분산, Cramér-Rao 하한, UMVUE, MLE, MAP라는 이질적인 개념들의 나열처럼 보인다. 그러나 이 모든 것은 하나의 물음에서 파생된다 — “좋은 추정량”을 어떻게 정의할 것인가? 그 답을 MSE = Bias² + Variance라는 분해로 시작해 따라가면, 추정 이론 전체가 하나의 일관된 구조로 읽힌다.

출발: MSE 분해와 편향-분산 트레이드오프

좋은 추정량의 첫 번째 후보는 불편 추정량이다. Eθ[θ^]=θE_\theta[\hat\theta] = \theta이면, 평균적으로 참값을 맞힌다. 그러나 불편성만으로는 충분하지 않다.

명제 1 · MSE 분해

MSEθ(θ^)=Varθ(θ^)+Biasθ(θ^)2\text{MSE}_\theta(\hat\theta) = \text{Var}_\theta(\hat\theta) + \text{Bias}_\theta(\hat\theta)^2

▷ 증명

θ^θ=(θ^Eθ^)+(Eθ^θ)\hat\theta - \theta = (\hat\theta - E\hat\theta) + (E\hat\theta - \theta)로 분해하고 제곱 후 기댓값을 취한다. 교차항의 기댓값은 0이므로 MSE=Var+Bias2\text{MSE} = \text{Var} + \text{Bias}^2. ∎

이 분해는 정규분포 분산 추정에서 즉각 역설을 낳는다. MLE σ^2=1n(XiXˉ)2\hat\sigma^2 = \frac{1}{n}\sum(X_i-\bar X)^2는 편향이 있지만(E[σ^2]=n1nσ2E[\hat\sigma^2] = \frac{n-1}{n}\sigma^2), 불편 추정량 S2=1n1(XiXˉ)2S^2 = \frac{1}{n-1}\sum(X_i-\bar X)^2보다 MSE가 작다. 심지어 1n+1(XiXˉ)2\frac{1}{n+1}\sum(X_i-\bar X)^2가 MSE를 최소화한다. 불편성이 항상 좋은 기준은 아니다.

머신러닝에서 이 구조는 더 노골적으로 나타난다. 복잡한 모형은 저편향·고분산, 단순한 모형은 고편향·저분산이다. Regularization은 의도적으로 편향을 증가시켜 분산을 줄이고 MSE를 낮춘다.

정보의 한계: Cramér-Rao 하한

MSE를 낮추려면 분산을 줄여야 한다. 그렇다면 분산은 얼마까지 줄일 수 있는가? 이 물음에 Fisher 정보가 답한다.

I(θ)=Eθ[(θlogp(X;θ))2]=Eθ[2θ2logp(X;θ)]I(\theta) = E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] = -E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right]

Fisher 정보는 score 함수의 분산이다 — 로그우도의 기울기가 크게 요동칠수록 데이터가 θ\theta에 대해 많은 정보를 담고 있다. nn개 iid 관측에서 In(θ)=nI(θ)I_n(\theta) = nI(\theta).

정리 2 · Cramér-Rao 부등식

Regularity 조건 하에서, 임의의 불편 추정량 θ^\hat\theta에 대해:

Varθ(θ^)1In(θ)\text{Var}_\theta(\hat\theta) \ge \frac{1}{I_n(\theta)}

▷ 증명

Cauchy-Schwarz: Cov(θ^,s)2Var(θ^)Var(s)\text{Cov}(\hat\theta, s)^2 \le \text{Var}(\hat\theta) \cdot \text{Var}(s). E[s]=0E[s] = 0이므로 Cov(θ^,s)=E[θ^s]=θE[θ^]=1\text{Cov}(\hat\theta, s) = E[\hat\theta \cdot s] = \partial_\theta E[\hat\theta] = 1. Var(s)=In(θ)\text{Var}(s) = I_n(\theta)이므로 Var(θ^)1/In(θ)\text{Var}(\hat\theta) \ge 1/I_n(\theta). ∎

Bernoulli의 경우 I(p)=1/(p(1p))I(p) = 1/(p(1-p)), CR 하한은 p(1p)/np(1-p)/n이다. 표본 평균 Xˉ\bar X는 이 하한을 정확히 달성한다. 그러나 Uniform U(0,θ)U(0, \theta)처럼 지지집합이 모수에 의존하면 Regularity가 깨지고, 최대순서통계량 X(n)X_{(n)}은 오히려 O(1/n2)O(1/n^2) 속도로 수렴해 CR 하한을 크게 넘어선다.

트레이드오프: CR 하한의 적용 범위

CR 하한은 불편 추정량에만 직접 적용된다. 편향을 허용하면 하한 이하로 내려갈 수 있다(James-Stein 추정기가 대표적 예다). 또한 Regularity 위반 시 하한 자체가 무의미해진다. CR은 “불편성을 고집할 때의 비용”을 정량화하는 도구다.

최적 불편 추정량: Rao-Blackwell과 UMVUE

CR 하한이 존재한다면, 이를 달성하는 불편 추정량 — UMVUE — 은 어떻게 구성하는가? 열쇠는 충분통계량과 Rao-Blackwell 정리에 있다.

임의의 불편 추정량 WW가 있고 TT가 충분통계량이라 하자. ϕ(T)=E[WT]\phi(T) = E[W|T]로 Rao-Blackwell화하면, 전체 분산 법칙에 의해:

Var(W)=E[Var(WT)]+Var(ϕ(T))Var(ϕ(T))\text{Var}(W) = E[\text{Var}(W|T)] + \text{Var}(\phi(T)) \ge \text{Var}(\phi(T))

분산이 줄거나 유지된다. 충분성 덕분에 ϕ(T)\phi(T)θ\theta와 무관한 함수로, 여전히 불편이다.

여기에 완비성이 추가되면 Lehmann-Scheffé 정리가 유일성을 보장한다. 완비충분통계량 TT에 기반한 불편 추정량은 유일한 UMVUE다. Bernoulli에서 p2p^2의 UMVUE는 T(T1)/(n(n1))T(T-1)/(n(n-1))이며, plug-in 추정량 Xˉ2\bar X^2는 편향을 가진다.

그러나 주목할 점이 있다. 정규분포 평균의 UMVUE인 Xˉ\bar X는 James-Stein 추정기에 MSE 기준으로 지배당한다(d3d \ge 3에서). UMVUE는 불편 추정량 중 최고지만, 불편성을 포기하면 더 좋은 추정량이 존재한다.

MLE: 점근 효율성의 원천

실용적 추정에서 MLE가 표준이 된 이유는 네 가지 성질에 있다.

불변성: g(θ^MLE)g(\hat\theta_\text{MLE})g(θ)g(\theta)의 MLE다. MAP는 이 성질을 갖지 않는다.

일치성: Regularity + 식별성 조건 하에서 θ^npθ0\hat\theta_n \xrightarrow{p} \theta_0. 핵심은 KL divergence의 비음성이다 — 기대 로그우도는 참값 θ0\theta_0에서 최대화된다.

점근정규성: Score 방정식의 Taylor 전개 + CLT + LLN + Slutsky를 엮으면:

n(θ^nθ0)dN(0,I(θ0)1)\sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} N(0,\, I(\theta_0)^{-1})

분자 n/nN(0,I(θ0))\ell'_n/\sqrt{n} \to N(0, I(\theta_0)), 분모 n/nI(θ0)\ell''_n/n \to -I(\theta_0). 비율의 한계가 N(0,I1)N(0, I^{-1})이 된다.

점근 효율성: 점근분산이 I(θ0)1I(\theta_0)^{-1} — CR 하한을 점근적으로 달성한다.

지수족에서 MLE는 충분통계량 Tˉ\bar T에 대한 모멘트 매칭으로 닫힌 형태를 갖는다. 로지스틱 회귀처럼 닫힌 형태가 없을 때는 IRLS나 Newton-Raphson을 쓴다.

Regularity가 깨지면 이 아름다운 구조가 무너진다. Uniform U(0,θ)U(0,\theta)의 MLE X(n)X_{(n)}n(θX(n))/θExp(1)n(\theta - X_{(n)})/\theta \to \text{Exp}(1)로 수렴 — n\sqrt n 속도가 아닌 nn 속도, 정규분포가 아닌 지수분포로 수렴한다. Singular Fisher를 갖는 딥러닝의 과매개변수화 모형에서도 표준 점근 이론은 이탈한다.

MAP: 정규화의 확률적 해석

MLE에 사전분포를 더하면 MAP가 된다:

θ^MAP=argmaxθ[(θ)+logp(θ)]\hat\theta_\text{MAP} = \arg\max_\theta \left[\ell(\theta) + \log p(\theta)\right]

사전이 uniform이면 MAP = MLE다. 표본이 커지면 =O(n)\ell = O(n), logp(θ)=O(1)\log p(\theta) = O(1)이므로 사전의 영향은 O(1/n)O(1/n)으로 사라진다 — Bernstein-von Mises 정리의 핵심.

그러나 유한 표본에서 사전은 정규화 패널티와 정확히 대응한다.

  • Gaussian prior → L2 정규화 → Ridge regression
  • Laplace prior → L1 정규화 → LASSO

손실 함수에 따라 최적 추정량이 달라진다. Squared loss의 베이즈 최적 추정량은 사후평균 E[θx]E[\theta|x]이고, 0-1 loss의 최적은 MAP(사후 모드)다. 사후평균은 불변성이 없다 — E[g(θ)x]g(E[θx])E[g(\theta)|x] \neq g(E[\theta|x]) 일반적으로. 세 추정량 중 불변성을 갖는 것은 MLE뿐이다.

정리

  • MSE = Bias² + Variance. 불편성은 충분 조건이 아니라 하나의 제약이다.
  • Fisher 정보는 데이터가 모수에 대해 가진 정보량이며, 불편 추정량의 분산에 CR 하한을 부여한다.
  • Rao-Blackwell + 완비충분통계량 = UMVUE. 그러나 불편성을 포기하면 James-Stein처럼 더 작은 MSE가 가능하다.
  • MLE는 불변성·일치성·점근정규성·점근효율성이라는 네 성질로 현대 추론의 표준이 됐다. Regularity 위반 시 이 성질은 모두 흔들린다.
  • MAP는 정규화된 MLE이며, 사전의 선택은 정규화 패널티의 선택이다.

추정 이론의 진짜 교훈은 “어떤 추정량이 최고인가”가 아니라, 어떤 기준으로 최고를 정의하느냐에 따라 답이 달라진다는 점이다.