불편성보다 MSE — 추정 이론의 통합 원리

편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.

추정 이론은 표면적으로 편향, 분산, Cramér-Rao 하한, UMVUE, MLE, MAP라는 이질적인 개념들의 나열처럼 보인다. 그러나 이 모든 것은 하나의 물음에서 파생된다 — “좋은 추정량”을 어떻게 정의할 것인가? 그 답을 MSE = Bias² + Variance라는 분해로 시작해 따라가면, 추정 이론 전체가 하나의 일관된 구조로 읽힌다.

출발: MSE 분해와 편향-분산 트레이드오프

좋은 추정량의 첫 번째 후보는 불편 추정량이다. $E_\theta[\hat\theta] = \theta$ 이면, 평균적으로 참값을 맞힌다. 그러나 불편성만으로는 충분하지 않다.

명제 1 · MSE 분해

$\text{MSE}_\theta(\hat\theta) = \text{Var}_\theta(\hat\theta) + \text{Bias}_\theta(\hat\theta)^2$

▷ 증명

$\hat\theta - \theta = (\hat\theta - E\hat\theta) + (E\hat\theta - \theta)$ 로 분해하고 제곱 후 기댓값을 취한다. 교차항의 기댓값은 0이므로 $\text{MSE} = \text{Var} + \text{Bias}^2$ . ∎

∎

이 분해는 정규분포 분산 추정에서 즉각 역설을 낳는다. MLE $\hat\sigma^2 = \frac{1}{n}\sum(X_i-\bar X)^2$ 는 편향이 있지만( $E[\hat\sigma^2] = \frac{n-1}{n}\sigma^2$ ), 불편 추정량 $S^2 = \frac{1}{n-1}\sum(X_i-\bar X)^2$ 보다 MSE가 작다. 심지어 $\frac{1}{n+1}\sum(X_i-\bar X)^2$ 가 MSE를 최소화한다. 불편성이 항상 좋은 기준은 아니다.

머신러닝에서 이 구조는 더 노골적으로 나타난다. 복잡한 모형은 저편향·고분산, 단순한 모형은 고편향·저분산이다. Regularization은 의도적으로 편향을 증가시켜 분산을 줄이고 MSE를 낮춘다.

정보의 한계: Cramér-Rao 하한

MSE를 낮추려면 분산을 줄여야 한다. 그렇다면 분산은 얼마까지 줄일 수 있는가? 이 물음에 Fisher 정보가 답한다.

$I(\theta) = E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] = -E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right]$

Fisher 정보는 score 함수의 분산이다 — 로그우도의 기울기가 크게 요동칠수록 데이터가 $\theta$ 에 대해 많은 정보를 담고 있다. $n$ 개 iid 관측에서 $I_n(\theta) = nI(\theta)$ .

정리 2 · Cramér-Rao 부등식

Regularity 조건 하에서, 임의의 불편 추정량 $\hat\theta$ 에 대해:

$\text{Var}_\theta(\hat\theta) \ge \frac{1}{I_n(\theta)}$

▷ 증명

Cauchy-Schwarz: $\text{Cov}(\hat\theta, s)^2 \le \text{Var}(\hat\theta) \cdot \text{Var}(s)$ . $E[s] = 0$ 이므로 $\text{Cov}(\hat\theta, s) = E[\hat\theta \cdot s] = \partial_\theta E[\hat\theta] = 1$ . $\text{Var}(s) = I_n(\theta)$ 이므로 $\text{Var}(\hat\theta) \ge 1/I_n(\theta)$ . ∎

∎

Bernoulli의 경우 $I(p) = 1/(p(1-p))$ , CR 하한은 $p(1-p)/n$ 이다. 표본 평균 $\bar X$ 는 이 하한을 정확히 달성한다. 그러나 Uniform $U(0, \theta)$ 처럼 지지집합이 모수에 의존하면 Regularity가 깨지고, 최대순서통계량 $X_{(n)}$ 은 오히려 $O(1/n^2)$ 속도로 수렴해 CR 하한을 크게 넘어선다.

✎ 트레이드오프: CR 하한의 적용 범위

CR 하한은 불편 추정량에만 직접 적용된다. 편향을 허용하면 하한 이하로 내려갈 수 있다(James-Stein 추정기가 대표적 예다). 또한 Regularity 위반 시 하한 자체가 무의미해진다. CR은 “불편성을 고집할 때의 비용”을 정량화하는 도구다.

최적 불편 추정량: Rao-Blackwell과 UMVUE

CR 하한이 존재한다면, 이를 달성하는 불편 추정량 — UMVUE — 은 어떻게 구성하는가? 열쇠는 충분통계량과 Rao-Blackwell 정리에 있다.

임의의 불편 추정량 $W$ 가 있고 $T$ 가 충분통계량이라 하자. $\phi(T) = E[W|T]$ 로 Rao-Blackwell화하면, 전체 분산 법칙에 의해:

$\text{Var}(W) = E[\text{Var}(W|T)] + \text{Var}(\phi(T)) \ge \text{Var}(\phi(T))$

분산이 줄거나 유지된다. 충분성 덕분에 $\phi(T)$ 는 $\theta$ 와 무관한 함수로, 여전히 불편이다.

여기에 완비성이 추가되면 Lehmann-Scheffé 정리가 유일성을 보장한다. 완비충분통계량 $T$ 에 기반한 불편 추정량은 유일한 UMVUE다. Bernoulli에서 $p^2$ 의 UMVUE는 $T(T-1)/(n(n-1))$ 이며, plug-in 추정량 $\bar X^2$ 는 편향을 가진다.

그러나 주목할 점이 있다. 정규분포 평균의 UMVUE인 $\bar X$ 는 James-Stein 추정기에 MSE 기준으로 지배당한다( $d \ge 3$ 에서). UMVUE는 불편 추정량 중 최고지만, 불편성을 포기하면 더 좋은 추정량이 존재한다.

MLE: 점근 효율성의 원천

실용적 추정에서 MLE가 표준이 된 이유는 네 가지 성질에 있다.

불변성: $g(\hat\theta_\text{MLE})$ 는 $g(\theta)$ 의 MLE다. MAP는 이 성질을 갖지 않는다.

일치성: Regularity + 식별성 조건 하에서 $\hat\theta_n \xrightarrow{p} \theta_0$ . 핵심은 KL divergence의 비음성이다 — 기대 로그우도는 참값 $\theta_0$ 에서 최대화된다.

점근정규성: Score 방정식의 Taylor 전개 + CLT + LLN + Slutsky를 엮으면:

$\sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} N(0,\, I(\theta_0)^{-1})$

분자 $\ell'_n/\sqrt{n} \to N(0, I(\theta_0))$ , 분모 $\ell''_n/n \to -I(\theta_0)$ . 비율의 한계가 $N(0, I^{-1})$ 이 된다.

점근 효율성: 점근분산이 $I(\theta_0)^{-1}$ — CR 하한을 점근적으로 달성한다.

지수족에서 MLE는 충분통계량 $\bar T$ 에 대한 모멘트 매칭으로 닫힌 형태를 갖는다. 로지스틱 회귀처럼 닫힌 형태가 없을 때는 IRLS나 Newton-Raphson을 쓴다.

Regularity가 깨지면 이 아름다운 구조가 무너진다. Uniform $U(0,\theta)$ 의 MLE $X_{(n)}$ 은 $n(\theta - X_{(n)})/\theta \to \text{Exp}(1)$ 로 수렴 — $\sqrt n$ 속도가 아닌 $n$ 속도, 정규분포가 아닌 지수분포로 수렴한다. Singular Fisher를 갖는 딥러닝의 과매개변수화 모형에서도 표준 점근 이론은 이탈한다.

MAP: 정규화의 확률적 해석

MLE에 사전분포를 더하면 MAP가 된다:

$\hat\theta_\text{MAP} = \arg\max_\theta \left[\ell(\theta) + \log p(\theta)\right]$

사전이 uniform이면 MAP = MLE다. 표본이 커지면 $\ell = O(n)$ , $\log p(\theta) = O(1)$ 이므로 사전의 영향은 $O(1/n)$ 으로 사라진다 — Bernstein-von Mises 정리의 핵심.

그러나 유한 표본에서 사전은 정규화 패널티와 정확히 대응한다.

Gaussian prior → L2 정규화 → Ridge regression
Laplace prior → L1 정규화 → LASSO

손실 함수에 따라 최적 추정량이 달라진다. Squared loss의 베이즈 최적 추정량은 사후평균 $E[\theta|x]$ 이고, 0-1 loss의 최적은 MAP(사후 모드)다. 사후평균은 불변성이 없다 — $E[g(\theta)|x] \neq g(E[\theta|x])$ 일반적으로. 세 추정량 중 불변성을 갖는 것은 MLE뿐이다.

정리

MSE = Bias² + Variance. 불편성은 충분 조건이 아니라 하나의 제약이다.
Fisher 정보는 데이터가 모수에 대해 가진 정보량이며, 불편 추정량의 분산에 CR 하한을 부여한다.
Rao-Blackwell + 완비충분통계량 = UMVUE. 그러나 불편성을 포기하면 James-Stein처럼 더 작은 MSE가 가능하다.
MLE는 불변성·일치성·점근정규성·점근효율성이라는 네 성질로 현대 추론의 표준이 됐다. Regularity 위반 시 이 성질은 모두 흔들린다.
MAP는 정규화된 MLE이며, 사전의 선택은 정규화 패널티의 선택이다.

추정 이론의 진짜 교훈은 “어떤 추정량이 최고인가”가 아니라, 어떤 기준으로 최고를 정의하느냐에 따라 답이 달라진다는 점이다.