불편성보다 MSE — 추정 이론의 통합 원리
편향-분산 분해부터 Cramér-Rao 하한, UMVUE, MLE의 점근정규성, MAP까지 — 추정 이론 전체를 관통하는 하나의 물음을 추적한다.
- 01 통계 추론은 무엇을 가정하고 있는가
- 02 지수족은 왜 통계학의 중심에 있는가
- 03 불편성보다 MSE — 추정 이론의 통합 원리
- 04 가설검정의 최적성은 어디서 오는가
- 05 점근 이론의 통일된 언어 — Delta부터 M-estimator까지
- 06 베이즈 추론의 다섯 가지 얼굴
- 07 통계학과 머신러닝은 왜 같은 말을 다른 이름으로 부르는가
추정 이론은 표면적으로 편향, 분산, Cramér-Rao 하한, UMVUE, MLE, MAP라는 이질적인 개념들의 나열처럼 보인다. 그러나 이 모든 것은 하나의 물음에서 파생된다 — “좋은 추정량”을 어떻게 정의할 것인가? 그 답을 MSE = Bias² + Variance라는 분해로 시작해 따라가면, 추정 이론 전체가 하나의 일관된 구조로 읽힌다.
출발: MSE 분해와 편향-분산 트레이드오프
좋은 추정량의 첫 번째 후보는 불편 추정량이다. 이면, 평균적으로 참값을 맞힌다. 그러나 불편성만으로는 충분하지 않다.
로 분해하고 제곱 후 기댓값을 취한다. 교차항의 기댓값은 0이므로 . ∎
이 분해는 정규분포 분산 추정에서 즉각 역설을 낳는다. MLE 는 편향이 있지만(), 불편 추정량 보다 MSE가 작다. 심지어 가 MSE를 최소화한다. 불편성이 항상 좋은 기준은 아니다.
머신러닝에서 이 구조는 더 노골적으로 나타난다. 복잡한 모형은 저편향·고분산, 단순한 모형은 고편향·저분산이다. Regularization은 의도적으로 편향을 증가시켜 분산을 줄이고 MSE를 낮춘다.
정보의 한계: Cramér-Rao 하한
MSE를 낮추려면 분산을 줄여야 한다. 그렇다면 분산은 얼마까지 줄일 수 있는가? 이 물음에 Fisher 정보가 답한다.
Fisher 정보는 score 함수의 분산이다 — 로그우도의 기울기가 크게 요동칠수록 데이터가 에 대해 많은 정보를 담고 있다. 개 iid 관측에서 .
Regularity 조건 하에서, 임의의 불편 추정량 에 대해:
Cauchy-Schwarz: . 이므로 . 이므로 . ∎
Bernoulli의 경우 , CR 하한은 이다. 표본 평균 는 이 하한을 정확히 달성한다. 그러나 Uniform 처럼 지지집합이 모수에 의존하면 Regularity가 깨지고, 최대순서통계량 은 오히려 속도로 수렴해 CR 하한을 크게 넘어선다.
CR 하한은 불편 추정량에만 직접 적용된다. 편향을 허용하면 하한 이하로 내려갈 수 있다(James-Stein 추정기가 대표적 예다). 또한 Regularity 위반 시 하한 자체가 무의미해진다. CR은 “불편성을 고집할 때의 비용”을 정량화하는 도구다.
최적 불편 추정량: Rao-Blackwell과 UMVUE
CR 하한이 존재한다면, 이를 달성하는 불편 추정량 — UMVUE — 은 어떻게 구성하는가? 열쇠는 충분통계량과 Rao-Blackwell 정리에 있다.
임의의 불편 추정량 가 있고 가 충분통계량이라 하자. 로 Rao-Blackwell화하면, 전체 분산 법칙에 의해:
분산이 줄거나 유지된다. 충분성 덕분에 는 와 무관한 함수로, 여전히 불편이다.
여기에 완비성이 추가되면 Lehmann-Scheffé 정리가 유일성을 보장한다. 완비충분통계량 에 기반한 불편 추정량은 유일한 UMVUE다. Bernoulli에서 의 UMVUE는 이며, plug-in 추정량 는 편향을 가진다.
그러나 주목할 점이 있다. 정규분포 평균의 UMVUE인 는 James-Stein 추정기에 MSE 기준으로 지배당한다(에서). UMVUE는 불편 추정량 중 최고지만, 불편성을 포기하면 더 좋은 추정량이 존재한다.
MLE: 점근 효율성의 원천
실용적 추정에서 MLE가 표준이 된 이유는 네 가지 성질에 있다.
불변성: 는 의 MLE다. MAP는 이 성질을 갖지 않는다.
일치성: Regularity + 식별성 조건 하에서 . 핵심은 KL divergence의 비음성이다 — 기대 로그우도는 참값 에서 최대화된다.
점근정규성: Score 방정식의 Taylor 전개 + CLT + LLN + Slutsky를 엮으면:
분자 , 분모 . 비율의 한계가 이 된다.
점근 효율성: 점근분산이 — CR 하한을 점근적으로 달성한다.
지수족에서 MLE는 충분통계량 에 대한 모멘트 매칭으로 닫힌 형태를 갖는다. 로지스틱 회귀처럼 닫힌 형태가 없을 때는 IRLS나 Newton-Raphson을 쓴다.
Regularity가 깨지면 이 아름다운 구조가 무너진다. Uniform 의 MLE 은 로 수렴 — 속도가 아닌 속도, 정규분포가 아닌 지수분포로 수렴한다. Singular Fisher를 갖는 딥러닝의 과매개변수화 모형에서도 표준 점근 이론은 이탈한다.
MAP: 정규화의 확률적 해석
MLE에 사전분포를 더하면 MAP가 된다:
사전이 uniform이면 MAP = MLE다. 표본이 커지면 , 이므로 사전의 영향은 으로 사라진다 — Bernstein-von Mises 정리의 핵심.
그러나 유한 표본에서 사전은 정규화 패널티와 정확히 대응한다.
- Gaussian prior → L2 정규화 → Ridge regression
- Laplace prior → L1 정규화 → LASSO
손실 함수에 따라 최적 추정량이 달라진다. Squared loss의 베이즈 최적 추정량은 사후평균 이고, 0-1 loss의 최적은 MAP(사후 모드)다. 사후평균은 불변성이 없다 — 일반적으로. 세 추정량 중 불변성을 갖는 것은 MLE뿐이다.
정리
- MSE = Bias² + Variance. 불편성은 충분 조건이 아니라 하나의 제약이다.
- Fisher 정보는 데이터가 모수에 대해 가진 정보량이며, 불편 추정량의 분산에 CR 하한을 부여한다.
- Rao-Blackwell + 완비충분통계량 = UMVUE. 그러나 불편성을 포기하면 James-Stein처럼 더 작은 MSE가 가능하다.
- MLE는 불변성·일치성·점근정규성·점근효율성이라는 네 성질로 현대 추론의 표준이 됐다. Regularity 위반 시 이 성질은 모두 흔들린다.
- MAP는 정규화된 MLE이며, 사전의 선택은 정규화 패널티의 선택이다.
추정 이론의 진짜 교훈은 “어떤 추정량이 최고인가”가 아니라, 어떤 기준으로 최고를 정의하느냐에 따라 답이 달라진다는 점이다.