베이즈 추론의 다섯 가지 얼굴
사전분포 선택부터 Bernstein-von Mises 수렴까지, 베이즈 추론의 설계 결정 다섯 가지를 하나의 철학으로 꿰뚫는다.
- 01 통계 추론은 무엇을 가정하고 있는가
- 02 지수족은 왜 통계학의 중심에 있는가
- 03 불편성보다 MSE — 추정 이론의 통합 원리
- 04 가설검정의 최적성은 어디서 오는가
- 05 점근 이론의 통일된 언어 — Delta부터 M-estimator까지
- 06 베이즈 추론의 다섯 가지 얼굴
- 07 통계학과 머신러닝은 왜 같은 말을 다른 이름으로 부르는가
베이즈 추론의 수식은 간단하다 — 사전 곱하기 우도, 나누기 증거. 그런데 이 단순한 뼈대 위에서 수십 년간 논쟁이 이어졌다. 사전분포를 어떻게 선택하는가, 켤레 구조는 언제 깨지는가, 데이터가 충분할 때 사전은 무의미해지는가, 그리고 “95% 구간”은 무엇을 의미하는가. 이 다섯 챕터의 물음은 사실 하나로 귀결된다 — 불확실성을 확률로 표현할 때 어떤 일관성을 요구할 것인가?
파이프라인의 출발점: 사후는 어디서 오는가
베이즈 정리의 연속 버전은 결합밀도를 두 방향으로 인수분해한다.
분모 는 정규화 상수이므로 실용적으로는 비례 형태로 작업한다.
이 파이프라인의 핵심 성질이 **순차 갱신(sequential updating)**이다. 번째 데이터를 받으면 어제의 사후가 오늘의 사전이 된다.
점추정은 손실함수에 따라 달라진다. 제곱 손실이면 사후 기댓값, 절댓값 손실이면 사후 중앙값, 0-1 손실이면 MAP(최빈값). 이 결정론적 대응이 베이즈 추정량의 최적성 근거다.
켤레 구조: 닫힌 계산의 대수학
지수족 우도에 켤레 사전을 쓰면 사후가 같은 족 안에 머문다. 이 “기적”은 우연이 아니라 지수족의 대수 구조에서 나온다.
지수족 우도를 로 쓸 때, 켤레 사전의 표준형은
이다. 개 데이터를 관측하면 파라미터가 으로 갱신된다. 구조 자체는 바뀌지 않는다.
Diaconis-Ylvisaker(1979) 정리는 이 갱신의 해석을 준다. 사후 기대 충분통계량은 사전과 데이터의 정밀도 가중평균이다.
는 “가상 관측 수(pseudo-count)“다. Beta(α, β) 사전은 “이미 α−1번 성공, β−1번 실패를 본 것과 같다”는 해석을 갖는다. Normal-Normal 갱신에서는 정밀도가 더해진다 — 새 정보가 기존 정보에 가산된다.
켤레 구조는 계산 편의를 위한 선택이다. 실제 사전 믿음이 켤레 족 안에 없다면 MCMC나 변분 추론을 써야 한다. 데이터가 많으면 사전 형태의 영향이 줄어들므로 켤레 근사의 오류도 작아진다. 반대로 소표본·희귀 사건에서는 사전 형태의 선택이 결정적이다.
사전 선택의 원칙: Jeffreys와 재매개변수화 불변성
균등 사전 은 “무정보적”처럼 보인다. 그러나 로 재매개변수화하면 이 되어 균등이 아니다. “무정보”는 좌표 표현에 의존한다.
Jeffreys(1939)의 해결이다.
Fisher 정보 의 행렬식 제곱근을 사전으로 쓰면 재매개변수화 불변성이 성립한다.
가 매끄러운 전단사 함수일 때, 가 성립한다. 즉 Jeffreys 사전은 좌표 선택에 무관하게 같은 확률 측도를 표현한다.
스칼라 경우. 연쇄율로 . 따라서
정보기하학 관점에서 는 통계적 다양체 위의 Riemann 계량이고, 는 그 부피 원소다. Jeffreys 사전은 다양체 위의 균등 측도다.
단, 다차원에서 Full Jeffreys()는 nuisance 파라미터 문제에서 나쁜 빈도주의 성질을 보이기도 한다. 에서는 를 쓰는 것이 실전에서 더 많이 추천된다 — 이 독립 Jeffreys는 marginal 사후 를 정확히 로 만들어 빈도주의 신뢰구간과 수치적으로 일치한다.
Bernstein-von Mises: 사전은 점근적으로 사라진다
정규 조건 하에서 데이터가 쌓이면 어떤 사전에서 출발했든 사후가 하나의 극한으로 수렴한다.
사후 평균은 MLE로, 사후 분산은 Cramér-Rao 하한으로 수렴한다. 이 결과가 Bernstein-von Mises(BvM) 정리다.
증명의 핵심은 로그 사후의 Taylor 전개다. 근방에서
사전의 기여 는 2차 항보다 작다. 지수를 취하면 이 남는다.
BvM의 가장 중요한 함의는 prior 민감도의 점근 소멸이다. 아래는 같은 데이터에서 서로 다른 사전들이 큰 에서 같은 사후로 합쳐지는 구조다.
n = 10 : Prior [███] Likelihood [████] → Posterior ≈ 중간
n = 100: Prior [█] Likelihood [██████] → Posterior ≈ Likelihood 중심
n = 10000: Prior ε Likelihood (날카로움) → Posterior ≈ N(MLE, CR bound)
실전 함의: 소표본·희귀 사건에서 사전을 신중히 선택해야 하는 이유가 바로 이 수렴이 아직 일어나지 않았기 때문이다.
두 구간의 해석: 무엇이 랜덤인가
베이즈와 빈도주의의 차이가 가장 극명하게 드러나는 곳이 구간 추정이다.
신뢰구간(CI, Neyman 1937): 표본마다 달라지는 구간 를 반복 생성했을 때 그 95%가 고정된 를 포함한다. 구간이 랜덤, 는 고정.
신용구간(CrI, Bayesian): 관측된 데이터가 주어졌을 때 가 구간에 있을 사후 확률이 95%다. 가 랜덤, 데이터는 고정.
이 차이는 이 작거나 모형이 비정규일 때 결정적이다. Binomial에서 이면 Wald CI는 으로 퇴화한다. Jeffreys CrI(Beta(0.5, 10.5))는 non-degenerate 구간을 내놓는다. 경계 파라미터 에서 CI는 음수 하한을 가질 수 있지만, 사전이 양수 반직선을 지정하면 CrI는 자동으로 이를 따른다.
BvM은 점근적으로 두 구간이 수치적으로 가까워짐을 보장하지만, 철학적 해석은 대표본에서도 바뀌지 않는다. “95% CI가 [2.1, 3.4]“를 “θ가 이 구간에 있을 확률이 95%“로 읽는 것은 빈도주의 해석을 베이즈식으로 혼용한 오류다.
정리
- 베이즈 파이프라인의 본질은 순차 갱신이다. 오늘의 사후가 내일의 사전이 된다.
- 켤레 구조는 지수족의 대수적 특성에서 나온다. 파라미터 공간에서 affine 이동으로 표현되므로 계산이 닫힌다.
- Jeffreys 사전은 재매개변수화 불변성을 만족하는 Fisher 정보의 부피 원소다. 그러나 다차원 nuisance 파라미터에서는 Reference prior를 검토해야 한다.
- BvM은 정규 조건 하에서 사전을 점근