Exact Inference는 왜 그렇게 어려운가
Variable Elimination의 분배법칙부터 Treewidth의 NP-hardness, Junction Tree의 완성까지 — PGM exact inference의 복잡도 구조를 통합적으로 추적한다.
- 01 그래프 모델의 언어 — 조건부 독립에서 Moralization까지
- 02 Belief Propagation은 왜 하나의 알고리즘인가
- 03 HMM에서 Mamba까지 — 시계열 모델의 하나의 뼈대
- 04 CRF는 왜 HMM보다 강한가
- 05 Exact Inference는 왜 그렇게 어려운가
- 06 Variational Inference의 다섯 얼굴
- 07 Graphical Model 학습은 왜 이렇게 어려운가
Bayesian Network에서 을 구하려면 나머지 변수 전부를 합산해야 한다. 변수가 개, 각 기수(cardinality)가 라면 단순 열거는 . 그런데 왜 어떤 모델은 선형 시간에 풀리고, 어떤 모델은 슈퍼컴퓨터로도 몇 주가 걸리는가?
분배법칙이 Inference를 가능하게 한다
Variable Elimination(VE)의 핵심은 합산 순서의 재배치다. Joint distribution의 factorization 이 있을 때, 합산을 관련 factor 안으로 밀어 넣으면 된다.
를 먼저 계산해두면 은 사라진다. 이것이 “variable을 eliminate한다”는 의미다. 알고리즘은 단순하다.
for each x_i in elimination order σ:
Φ_i = {φ ∈ Φ : x_i ∈ scope(φ)}
τ = product of all φ in Φ_i
τ' = sum out x_i from τ
Replace Φ_i with τ'
Result: product of remaining factors
이 과정이 정확히 를 계산한다는 것은 귀납법으로 증명된다. Step 후 factor set이 를 정확히 marginalize한 것과 동등하며, 이를 반복하면 query variable 하나만 남는다.
Treewidth — 복잡도의 근본 척도
VE의 비용은 어디서 나오는가? 각 elimination step에서 생성되는 intermediate factor의 크기다. 같은 graph에서도 어떤 순서로 제거하느냐에 따라 이 크기가 극적으로 달라진다.
Naive Bayes 구조에서 의 children 를 생각하자.
- 순서 : 매 step에서 intermediate factor의 크기가 .
- 순서 : 를 먼저 제거하면 . 크기 .
이 차이를 포착하는 개념이 treewidth다.
Elimination order 에서 각 step의 clique 크기의 최대값을 minimizing한 것. 수치로 보면:
| Graph | Treewidth | Inference complexity |
|---|---|---|
| Tree | 1 | |
| Cycle | 2 | |
| Grid | ||
| Complete |
Grid의 treewidth가 에 선형이라는 사실이 핵심이다. 이미지의 pixel-level MRF는 treewidth , 이를 exact하게 풀면 연산이 필요하다. 이것이 이미지 segmentation에서 exact inference가 불가능한 이유다.
Elimination order 에서 VE의 시간 복잡도는 이며, 는 해당 order의 induced graph에서 최대 clique 크기다. 모든 order에 대한 최솟값이 treewidth 이다.
Arnborg-Corneil-Proskurowski (1987)의 결과: “Does ?”는 NP-complete. 즉 최적 elimination order를 찾는 것 자체가 NP-hard다. 실전에서는 min-fill, MCS 같은 heuristic을 사용한다.
Junction Tree — 여러 Query를 한 번에
Single marginal은 VE로 충분하다. 하지만 모든 변수의 marginal이 필요하다면 VE를 번 반복하는 것은 중복 계산이 심하다. **Junction Tree(JT)**는 이 문제를 해결한다.
구성 절차는 네 단계다.
Moralize BN → Triangulate (fill-in edges) → Find maximal cliques → Build clique tree with RIP
Running Intersection Property(RIP): 각 변수 에 대해 를 포함하는 clique들의 집합이 clique tree에서 connected subtree를 이룬다.
RIP가 왜 중요한가? Message passing의 correctness가 여기에 달려 있다. 변수 에 대한 정보가 tree를 따라 일관되게 흘러야 하는데, RIP가 없으면 중간 clique에서 의 정보가 끊길 수 있다.
Shafer-Shenoy message는 다음과 같이 정의된다.
Root에서 collect → distribute 두 pass를 마치면 tree가 calibrated 상태가 된다.
인접 clique의 belief가 separator 위에서 일치한다는 뜻이다. 이 상태에서 임의 변수의 marginal을 로 즉시 조회할 수 있다. 전처리(triangulation + message passing) 비용은 — VE와 같은 복잡도로 모든 marginal을 동시에 얻는다.
복잡도의 벽 — NP-Hard와 #P-Hard
Treewidth가 bounded이면 inference는 polynomial이다. 하지만 일반 그래프에서는 어떤가?
일반 Bayesian Network에서:
- MAP inference (가장 그럴듯한 configuration 찾기)는 NP-hard
- Marginal inference ( 계산)는 #P-hard
MAP의 NP-hardness: 3-CNF formula 의 각 변수를 BN 변수로, 각 clause를 CPT로 인코딩하면 iff 가 satisfiable. MAP query가 3-SAT decision을 포함한다.
Marginal의 #P-hardness: 같은 construction에서 . Marginal 계산이 #SAT를 포함하며, 이는 #P-complete.
#P가 NP보다 엄격히 어려운 이유는 Toda’s theorem에서 확인된다: polynomial hierarchy 전체가 #P oracle로 polynomial time이다. MAP는 “해 하나의 존재”, Marginal은 “모든 해의 가중합” — 후자가 근본적으로 더 어렵다.
Roth(1996)와 Dagum-Luby(1997)는 더 강한 결과를 보였다. Approximate marginal도 multiplicative factor 이내로 근사하는 것이 NP-hard라는 것이다. 이것이 variational inference와 MCMC가 이론적 보장 없이도 실용적으로 정당화되는 이유다 — exact도, 일반적 approximation도 불가능하기 때문에, 경험적으로 잘 작동하는 방법론이 선택지가 된다.
| 구조 | MAP | Marginal |
|---|---|---|
| Polytree | ||
| Bounded treewidth | ||
| Planar + bounded degree | Polynomial | FPTAS 존재 |
| General graph | NP-hard | #P-hard |
Planar graph의 특수 케이스에서 FPTAS(fully polynomial-time approximation scheme)가 존재한다는 것이 Bansal-Bravyi-Terhal(2009)의 결과다.
정리
- VE는 분배법칙으로 을 으로 줄인다. 핵심은 elimination ordering이다.
- Treewidth는 graph의 “tree-like 정도”를 측정하며, 정확히 inference 복잡도를 결정한다. Grid의 treewidth는 에 선형이고, 이것이 image MRF에서 exact inference가 불가능한 구조적 이유다.
- Junction Tree는 전처리 한 번으로 모든 marginal을 calibrated belief에서 조회하게 한다. RIP가 message passing의 정확성을 보장한다.
- 일반 그래프의 exact marginal inference는 #P-hard이고 근사조차 NP-hard다. 이 벽이 variational inference와 MCMC의 이론적 존재 이유다.
이 복잡도 구조를 이해한 다음 자연스럽게 나오는 질문 — “그렇다면 어떻게 근사하는가?” — 는 Mean-Field Variational Inference에서 다룬다.