Graphical Model 학습은 왜 이렇게 어려운가
BN의 count-based MLE부터 MRF의 partition function 문제, EM의 ELBO 보장, Structure Learning의 NP-hardness, 그리고 GNN·Transformer까지 — classical PGM 학습의 통일된 수학적 계보를 추적한다.
- 01 그래프 모델의 언어 — 조건부 독립에서 Moralization까지
- 02 Belief Propagation은 왜 하나의 알고리즘인가
- 03 HMM에서 Mamba까지 — 시계열 모델의 하나의 뼈대
- 04 CRF는 왜 HMM보다 강한가
- 05 Exact Inference는 왜 그렇게 어려운가
- 06 Variational Inference의 다섯 얼굴
- 07 Graphical Model 학습은 왜 이렇게 어려운가
Bayesian Network에서 파라미터를 학습하는 것은 놀랍도록 쉽다 — 그냥 세면 된다. 반면 Markov Random Field의 MLE gradient에는 partition function이 끼어들어, 계산이 원리적으로 intractable해진다. 이 대칭성의 파괴가 현대 생성 모델 알고리즘 대부분의 출발점이다. 왜 BN은 쉽고 MRF는 어려운가, 그리고 그 어려움을 우회한 방법들이 어떻게 GNN과 Transformer까지 이어지는가?
BN MLE — 세는 것으로 충분한 이유
Complete data가 주어진 Bayesian Network의 log-likelihood는 노드별로 분해된다.
각 CPT 가 독립적으로 최적화되므로, Lagrangian을 풀면 닫힌 형태의 해가 나온다.
단순한 빈도 비율이다. 이 구조가 성립하는 이유는 DAG의 인수분해 덕분에 파라미터 간 결합이 없기 때문이다. 각 CPT는 자신의 부모 설정에서만 독립적으로 카운트를 수집하면 된다.
Complete data, discrete categorical, Dirichlet prior(또는 uniform)를 가정할 때 BN의 MLE는 count-based closed form이다: .
제약 아래 log-likelihood 를 Lagrangian으로 풀면, 이고 로 합산하면 .
MRF — partition function이라는 장벽
Log-linear MRF 의 log-likelihood gradient는 다음 구조를 가진다.
경험적 카운트는 데이터에서 바로 계산된다. 문제는 두 번째 항이다. 를 계산하려면 partition function 위에서 적분해야 하는데, 이 합산은 일반적으로 지수 크기의 상태 공간을 순회한다.
이 intractability가 세 가지 우회 전략을 낳는다.
Contrastive Divergence (Hinton 2002): 데이터에서 짧은 Gibbs chain을 돌려 를 근사한다. 스텝만으로도 RBM 학습이 실용적으로 동작했고, 이것이 Deep Belief Network을 통한 딥러닝 시대를 열었다.
Pseudo-likelihood (Besag 1975): 대신 를 최대화한다. 각 조건부는 Markov blanket만 필요하므로 tractable하고, 에서 true parameter로 수렴함이 보장된다.
Score Matching (Hyvärinen 2005): partition function을 완전히 피한다. Score function 를 매칭하는데, 는 에 무관하므로 후 사라진다.
이 마지막 방법이 Score-SDE, DDPM, Stable Diffusion의 수학적 토대다.
EM — latent variable의 보편적 처방
Complete data MLE가 닫힌 형태라도, latent variable이 있으면 의 log-sum 형태가 닫힌 해를 막는다. EM은 이를 ELBO의 coordinate ascent로 재구성한다.
- E-step: 로 설정하면 KL이 0이 되어 ELBO = log-likelihood.
- M-step: 로 ELBO를 올린다.
두 스텝 모두 log-likelihood를 단조 증가시키므로 수렴이 보장된다. GMM, HMM (Baum-Welch), LDA (variational EM) — 이 모두가 같은 framework의 특수 경우다.
EM은 local optimum만 보장한다. GMM에서 가 커질수록 local minima가 늘어나 random initialization을 여러 번 해야 한다. 반면 각 iteration이 log-likelihood를 단조 증가시킨다는 보장은 실용적으로 매우 강력하다 — SGD에는 없는 성질이다.
LDA (Blei-Ng-Jordan 2003)는 EM의 계층적 Bayesian 적용의 교과서적 예다. Dirichlet-multinomial conjugacy 덕분에 를 analytically integrate out한 뒤 topic assignment 만 Gibbs sampling하는 Collapsed Gibbs (Griffiths-Steyvers 2004)가 가능하다. 이는 Rao-Blackwell 정리에 의해 full Gibbs보다 분산이 낮다.
Structure Learning — NP-hard의 한계와 우회
파라미터가 아니라 DAG 구조 자체를 데이터에서 학습하는 문제는 훨씬 어렵다.
Chickering 1996은 이 문제가 NP-complete임을 증명했다. DAG space는 노드 수에 초지수적으로 크고, acyclicity 제약이 greedy search를 복잡하게 만든다.
한 가지 완전히 polynomial-time solvable한 경우가 있다 — Chow-Liu tree (1968).
Pairwise mutual information을 계산한 뒤 Maximum Spanning Tree를 구하면 tree-restricted MLE의 exact 해가 나온다. MI 계산 , Kruskal 알고리즘 — 전체가 polynomial이다.
NOTEARS (Zheng et al. 2018)는 NP-hard 조합 최적화를 연속 최적화로 변환했다. 핵심은 DAG acyclicity의 미분 가능한 특성화다.
의 원소가 모든 길이의 closed walk 가중합임을 이용하면, 이 cycle 없음과 동치임을 알 수 있다. 이 제약이 미분 가능하므로 augmented Lagrangian으로 gradient descent가 가능해진다.
GNN과 Transformer — learned message passing으로의 수렴
Classical BP는 fixed message function을 사용한다. GNN (Gilmer et al. 2017)의 MPNN framework는 이를 학습된 함수로 대체한다.
, 가 MLP로 대체된 것을 제외하면 구조가 sum-product BP와 동일하다. BP의 fixed semantics를 task-specific loss로 학습하는 것으로 볼 수 있다.
Transformer self-attention은 complete graph 위의 GNN이다.
모든 노드 쌍이 연결되고, edge weight 가 softmax-normalized attention으로 학습된다. “모든 토큰이 모든 토큰에 메시지를 보내는 GNN”이다.
그러나 GNN도 한계가 있다. Deep GCN에서 over-smoothing이 발생한다.
전파 행렬 의 두 번째 고유값 이므로 의 rank가 1로 수렴하고 모든 노드 표현이 동일해진다. Residual connection (JK-Net, GCNII)이 이를 완화한다.
정리
- BN MLE는 DAG 인수분해 덕분에 count-based closed form이다. MRF MLE는 partition function 때문에 intractable하다.
- 이 intractability의 세 가지 우회 — CD, pseudo-likelihood, score matching — 가 각각 RBM/EBM, structured prediction, score-based 생성 모델의 수학적 토대다.
- EM은 latent variable 모델 학습의 보편적 framework로, ELBO의 단조 증가를 보장한다. 단 local optimum이다.
- Structure learning은 일반적으로 NP-hard이지만 tree-restricted에서는 Chow-Liu가 polynomial-time exact 해를 준다. NOTEARS는 acyclicity를 미분 가능한 제약으로 변환했다.
- GNN은 learned message passing으로 BP를 일반화하고, Transformer는 그 complete-graph 극한이다.
“Classical PGM의 intractability”는 피해야 할 문제가 아니라 현대 알고리즘 설계의 나침반이었다.