VAE의 모든 설계 결정은 하나의 질문에서 나온다
ELBO 유도부터 β-VAE의 disentanglement, Normalizing Flow의 정확한 likelihood, Amortized Inference의 gap, IWAE의 단조 수렴까지 — VAE 계열 생성모델의 통일 원리를 추적한다.
- 01 베이즈 추론의 다섯 가지 근본 질문
- 02 Variational Inference는 왜 ELBO를 최대화하는가
- 03 VAE의 모든 설계 결정은 하나의 질문에서 나온다
- 04 MCMC는 왜 evidence 없이도 posterior를 얻는가
- 05 BNN은 왜 그토록 어려운가 — 근사 추론의 스펙트럼
- 06 Bayesian Optimization은 어떻게 적은 실험으로 최적을 찾는가
- 07 Bayesian Deep Learning은 불확실성을 어떻게 다루는가
VAE를 처음 공부하면 수식이 너무 많아서 각 챕터가 독립된 이야기처럼 느껴진다. ELBO 유도, β 가중, Normalizing Flow의 Jacobian, Amortization gap, IWAE의 단조성 — 이것들이 하나의 맥락 안에 있다는 것을 어떻게 보여줄 수 있을까?
출발점: ELBO는 왜 두 항으로 쪼개지는가
VAE의 목표는 를 최대화하는 것이다. 그런데 는 적분이 닫힌 형태로 풀리지 않는다. 여기서 variational inference가 개입한다.
등호는 일 때, 즉 approximate posterior가 true posterior와 일치할 때 성립한다. 이 gap이 이고, ELBO를 최대화한다는 것은 이 gap을 줄이는 동시에 를 높이는 것이다.
Gaussian prior 와 diagonal Gaussian encoder 를 선택하면 KL 항이 해석해를 갖는다.
이 닫힌 형태가 VAE를 학습 가능하게 만드는 결정적 이유다. Reconstruction 항은 Monte Carlo로, KL 항은 해석해로 — 두 항의 역할이 명확히 분리된다.
유연성의 세 방향 — β-VAE, CVAE, VQ-VAE
표준 VAE를 출발점으로 삼으면, 세 가지 변종이 각각 다른 제약을 풀려는 시도임을 알 수 있다.
β-VAE는 KL 항에 가중치 을 준다.
Alemi et al.(2018)은 이것이 rate-distortion Lagrangian과 동치임을 보였다. 는 “latent가 담을 수 있는 정보량”의 상한을 조절하는 Lagrange multiplier다. 큰 는 각 latent 차원을 독립적이고 interpretable하게 만드는 압력을 가한다. 단, 이면 는 의 lower bound가 아니라 “다른 목적함수의 lower bound”가 된다(Locatello et al. 2019는 unsupervised disentanglement가 inductive bias 없이 불가능함도 증명했다).
CVAE는 label 를 encoder와 decoder 양쪽에 주입해 controllable generation을 가능하게 한다. ELBO는 의 lower bound가 된다. VQ-VAE는 continuous latent를 discrete codebook으로 대체한다. Quantization의 argmin은 미분 불가능하므로 straight-through estimator를 쓴다 — . Forward pass는 를, backward pass는 를 쓴다. 이 discrete token이 transformer의 next-token prediction과 호환되어 DALL-E 계열의 기반이 됐다.
Gaussian encoder의 한계를 넘어 — Normalizing Flow
mean-field Gaussian 는 multimodal이나 skewed posterior를 표현하지 못한다. Normalizing Flow는 이 제약을 정면으로 돌파한다.
역가능 함수 를 순차적으로 적용하면 밀도가 추적 가능하다.
이면 . Chain rule과 의 multiplicativity에서 즉시 따라온다.
문제는 Jacobian의 det 계산이 일반적으로 라는 것이다. Real NVP(Dinh et al. 2017)는 coupling layer로 이 계산을 로 줄인다.
y₁ = z₁
y₂ = z₂ ⊙ exp(s(z₁)) + t(z₁)
Jacobian이 하삼각행렬이 되어 det가 대각 원소의 곱 으로 계산된다. 는 임의의 신경망이어도 되므로 표현력은 유지된다. Flow의 핵심 장점은 exact likelihood 계산이다 — VAE와 Diffusion이 ELBO만 주는 것과 달리.
Flow는 exact likelihood를 주지만 bijection이어야 하므로 차원 변경이 불가능하고, 수십~수백 layer가 필요해 parameter efficiency가 낮다. 이미지 생성은 현재 Diffusion이 우세하고, Flow는 likelihood 정확도가 중요한 niche(anomaly detection, small-dim posterior 근사)에서 강점을 보인다.
공유와 정확도의 딜레마 — Amortization Gap
VAE의 encoder가 하는 일은 각 마다 최적의 를 구하는 대신 하나의 신경망 를 공유해 inference 비용을 상수 시간으로 만드는 것이다. 이것이 amortized inference다.
그런데 공유에는 대가가 따른다.
Approximation gap 는 variational family 자체의 제약 — Gaussian 가 true posterior를 표현하지 못하는 부분이다. Amortization gap 는 encoder NN의 capacity 부족 — 모든 에 공통 파라미터를 쓰는 대가다. Cremer et al.(2018)은 이 gap이 VAE 생성 품질의 주요 제약임을 실증했다.
Semi-amortized VAE(Kim et al. 2018)는 amortized encoder를 초기값으로 쓰고 몇 스텝의 local gradient ascent로 refinement한다. 이 구조는 MAML의 “shared initialization + few-step adaptation”과 철학적으로 동일하다.
Tighter Bound의 수학 — IWAE
IWAE(Burda, Grosse, Salakhutdinov 2016)는 개 샘플로 ELBO를 직접 tight하게 만드는 방법이다.
.
-샘플 평균 는 서로 다른 -샘플 평균들의 평균으로 쓸 수 있다. 의 concavity(Jensen)를 적용하면 . Strong LLN으로 a.s., 수렴율은 .
단, 이 단조성이 항상 더 나은 학습을 의미하지는 않는다. Rainforth et al.(2018)은 가 매우 크면 encoder gradient의 SNR이 로 감소함을 보였다. Decoder는 개선되지만 encoder는 오히려 악화될 수 있다. 실전에서는 이 균형점이고, evaluation 시에만 을 쓴다.
정리
다섯 챕터를 관통하는 단일 질문은 이것이다 — 어떻게 하면 를 더 정확히, 더 효율적으로, 더 유연하게 최대화할 수 있는가?
- ELBO: Jensen gap을 감수하고 tractable lower bound로 대체
- β-VAE / CVAE / VQ-VAE: reconstruction과 regularization의 균형을 목적에 맞게 재조정
- Normalizing Flow: bijective 변환으로 exact likelihood를 달성하되, 차원 제약을 수용
- Amortized Inference: inference 비용을 상수로 만들되, approximation gap과 amortization gap의 합산을 수용
- IWAE: 샘플로 gap을 줄이되, encoder gradient의 SNR 저하를 주의
각 설계 결정은 독립된 아이디어가 아니라 같은 trade-off의 다른 해법이다.