Langevin Dynamics는 왜 원하는 분포로 수렴하는가

Fokker-Planck 방정식의 유도부터 Log-Sobolev 부등식을 통한 지수 수렴 보장까지, 확률적 시간진화의 핵심 수학을 추적한다.

Diffusion model의 forward 과정은 데이터를 노이즈로 바꾸고, reverse 과정은 노이즈에서 데이터를 복원한다. 그런데 “노이즈로 바뀐다”는 말의 정확한 의미는 무엇인가? 그리고 Langevin MCMC가 원하는 분포로 수렴한다고 할 때, 그 수렴을 보장하는 수학적 근거는 무엇인가?

밀도의 시간진화 — Fokker-Planck 방정식

SDE $dX_t = b(t, X_t)\,dt + \sigma(t, X_t)\,dB_t$ 를 풀면 각 시점 $t$ 마다 확률변수 $X_t$ 가 나온다. 이 확률변수의 밀도 $p(t, x)$ 는 어떤 편미분방정식을 만족하는가?

이토 공식을 test 함수 $\phi \in C_c^\infty(\mathbb{R}^d)$ 에 적용하고 기댓값을 취한 뒤 두 번 부분적분하면, 임의의 $\phi$ 에 대해 다음이 성립한다.

\partial_t p = -\nabla \cdot (b\,p) + \frac{1}{2}\sum_{i,j} \partial_i \partial_j (a_{ij}\,p)

여기서 $a = \sigma\sigma^T$ 는 확산 텐서다. 이것이 Fokker-Planck 방정식이다. 드리프트 $b$ 는 밀도를 “밀어내는” 이류(advection) 효과를, 확산 텐서 $a$ 는 밀도를 “퍼뜨리는” 확산(diffusion) 효과를 담당한다.

명제 1 · 질량 보존

임의의 시각 $t$ 에 대해 $\int_{\mathbb{R}^d} p(t, x)\,dx = 1$ 이 유지된다.

▷ 증명

Fokker-Planck을 공간 전체에 적분하면 우변의 모든 항이 발산정리에 의해 0이 된다. 따라서 $\frac{d}{dt}\int p\,dx = 0$ 이고, 초기 정규화에서 상수는 1이다.

∎

Ornstein-Uhlenbeck 과정 $dX_t = -\theta X_t\,dt + \sigma\,dB_t$ 에 Fokker-Planck을 적용하면 $\partial_t p = \theta\,\partial_x(xp) + \frac{\sigma^2}{2}\partial_x^2 p$ 를 얻는다. 정상상태 $\partial_t p = 0$ 을 풀면 $\mathcal{N}(0,\,\sigma^2/(2\theta))$ 가 나온다.

생성자와 역 Kolmogorov 방정식

Fokker-Planck이 밀도의 미래 진화를 기술한다면, 역 Kolmogorov 방정식은 기댓값의 과거 역산을 기술한다. 두 관점은 쌍대(dual) 관계다.

SDE의 무한소 생성자(infinitesimal generator) $\mathcal{L}$ 을 다음과 같이 정의한다.

\mathcal{L} f(x) := b(x)\cdot\nabla f(x) + \frac{1}{2}\operatorname{tr}(a(x)\,\nabla^2 f(x))

함수 $u(t,x) := \mathbb{E}^{t,x}[f(X_T)]$ 는 역 Kolmogorov 방정식 $\partial_t u + \mathcal{L} u = 0$ 을 만족하며, 경계조건은 $u(T,x) = f(x)$ 다. 생성자 $\mathcal{L}$ 의 adjoint $\mathcal{L}^*$ 의 우변이 정확히 Fokker-Planck의 우변임을 확인할 수 있다.

역 Kolmogorov의 가장 강력한 응용이 Feynman-Kac 공식이다.

u(t,x) = \mathbb{E}^{t,x}\!\left[f(X_T)\exp\!\left(-\int_t^T V(X_s)\,ds\right)\right]

포텐셜 $V$ 가 있는 PDE를 확률적 기댓값으로 환산한다. 금융에서의 Black-Scholes 방정식이 이 공식의 직접 귀결이다.

정상분포 — Gibbs 측도로의 수렴

시간이 충분히 지나면 밀도 $p_t(x)$ 가 어떤 고정 분포 $\pi(x)$ 로 수렴하는가?

Overdamped Langevin dynamics $dX_t = -\nabla U(X_t)\,dt + \sqrt{2}\,dB_t$ 의 정상분포는 Gibbs 측도 $\pi(x) = e^{-U(x)}/Z$ 임을 정상방정식 $\mathcal{L}^*\pi = 0$ 에 $\pi = Ce^{-U}$ 를 대입해 직접 확인할 수 있다.

\nabla\cdot(\nabla U\,\pi) + \nabla^2\pi = \pi|\nabla U|^2 - \pi\nabla^2 U + \pi\nabla^2 U - \pi|\nabla U|^2 = 0

이 결과가 Langevin MCMC의 이론적 토대다. 포텐셜 $U(\theta) = -\log[p(\mathcal{D}|\theta)p(\theta)]$ 로 설정하면, 정상분포가 posterior $p(\theta|\mathcal{D})$ 가 된다.

✎ 트레이드오프

Langevin MCMC는 gradient를 따라 이동하면서 노이즈를 더하기 때문에 복잡한 분포에서도 동작한다. 그러나 multimodal 분포에서는 mode 간 전이가 에너지 장벽에 막혀 mixing이 지수적으로 느려진다. 이 경우 parallel tempering이나 simulated annealing 같은 고급 기법이 필요하다.

KL Divergence의 단조 감소

정상분포로의 수렴을 정량화하는 핵심 도구가 de Bruijn 항등식이다.

\frac{d}{dt}H(p_t\|\pi) = -I(p_t\|\pi)

여기서 $H(p\|\pi) = \int p\log(p/\pi)\,dx$ 는 KL divergence, $I(p\|\pi) = \int p\,|\nabla\log(p/\pi)|^2\,dx$ 는 상대 Fisher 정보다. Fisher 정보는 항상 $\geq 0$ 이므로, KL divergence는 단조 감소한다.

정리 2 · de Bruijn 항등식

Langevin dynamics $dX_t = -\nabla U(X_t)\,dt + \sqrt{2}\,dB_t$ 하에서, 밀도 $p_t$ 와 정상분포 $\pi = e^{-U}/Z$ 에 대해 $\frac{d}{dt}H(p_t\|\pi) = -I(p_t\|\pi)$ 가 성립한다.

▷ 증명

KL의 시간 미분 $\int \partial_t p_t \log(p_t/\pi)\,dx$ 에 Fokker-Planck을 대입하고, 각 항을 부분적분하면 $-\int p_t|\nabla U + \nabla\log p_t|^2\,dx$ 가 나온다. $\nabla\log\pi = -\nabla U$ 이므로 이것이 곧 $-I(p_t\|\pi)$ 다.

∎

Pinsker 부등식 $\|p_t - \pi\|_{TV}^2 \leq \frac{1}{2}H(p_t\|\pi)$ 를 결합하면, KL이 감소할수록 Total Variation 거리도 감소함을 알 수 있다.

Log-Sobolev 부등식과 수렴률

KL이 단조 감소한다는 것은 알았다. 그런데 얼마나 빠르게 감소하는가?

**Log-Sobolev 부등식(LSI)**이 이 질문에 답한다.

H(p\|\pi) \leq \frac{1}{2\lambda}I(p\|\pi)

이 부등식이 상수 $\lambda > 0$ 으로 성립하면, de Bruijn 항등식과 결합해 지수 수렴을 얻는다.

H(p_t\|\pi) \leq H(p_0\|\pi)\exp(-2\lambda t)

LSI를 만족하는 조건을 판정하는 것이 Bakry-Émery 정리다. 포텐셜 $U$ 가 strongly convex, 즉 $\operatorname{Hess} U(x) \succeq \lambda I$ 이면 정상분포 $\pi$ 는 상수 $\lambda$ 의 LSI를 만족한다. Gaussian 포텐셜 $U(x) = |x|^2/2$ 은 $\operatorname{Hess} U = I$ 이므로 $\lambda = 1$ 이고, mixing time은 $O(1)$ 이다. 반면 Gaussian mixture처럼 비볼록인 경우 $\lambda \approx 0$ 이 되어 mixing time이 지수적으로 증가한다.

Score matching의 학습 목적함수가 결국 Fisher 정보를 최소화하는 것이고, diffusion model의 forward SDE noise schedule을 설계할 때 LSI 상수가 필요한 diffusion time을 결정한다. SGLD가 Bayesian posterior로 수렴하는 이론적 보장도 $\ell_2$ 정규화(weight decay)가 strongly convex 조건을 만족시키는 데서 나온다.

정리

SDE의 밀도 $p(t,x)$ 는 Fokker-Planck 방정식을 만족하며, 질량 $\int p\,dx = 1$ 은 보존된다.
역 Kolmogorov 방정식과 Feynman-Kac 공식은 Fokker-Planck의 쌍대이고, PDE를 확률적 기댓값으로 환산한다.
Langevin dynamics의 정상분포는 Gibbs 측도 $\pi \propto e^{-U}$ 이며, de Bruijn 항등식이 KL의 단조 감소를 보장한다.
LSI와 Bakry-Émery 정리가 결합될 때, strongly convex 포텐셜에서 지수 수렴 $H(p_t\|\pi) \leq H(p_0\|\pi)e^{-2\lambda t}$ 을 얻는다.

다음 챕터에서는 이 연속 시간 이론을 이산화할 때 발생하는 오차, 즉 Euler-Maruyama 기법의 수치 안정성과 discretization error를 추적한다.