Diffusion model의 forward 과정은 데이터를 노이즈로 바꾸고, reverse 과정은 노이즈에서 데이터를 복원한다. 그런데 “노이즈로 바뀐다”는 말의 정확한 의미는 무엇인가? 그리고 Langevin MCMC가 원하는 분포로 수렴한다고 할 때, 그 수렴을 보장하는 수학적 근거는 무엇인가?
밀도의 시간진화 — Fokker-Planck 방정식
SDE dXt=b(t,Xt)dt+σ(t,Xt)dBt를 풀면 각 시점 t마다 확률변수 Xt가 나온다. 이 확률변수의 밀도 p(t,x)는 어떤 편미분방정식을 만족하는가?
이토 공식을 test 함수 ϕ∈Cc∞(Rd)에 적용하고 기댓값을 취한 뒤 두 번 부분적분하면, 임의의 ϕ에 대해 다음이 성립한다.
∂tp=−∇⋅(bp)+21i,j∑∂i∂j(aijp)
여기서 a=σσT는 확산 텐서다. 이것이 Fokker-Planck 방정식이다. 드리프트 b는 밀도를 “밀어내는” 이류(advection) 효과를, 확산 텐서 a는 밀도를 “퍼뜨리는” 확산(diffusion) 효과를 담당한다.
명제 1
· 질량 보존
임의의 시각 t에 대해 ∫Rdp(t,x)dx=1이 유지된다.
▷ 증명
Fokker-Planck을 공간 전체에 적분하면 우변의 모든 항이 발산정리에 의해 0이 된다. 따라서 dtd∫pdx=0이고, 초기 정규화에서 상수는 1이다.
∎
Ornstein-Uhlenbeck 과정 dXt=−θXtdt+σdBt에 Fokker-Planck을 적용하면 ∂tp=θ∂x(xp)+2σ2∂x2p를 얻는다. 정상상태 ∂tp=0을 풀면 N(0,σ2/(2θ))가 나온다.
생성자와 역 Kolmogorov 방정식
Fokker-Planck이 밀도의 미래 진화를 기술한다면, 역 Kolmogorov 방정식은 기댓값의 과거 역산을 기술한다. 두 관점은 쌍대(dual) 관계다.
SDE의 무한소 생성자(infinitesimal generator)L을 다음과 같이 정의한다.
Lf(x):=b(x)⋅∇f(x)+21tr(a(x)∇2f(x))
함수 u(t,x):=Et,x[f(XT)]는 역 Kolmogorov 방정식 ∂tu+Lu=0을 만족하며, 경계조건은 u(T,x)=f(x)다. 생성자 L의 adjoint L∗의 우변이 정확히 Fokker-Planck의 우변임을 확인할 수 있다.
역 Kolmogorov의 가장 강력한 응용이 Feynman-Kac 공식이다.
u(t,x)=Et,x[f(XT)exp(−∫tTV(Xs)ds)]
포텐셜 V가 있는 PDE를 확률적 기댓값으로 환산한다. 금융에서의 Black-Scholes 방정식이 이 공식의 직접 귀결이다.
정상분포 — Gibbs 측도로의 수렴
시간이 충분히 지나면 밀도 pt(x)가 어떤 고정 분포 π(x)로 수렴하는가?
Overdamped Langevin dynamics dXt=−∇U(Xt)dt+2dBt의 정상분포는 Gibbs 측도π(x)=e−U(x)/Z임을 정상방정식 L∗π=0에 π=Ce−U를 대입해 직접 확인할 수 있다.
∇⋅(∇Uπ)+∇2π=π∣∇U∣2−π∇2U+π∇2U−π∣∇U∣2=0
이 결과가 Langevin MCMC의 이론적 토대다. 포텐셜 U(θ)=−log[p(D∣θ)p(θ)]로 설정하면, 정상분포가 posterior p(θ∣D)가 된다.
✎ 트레이드오프
Langevin MCMC는 gradient를 따라 이동하면서 노이즈를 더하기 때문에 복잡한 분포에서도 동작한다. 그러나 multimodal 분포에서는 mode 간 전이가 에너지 장벽에 막혀 mixing이 지수적으로 느려진다. 이 경우 parallel tempering이나 simulated annealing 같은 고급 기법이 필요하다.
KL Divergence의 단조 감소
정상분포로의 수렴을 정량화하는 핵심 도구가 de Bruijn 항등식이다.
dtdH(pt∥π)=−I(pt∥π)
여기서 H(p∥π)=∫plog(p/π)dx는 KL divergence, I(p∥π)=∫p∣∇log(p/π)∣2dx는 상대 Fisher 정보다. Fisher 정보는 항상 ≥0이므로, KL divergence는 단조 감소한다.
정리 2
· de Bruijn 항등식
Langevin dynamics dXt=−∇U(Xt)dt+2dBt 하에서, 밀도 pt와 정상분포 π=e−U/Z에 대해 dtdH(pt∥π)=−I(pt∥π)가 성립한다.
▷ 증명
KL의 시간 미분 ∫∂tptlog(pt/π)dx에 Fokker-Planck을 대입하고, 각 항을 부분적분하면 −∫pt∣∇U+∇logpt∣2dx가 나온다. ∇logπ=−∇U이므로 이것이 곧 −I(pt∥π)다.
∎
Pinsker 부등식 ∥pt−π∥TV2≤21H(pt∥π)를 결합하면, KL이 감소할수록 Total Variation 거리도 감소함을 알 수 있다.
Log-Sobolev 부등식과 수렴률
KL이 단조 감소한다는 것은 알았다. 그런데 얼마나 빠르게 감소하는가?
**Log-Sobolev 부등식(LSI)**이 이 질문에 답한다.
H(p∥π)≤2λ1I(p∥π)
이 부등식이 상수 λ>0으로 성립하면, de Bruijn 항등식과 결합해 지수 수렴을 얻는다.
H(pt∥π)≤H(p0∥π)exp(−2λt)
LSI를 만족하는 조건을 판정하는 것이 Bakry-Émery 정리다. 포텐셜 U가 strongly convex, 즉 HessU(x)⪰λI이면 정상분포 π는 상수 λ의 LSI를 만족한다. Gaussian 포텐셜 U(x)=∣x∣2/2은 HessU=I이므로 λ=1이고, mixing time은 O(1)이다. 반면 Gaussian mixture처럼 비볼록인 경우 λ≈0이 되어 mixing time이 지수적으로 증가한다.
Score matching의 학습 목적함수가 결국 Fisher 정보를 최소화하는 것이고, diffusion model의 forward SDE noise schedule을 설계할 때 LSI 상수가 필요한 diffusion time을 결정한다. SGLD가 Bayesian posterior로 수렴하는 이론적 보장도 ℓ2 정규화(weight decay)가 strongly convex 조건을 만족시키는 데서 나온다.
정리
SDE의 밀도 p(t,x)는 Fokker-Planck 방정식을 만족하며, 질량 ∫pdx=1은 보존된다.