증명의 핵심은 Fokker-Planck 방정식의 시간 대칭이다. Forward의 FP 방정식을 τ=T−t로 치환하면 Reverse SDE의 FP 방정식과 일치하려면 drift에 정확히 score 보정항이 필요하다는 것이 부분적분으로 유도된다.
✎ 왜 score가 나타나는가
역방향 drift는 forward drift의 단순 반대가 아니다. “현재 시점의 확률밀도가 어느 방향으로 증가하는가” — 이 정보(score)를 더해야 확률질량 보존이 성립한다. 이것이 Anderson 정리의 물리적 직관이다.
Tweedie: Score와 Denoising의 등가
Score를 안다면 denoising도 공짜로 따라온다. Y=X+σZ (Z∼N(0,I), X∼p)일 때, Bayes optimal 추정기는 다음과 같다.
E[X∣Y=y]=y+σ2∇logpY(y)
증명은 ∇ypY(y)=∫p(x)σ2y−xϕσ(y−x)dx임을 이용해 score를 posterior 기댓값으로 표현하는 것이다. 결론: score × 노이즈 분산 만큼 관측값을 보정하면 posterior mean이 된다.
이 공식은 DDPM 손실의 기원이다. xt=αtx0+σtϵ로 재매개변수화하면 조건부 score는 −ϵ/σt이고, ϵθ를 학습하는 것은 곧 score를 학습하는 것이다.
Score Matching: p(x) 없이 Score 배우기
문제는 역설이다. ∇logp(x)를 학습하려면 p(x)가 필요하고, p(x)는 데이터에서 알 수 없다.
Hyvärinen (2005)의 등가 변환이 이를 해결한다. 원래 손실
JSM(θ)=21Ep[∥sθ−∇logp∥2]
을 전개하면 p 무관 상수항과, 부분적분으로 변환 가능한 교차항이 남는다. 결과:
JSMHyv(θ)=Ep[21∥sθ∥2+tr(∇xsθ)]
p(x) 자체 없이 Jacobian 대각합만으로 score를 학습할 수 있다. 단, 비용이 O(d) — 고차원에서 병목이 된다.
명제 1
· Hyvärinen 등가
sθ와 p가 충분히 정칙이고 경계 소실 조건이 성립하면, JSM(θ)와 JSMHyv(θ)는 θ에 무관한 상수만큼 차이난다. 따라서 최적점이 동일하다.
▷ 증명
∥a−b∥2=∥a∥2−2a⋅b+∥b∥2로 전개 후, ∥b∥2=∥∇logp∥2 항을 상수로 드롭한다. 교차항 Ep[sθ⋅∇logp]=∫sθ⋅∇pdx를 성분별 부분적분하면 −Ep[tr(∇sθ)]가 된다. 부호를 정리하면 JSMHyv와 상수 차이만 남는다. □
∎
Denoising Score Matching: Trace를 제거한다
고차원에서 O(d) trace 계산은 현실적으로 불가능하다. Vincent (2011)의 Denoising Score Matching (DSM)은 이를 우회한다. Perturbed distribution pσ(x~)=∫p(x)ϕσ(x~−x)dx에서 조건부 score는 명시적으로 알려져 있다.
∇x~logq(x~∣x)=−σ2x~−x
DSM 손실:
JDSM(θ)=21Ex∼p,x~∼q(⋅∣x)[sθ(x~)+σ2x~−x2]
명제 2
· DSM-ESM 동등성
DSM과 perturbed distribution 위의 ESM (Explicit Score Matching)은 θ 무관 상수 차이만 있다.
▷ 증명
Bayes 정리로 ∇logpσ(x~)=Ep(x∣x~)[∇logq(x~∣x)]임을 보인다. 이를 ESM 손실에 대입하면 교차항이 DSM 교차항과 일치한다. 나머지 항은 θ 무관. □
∎
비용은 O(1) — Jacobian 계산이 완전히 불필요하다. DDPM의 ϵ 예측 손실이 DSM의 σt2-weighted 버전임을 재매개변수화로 확인할 수 있다.
VP/VE-SDE: 연속 시간 통합
Song et al. (2021)은 이산 DDPM을 연속 시간으로 일반화한다. Variance Preserving (VP) SDE는
dXt=−21β(t)Xtdt+β(t)dBt
이고 marginal은 Xt∣X0∼N(α(t)X0,[1−α(t)2]I), α(t)=exp(−∫0tβ(s)/2ds)이다. Euler-Maruyama 이산화를 쓰면 Xk+1≈1−βkXk+βkZk로, 이것이 정확히 DDPM 한 스텝이다.
Variance Exploding (VE) SDE는 drift 없이 dXt=dσ2(t)/dtdBt로 분산을 폭발시킨다. 이 둘은 같은 Anderson-역방향 프레임워크 아래 통합된다 — reverse SDE에서 b와 σ만 달라질 뿐, score가 역방향을 결정하는 구조는 동일하다.
✎ 트레이드오프
VP는 분산이 제어되어 학습이 안정적이나 schedule 설계가 민감하다. VE는 극단적 노이즈 덕분에 score가 어디서나 잘 정의되지만 수치적으로 불안정할 수 있다. 연속 시간 프레임워크의 이점은 ODE solver (DPM-Solver, DDIM)로 스텝 수를 1000 → 20으로 줄여도 수렴이 보장된다는 것이다.
정리
Anderson 정리: Forward SDE의 역방향 drift는 score ∇logpt에 의해 유일하게 결정된다.
Tweedie 공식: score를 알면 posterior mean (denoising)이 공짜다. DDPM ϵ-예측은 이것의 재매개변수화다.
Score Matching (Hyvärinen): p 없이 trace만으로 score 학습 가능. 고차원에서 O(d) 병목.