DDPM, Score-Based Model, Score-SDE, Classifier-Free Guidance — 이 네 챕터는 각각 다른 출발점에서 시작한다. 그러나 끝까지 따라가면 하나의 질문으로 수렴한다. “노이즈를 예측하는 것이 왜 생성 모델이 되는가?”
모든 것의 출발점: Forward Process의 닫힌 형태
확산 모델의 첫 번째 핵심 관찰은 Forward process가 학습되지 않는다는 사실이다. VAE의 인코더는 학습되어 posterior collapse를 일으킬 수 있지만, DDPM의 Forward process는 고정된 Markov chain이다.
q(xt∣xt−1)=N(1−βtxt−1,βtI)
이 설계가 결정적인 이유는 귀납적 합성으로 단일 Gaussian이 도출되기 때문이다.
정리 1
· Closed-Form Forward (DDPM)
αt=1−βt, αˉt=∏s=1tαs로 정의하면:
q(xt∣x0)=N(αˉtx0,(1−αˉt)I)
즉, reparameterization으로 임의 t의 xt를 한 번에 샘플링할 수 있다:
xt=αˉtx0+1−αˉtϵ,ϵ∼N(0,I)
▷ 증명
귀납법. t=1에서 성립. 귀납 가정 q(xt−1∣x0)=N(αˉt−1x0,(1−αˉt−1)I)하에 xt=αtxt−1+βtϵt를 전개하면 두 독립 Gaussian의 합산으로
Var=αt(1−αˉt−1)+βt=1−αˉt□
∎
이 closed-form이 DDPM 학습 효율의 근거다. 1000 step Markov chain을 순서대로 시뮬레이션할 필요 없이, 임의의 t에서 직접 xt를 구성해 학습 신호를 만든다.
노이즈 예측이 역방향 과정으로 환원되는 이유
두 번째 챕터의 핵심 발견은 Lsimple이다. ELBO를 전개하면 각 step의 KL은 다음 형태로 환원된다.
Lt−1=2σt2αt(1−αˉt)βt2⋅E[∥ϵ−ϵθ(xt,t)∥2]
Ho 2020의 핵심 발견은 이 가중치를 무시하는 것이 sample quality를 오히려 향상시킨다는 사실이다.
Lsimple=Et,x0,ϵ[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]
✎ 가중치를 버리는 이유
ELBO 가중치는 small t (고신호 영역)에 학습을 집중시킨다. Lsimple의 균등 가중치는 high-noise step에도 동등한 학습 기회를 준다. FID로 측정되는 perceptual quality는 고노이즈 step의 올바른 denoising에 더 의존한다.
Reverse mean의 parameterization을 전개하면 ϵθ가 왜 자연스러운 학습 목표인지 드러난다.
μθ(xt,t)=αt1(xt−1−αˉtβtϵθ(xt,t))
이 형태는 ground-truth posterior mean μ~t(xt,x0)과 정확히 같은 구조다. NN은 ϵ만 예측하면 되고, 나머지는 schedule에서 파생된다.
Score와 노이즈 예측의 동치
세 번째 챕터(NCSN)는 완전히 다른 출발점에서 출발한다. Score ∇xlogp(x)를 직접 학습하면 partition function 없이 Langevin dynamics로 샘플링할 수 있다.
xt+1=xt+2δsθ(xt)+δzt,zt∼N(0,I)
Denoising Score Matching은 계산 불가능한 divergence항을 피해 Gaussian perturbation의 closed-form score를 학습 목표로 쓴다.