DDPM, Score-SDE, Flow Matching — 현대 생성 모델의 핵심에는 브라운 운동이 있다. 그런데 이 노이즈 과정을 적분하려 하면 즉각 근본적인 문제에 부딪힌다. 리만-스틸체스 적분이 브라운 운동에서는 작동하지 않는다. 왜 그런가? 그리고 이 실패가 이토 적분, 이토 등장성, 마팅게일 성질이라는 일련의 개념을 어떻게 필연적으로 요청하는가?
리만 적분이 실패하는 이유
리만-스틸체스 적분 ∫0THsdg(s)는 g가 유한변동을 가질 때 잘 정의된다. 분할점 τi를 어떻게 고르든 합이 같은 극한으로 수렴하기 때문이다.
브라운 운동 Bt는 이 조건을 만족하지 않는다. 표준 브라운 운동의 전변동(total variation)은 거의 확실하게 무한하다:
V0T(B⋅)=supπ∑i∣Bti+1−Bti∣=∞a.s.
균등 분할을 사용하면 기댓값이 E[Vn]∝2n으로 발산함을 쉽게 보일 수 있다.
결론은 단순하다. 분할점을 왼끝점으로 잡으면 Lπ→21(BT2−T), 중점으로 잡으면 Mπ→21BT2, 오른끝점으로 잡으면 Rπ→21(BT2+T)로 수렴한다. 같은 경로에서 분할 방식만 바꿨는데 세 개의 다른 극한이 나온다. 유일한 “적분값”이 존재하지 않는다.
이 차이의 원인은 이차변분(quadratic variation)이다. 유한변동 함수에서는 (df)2≈0이므로 제곱항을 무시해도 된다. 브라운 운동에서는 (dBt)2≈dt이므로 제곱항을 무시하면 틀린다. 이것이 이토 미적분학의 핵심이다:
⟨B⟩t=lim∥π∥→0∑i(Bti+1−Bti)2=tin L2
단순 과정에서 시작하는 이유
리만 적분이 실패했으니 다른 출발점이 필요하다. 이토 이론은 단순 과정(simple process)에서 시작한다. 단순 과정은 조각별 상수 함수 Hs=Hi for s∈(ti,ti+1]이며, 각 Hi는 Fti-측정가능이다.
이 구조가 핵심이다. Hi가 구간의 왼끝점에서의 과거 정보만 사용하기 때문에, 증분 Bti+1−Bti와 독립이다. 그래서 교차항의 기댓값이 정확히 0이 되고, 다음 등식이 성립한다:
E[(∫0THsdBs)2]=E[∫0THs2ds]
이것이 **이토 등장성(Itô isometry)**이다. 이토 적분이라는 연산자가 Lad2에서 L2(Ω)로의 거리 보존 변환이라는 뜻이다. 음악의 파셰발 정리처럼, 에너지가 적분 전후로 보존된다.
정리 1
· 이토 등장성
H∈Lad2이면:
E[(∫0THsdBs)2]=E[∫0THs2ds]
▷ 증명
단순 과정 H에 대해 I(H)2=∑i,jHiHjΔiBΔjB를 전개한다. i<j일 때, 타워 성질과 브라운 운동의 독립증분으로 E[HiHjΔiBΔjB]=E[HiHjΔiB⋅E[ΔjB∣Ftj]]=0이다. 대각항만 남으면 E[Hi2(ΔiB)2]=E[Hi2]⋅Δit이므로 합이 E[∫Hs2ds]로 수렴한다. 일반 과정은 Lad2 안에서 단순 과정이 조밀(dense)하다는 사실을 이용해 극한으로 확장한다. □
∎
적응성과 L2 확장
단순 과정에서 일반 과정으로 넘어가려면 적응성(adaptedness) 조건이 필요하다. 확률과정 Ht가 Ft-적응이라는 것은, Ht가 시간 t까지의 정보에만 의존한다는 뜻이다. 생성 모델에서 신경망 sθ(x,t)가 “현재와 과거 상태”에만 의존해야 한다는 인과성(causality) 조건의 수학적 표현이다.
단순 과정의 집합 S는 Lad2 공간에서 조밀하다. 따라서 임의의 H∈Lad2에 대해 H(n)→H in Lad2인 단순 과정 수열을 잡으면, 이토 등장성에 의해 I(H(n))은 L2(Ω)에서 Cauchy 수열이 된다. 극한이 수열 선택에 무관하다는 것도 등장성으로 쉽게 보인다. 이렇게 이토 적분이 Lad2 전체로 확장된다.
✎ 인과성 위반의 결과
Diffusion 모델 구현에서 신경망이 배치 내 미래 시점 데이터를 참조하면(데이터 누수), 학습 손실은 0에 가까워지지만 샘플링 단계에서 미래 정보가 없으므로 생성 샘플이 왜곡된다. Lad2 조건은 이 인과성 위반을 수학적으로 금지한다.
마팅게일 성질
이토 적분 Mt:=∫0tHsdBs는 Ft-마팅게일이다. 즉 E[Mt∣Fs]=Ms for s<t.
증명의 핵심은 브라운 운동의 독립증분이다. 구간 [s,t]의 증분 Bt−Bs는 Fs와 독립이므로 기댓값이 0이 되고, 미래 증분의 기여가 사라진다. 결과적으로:
E[Mt]=0,⟨M⟩t=∫0tHs2ds
두 번째 등식에서 ⟨M⟩t는 이차변분이다. (dM)2≈H2dt라는 관계로, 이것이 마팅게일의 “변동성”을 측정한다.
생성 모델에서 마팅게일 성질의 의미는 명확하다. Score-SDE의 역확산 dX=sθ(X,t)dt+σ(t)dBt에서 확률적 항 σ(t)dBt는 마팅게일이므로 기댓값에 기여하지 않는다. 최종 샘플 분포의 정확도는 전적으로 드리프트 항 sθ의 정확도에 달려 있다. 신경망 오류가 있으면 생성 이미지에 체계적 편향이 생긴다.
중점을 사용하는 Stratonovich는 결정론적 미분의 연쇄법칙을 그대로 유지한다. 기하 브라운 운동 dX=μXdt+σXdB (이토)를 Stratonovich로 바꾸면 드리프트가 μ→μ−σ2/2로 보정되고, 이때 logXT가 깔끔하게 정규분포를 따른다는 것을 연쇄법칙 한 줄로 보일 수 있다.
✎ 트레이드오프
이토 적분은 마팅게일 성질을 유지하므로 확률 이론에서 다루기 쉽다. Stratonovich 적분은 연쇄법칙이 결정론적 미분과 동일하므로 물리학·수치해석에서 더 직관적이다. Diffusion 모델의 수학 이론은 이토를 쓰지만, 확률 흐름 ODE(Probability Flow ODE)로 전환하거나 수치 이산화 안정성을 분석할 때는 Stratonovich 변환이 필요하다. 둘 중 “더 옳은” 것은 없다 — 일관되게 하나를 선택하는 것이 중요하다.
정리
브라운 운동은 무한변동이므로 리만-스틸체스 적분이 작동하지 않는다. 분할점 선택에 따라 극한이 달라진다.
이차변분 (dB)2≈dt=0이 이 실패의 수학적 원인이며, 이토 미적분학의 출발점이다.
이토 등장성은 이토 적분을 Lad2→L2(Ω)의 등거리 변환으로 확립하고, 신경망 근사 오차 분석의 기초가 된다.