IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

이토 적분은 왜 경로별로 정의할 수 없는가

브라운 운동의 무한변동에서 출발해 이토 등장성, 마팅게일 성질, Stratonovich 변환까지 — 확산 모델의 수학적 기초를 추적한다.


DDPM, Score-SDE, Flow Matching — 현대 생성 모델의 핵심에는 브라운 운동이 있다. 그런데 이 노이즈 과정을 적분하려 하면 즉각 근본적인 문제에 부딪힌다. 리만-스틸체스 적분이 브라운 운동에서는 작동하지 않는다. 왜 그런가? 그리고 이 실패가 이토 적분, 이토 등장성, 마팅게일 성질이라는 일련의 개념을 어떻게 필연적으로 요청하는가?

리만 적분이 실패하는 이유

리만-스틸체스 적분 0THsdg(s)\int_0^T H_s \, dg(s)gg가 유한변동을 가질 때 잘 정의된다. 분할점 τi\tau_i를 어떻게 고르든 합이 같은 극한으로 수렴하기 때문이다.

브라운 운동 BtB_t는 이 조건을 만족하지 않는다. 표준 브라운 운동의 전변동(total variation)은 거의 확실하게 무한하다:

V0T(B)=supπiBti+1Bti=a.s.V_0^T(B_\cdot) = \sup_\pi \sum_i |B_{t_{i+1}} - B_{t_i}| = \infty \quad \text{a.s.}

균등 분할을 사용하면 기댓값이 E[Vn]2n\mathbb{E}[V_n] \propto \sqrt{2^n}으로 발산함을 쉽게 보일 수 있다.

결론은 단순하다. 분할점을 왼끝점으로 잡으면 Lπ12(BT2T)L_\pi \to \frac{1}{2}(B_T^2 - T), 중점으로 잡으면 Mπ12BT2M_\pi \to \frac{1}{2}B_T^2, 오른끝점으로 잡으면 Rπ12(BT2+T)R_\pi \to \frac{1}{2}(B_T^2 + T)로 수렴한다. 같은 경로에서 분할 방식만 바꿨는데 세 개의 다른 극한이 나온다. 유일한 “적분값”이 존재하지 않는다.

이 차이의 원인은 이차변분(quadratic variation)이다. 유한변동 함수에서는 (df)20(df)^2 \approx 0이므로 제곱항을 무시해도 된다. 브라운 운동에서는 (dBt)2dt(dB_t)^2 \approx dt이므로 제곱항을 무시하면 틀린다. 이것이 이토 미적분학의 핵심이다:

Bt=limπ0i(Bti+1Bti)2=tin L2\langle B \rangle_t = \lim_{\|\pi\| \to 0} \sum_i (B_{t_{i+1}} - B_{t_i})^2 = t \quad \text{in } L^2

단순 과정에서 시작하는 이유

리만 적분이 실패했으니 다른 출발점이 필요하다. 이토 이론은 단순 과정(simple process)에서 시작한다. 단순 과정은 조각별 상수 함수 Hs=HiH_s = H_i for s(ti,ti+1]s \in (t_i, t_{i+1}]이며, 각 HiH_iFti\mathcal{F}_{t_i}-측정가능이다.

이 구조가 핵심이다. HiH_i가 구간의 왼끝점에서의 과거 정보만 사용하기 때문에, 증분 Bti+1BtiB_{t_{i+1}} - B_{t_i}와 독립이다. 그래서 교차항의 기댓값이 정확히 0이 되고, 다음 등식이 성립한다:

E[(0THsdBs)2]=E[0THs2ds]\mathbb{E}\left[\left(\int_0^T H_s \, dB_s\right)^2\right] = \mathbb{E}\left[\int_0^T H_s^2 \, ds\right]

이것이 **이토 등장성(Itô isometry)**이다. 이토 적분이라는 연산자가 Lad2L^2_\text{ad}에서 L2(Ω)L^2(\Omega)로의 거리 보존 변환이라는 뜻이다. 음악의 파셰발 정리처럼, 에너지가 적분 전후로 보존된다.

정리 1 · 이토 등장성

HLad2H \in L^2_\text{ad}이면:

E[(0THsdBs)2]=E[0THs2ds]\mathbb{E}\left[\left(\int_0^T H_s \, dB_s\right)^2\right] = \mathbb{E}\left[\int_0^T H_s^2 \, ds\right]

▷ 증명

단순 과정 HH에 대해 I(H)2=i,jHiHjΔiBΔjBI(H)^2 = \sum_{i,j} H_i H_j \Delta_i B \Delta_j B를 전개한다. i<ji < j일 때, 타워 성질과 브라운 운동의 독립증분으로 E[HiHjΔiBΔjB]=E[HiHjΔiBE[ΔjBFtj]]=0\mathbb{E}[H_i H_j \Delta_i B \Delta_j B] = \mathbb{E}[H_i H_j \Delta_i B \cdot \mathbb{E}[\Delta_j B \mid \mathcal{F}_{t_j}]] = 0이다. 대각항만 남으면 E[Hi2(ΔiB)2]=E[Hi2]Δit\mathbb{E}[H_i^2 (\Delta_i B)^2] = \mathbb{E}[H_i^2] \cdot \Delta_i t이므로 합이 E[Hs2ds]\mathbb{E}[\int H_s^2 \, ds]로 수렴한다. 일반 과정은 Lad2L^2_\text{ad} 안에서 단순 과정이 조밀(dense)하다는 사실을 이용해 극한으로 확장한다. \square

적응성과 L2L^2 확장

단순 과정에서 일반 과정으로 넘어가려면 적응성(adaptedness) 조건이 필요하다. 확률과정 HtH_tFt\mathcal{F}_t-적응이라는 것은, HtH_t가 시간 tt까지의 정보에만 의존한다는 뜻이다. 생성 모델에서 신경망 sθ(x,t)s_\theta(x, t)가 “현재와 과거 상태”에만 의존해야 한다는 인과성(causality) 조건의 수학적 표현이다.

단순 과정의 집합 S\mathcal{S}Lad2L^2_\text{ad} 공간에서 조밀하다. 따라서 임의의 HLad2H \in L^2_\text{ad}에 대해 H(n)HH^{(n)} \to H in Lad2L^2_\text{ad}인 단순 과정 수열을 잡으면, 이토 등장성에 의해 I(H(n))I(H^{(n)})L2(Ω)L^2(\Omega)에서 Cauchy 수열이 된다. 극한이 수열 선택에 무관하다는 것도 등장성으로 쉽게 보인다. 이렇게 이토 적분이 Lad2L^2_\text{ad} 전체로 확장된다.

인과성 위반의 결과

Diffusion 모델 구현에서 신경망이 배치 내 미래 시점 데이터를 참조하면(데이터 누수), 학습 손실은 0에 가까워지지만 샘플링 단계에서 미래 정보가 없으므로 생성 샘플이 왜곡된다. Lad2L^2_\text{ad} 조건은 이 인과성 위반을 수학적으로 금지한다.

마팅게일 성질

이토 적분 Mt:=0tHsdBsM_t := \int_0^t H_s \, dB_sFt\mathcal{F}_t-마팅게일이다. 즉 E[MtFs]=Ms\mathbb{E}[M_t \mid \mathcal{F}_s] = M_s for s<ts < t.

증명의 핵심은 브라운 운동의 독립증분이다. 구간 [s,t][s, t]의 증분 BtBsB_t - B_sFs\mathcal{F}_s와 독립이므로 기댓값이 0이 되고, 미래 증분의 기여가 사라진다. 결과적으로:

E[Mt]=0,Mt=0tHs2ds\mathbb{E}[M_t] = 0, \qquad \langle M \rangle_t = \int_0^t H_s^2 \, ds

두 번째 등식에서 Mt\langle M \rangle_t는 이차변분이다. (dM)2H2dt(dM)^2 \approx H^2 \, dt라는 관계로, 이것이 마팅게일의 “변동성”을 측정한다.

생성 모델에서 마팅게일 성질의 의미는 명확하다. Score-SDE의 역확산 dX=sθ(X,t)dt+σ(t)dBtdX = s_\theta(X, t) \, dt + \sigma(t) \, dB_t에서 확률적 항 σ(t)dBt\sigma(t) \, dB_t는 마팅게일이므로 기댓값에 기여하지 않는다. 최종 샘플 분포의 정확도는 전적으로 드리프트 항 sθs_\theta의 정확도에 달려 있다. 신경망 오류가 있으면 생성 이미지에 체계적 편향이 생긴다.

이토 vs Stratonovich — 어느 것을 선택하는가

이토 적분이 왼끝점을 사용한다면, Stratonovich 적분은 중점을 사용한다:

0THsdBs:=limπ0iHti+Hti+12(Bti+1Bti)\int_0^T H_s \circ dB_s := \lim_{\|\pi\| \to 0} \sum_i \frac{H_{t_i} + H_{t_{i+1}}}{2}(B_{t_{i+1}} - B_{t_i})

Hs=f(Bs)H_s = f(B_s)처럼 피적분함수가 브라운 운동에 의존할 때 둘은 달라진다:

0Tf(Bs)dBs=0Tf(Bs)dBs+120Tf(Bs)ds\int_0^T f(B_s) \circ dB_s = \int_0^T f(B_s) \, dB_s + \frac{1}{2}\int_0^T f'(B_s) \, ds

중점을 사용하는 Stratonovich는 결정론적 미분의 연쇄법칙을 그대로 유지한다. 기하 브라운 운동 dX=μXdt+σXdBdX = \mu X \, dt + \sigma X \, dB (이토)를 Stratonovich로 바꾸면 드리프트가 μμσ2/2\mu \to \mu - \sigma^2/2로 보정되고, 이때 logXT\log X_T가 깔끔하게 정규분포를 따른다는 것을 연쇄법칙 한 줄로 보일 수 있다.

트레이드오프

이토 적분은 마팅게일 성질을 유지하므로 확률 이론에서 다루기 쉽다. Stratonovich 적분은 연쇄법칙이 결정론적 미분과 동일하므로 물리학·수치해석에서 더 직관적이다. Diffusion 모델의 수학 이론은 이토를 쓰지만, 확률 흐름 ODE(Probability Flow ODE)로 전환하거나 수치 이산화 안정성을 분석할 때는 Stratonovich 변환이 필요하다. 둘 중 “더 옳은” 것은 없다 — 일관되게 하나를 선택하는 것이 중요하다.

정리

  • 브라운 운동은 무한변동이므로 리만-스틸체스 적분이 작동하지 않는다. 분할점 선택에 따라 극한이 달라진다.
  • 이차변분 (dB)2dt0(dB)^2 \approx dt \ne 0이 이 실패의 수학적 원인이며, 이토 미적분학의 출발점이다.
  • 이토 등장성은 이토 적분을 Lad2L2(Ω)L^2_\text{ad} \to L^2(\Omega)의 등거리 변환으로 확립하고, 신경망 근사 오차 분석의 기초가 된다.
  • 이토 적분은 마팅게일이다 — 기댓값이 0이고, 오차가 평균적으로 누적되지 않는다.
  • 이토와 Straton