이토 적분은 왜 경로별로 정의할 수 없는가

브라운 운동의 무한변동에서 출발해 이토 등장성, 마팅게일 성질, Stratonovich 변환까지 — 확산 모델의 수학적 기초를 추적한다.

DDPM, Score-SDE, Flow Matching — 현대 생성 모델의 핵심에는 브라운 운동이 있다. 그런데 이 노이즈 과정을 적분하려 하면 즉각 근본적인 문제에 부딪힌다. 리만-스틸체스 적분이 브라운 운동에서는 작동하지 않는다. 왜 그런가? 그리고 이 실패가 이토 적분, 이토 등장성, 마팅게일 성질이라는 일련의 개념을 어떻게 필연적으로 요청하는가?

리만 적분이 실패하는 이유

리만-스틸체스 적분 $\int_0^T H_s \, dg(s)$ 는 $g$ 가 유한변동을 가질 때 잘 정의된다. 분할점 $\tau_i$ 를 어떻게 고르든 합이 같은 극한으로 수렴하기 때문이다.

브라운 운동 $B_t$ 는 이 조건을 만족하지 않는다. 표준 브라운 운동의 전변동(total variation)은 거의 확실하게 무한하다:

$V_0^T(B_\cdot) = \sup_\pi \sum_i |B_{t_{i+1}} - B_{t_i}| = \infty \quad \text{a.s.}$

균등 분할을 사용하면 기댓값이 $\mathbb{E}[V_n] \propto \sqrt{2^n}$ 으로 발산함을 쉽게 보일 수 있다.

결론은 단순하다. 분할점을 왼끝점으로 잡으면 $L_\pi \to \frac{1}{2}(B_T^2 - T)$ , 중점으로 잡으면 $M_\pi \to \frac{1}{2}B_T^2$ , 오른끝점으로 잡으면 $R_\pi \to \frac{1}{2}(B_T^2 + T)$ 로 수렴한다. 같은 경로에서 분할 방식만 바꿨는데 세 개의 다른 극한이 나온다. 유일한 “적분값”이 존재하지 않는다.

이 차이의 원인은 이차변분(quadratic variation)이다. 유한변동 함수에서는 $(df)^2 \approx 0$ 이므로 제곱항을 무시해도 된다. 브라운 운동에서는 $(dB_t)^2 \approx dt$ 이므로 제곱항을 무시하면 틀린다. 이것이 이토 미적분학의 핵심이다:

$\langle B \rangle_t = \lim_{\|\pi\| \to 0} \sum_i (B_{t_{i+1}} - B_{t_i})^2 = t \quad \text{in } L^2$

단순 과정에서 시작하는 이유

리만 적분이 실패했으니 다른 출발점이 필요하다. 이토 이론은 단순 과정(simple process)에서 시작한다. 단순 과정은 조각별 상수 함수 $H_s = H_i$ for $s \in (t_i, t_{i+1}]$ 이며, 각 $H_i$ 는 $\mathcal{F}_{t_i}$ -측정가능이다.

이 구조가 핵심이다. $H_i$ 가 구간의 왼끝점에서의 과거 정보만 사용하기 때문에, 증분 $B_{t_{i+1}} - B_{t_i}$ 와 독립이다. 그래서 교차항의 기댓값이 정확히 0이 되고, 다음 등식이 성립한다:

$\mathbb{E}\left[\left(\int_0^T H_s \, dB_s\right)^2\right] = \mathbb{E}\left[\int_0^T H_s^2 \, ds\right]$

이것이 **이토 등장성(Itô isometry)**이다. 이토 적분이라는 연산자가 $L^2_\text{ad}$ 에서 $L^2(\Omega)$ 로의 거리 보존 변환이라는 뜻이다. 음악의 파셰발 정리처럼, 에너지가 적분 전후로 보존된다.

정리 1 · 이토 등장성

$H \in L^2_\text{ad}$ 이면:

$\mathbb{E}\left[\left(\int_0^T H_s \, dB_s\right)^2\right] = \mathbb{E}\left[\int_0^T H_s^2 \, ds\right]$

▷ 증명

단순 과정 $H$ 에 대해 $I(H)^2 = \sum_{i,j} H_i H_j \Delta_i B \Delta_j B$ 를 전개한다. $i < j$ 일 때, 타워 성질과 브라운 운동의 독립증분으로 $\mathbb{E}[H_i H_j \Delta_i B \Delta_j B] = \mathbb{E}[H_i H_j \Delta_i B \cdot \mathbb{E}[\Delta_j B \mid \mathcal{F}_{t_j}]] = 0$ 이다. 대각항만 남으면 $\mathbb{E}[H_i^2 (\Delta_i B)^2] = \mathbb{E}[H_i^2] \cdot \Delta_i t$ 이므로 합이 $\mathbb{E}[\int H_s^2 \, ds]$ 로 수렴한다. 일반 과정은 $L^2_\text{ad}$ 안에서 단순 과정이 조밀(dense)하다는 사실을 이용해 극한으로 확장한다. $\square$

∎

적응성과 $L^2$ 확장

단순 과정에서 일반 과정으로 넘어가려면 적응성(adaptedness) 조건이 필요하다. 확률과정 $H_t$ 가 $\mathcal{F}_t$ -적응이라는 것은, $H_t$ 가 시간 $t$ 까지의 정보에만 의존한다는 뜻이다. 생성 모델에서 신경망 $s_\theta(x, t)$ 가 “현재와 과거 상태”에만 의존해야 한다는 인과성(causality) 조건의 수학적 표현이다.

단순 과정의 집합 $\mathcal{S}$ 는 $L^2_\text{ad}$ 공간에서 조밀하다. 따라서 임의의 $H \in L^2_\text{ad}$ 에 대해 $H^{(n)} \to H$ in $L^2_\text{ad}$ 인 단순 과정 수열을 잡으면, 이토 등장성에 의해 $I(H^{(n)})$ 은 $L^2(\Omega)$ 에서 Cauchy 수열이 된다. 극한이 수열 선택에 무관하다는 것도 등장성으로 쉽게 보인다. 이렇게 이토 적분이 $L^2_\text{ad}$ 전체로 확장된다.

✎ 인과성 위반의 결과

Diffusion 모델 구현에서 신경망이 배치 내 미래 시점 데이터를 참조하면(데이터 누수), 학습 손실은 0에 가까워지지만 샘플링 단계에서 미래 정보가 없으므로 생성 샘플이 왜곡된다. $L^2_\text{ad}$ 조건은 이 인과성 위반을 수학적으로 금지한다.

마팅게일 성질

이토 적분 $M_t := \int_0^t H_s \, dB_s$ 는 $\mathcal{F}_t$ -마팅게일이다. 즉 $\mathbb{E}[M_t \mid \mathcal{F}_s] = M_s$ for $s < t$ .

증명의 핵심은 브라운 운동의 독립증분이다. 구간 $[s, t]$ 의 증분 $B_t - B_s$ 는 $\mathcal{F}_s$ 와 독립이므로 기댓값이 0이 되고, 미래 증분의 기여가 사라진다. 결과적으로:

$\mathbb{E}[M_t] = 0, \qquad \langle M \rangle_t = \int_0^t H_s^2 \, ds$

두 번째 등식에서 $\langle M \rangle_t$ 는 이차변분이다. $(dM)^2 \approx H^2 \, dt$ 라는 관계로, 이것이 마팅게일의 “변동성”을 측정한다.

생성 모델에서 마팅게일 성질의 의미는 명확하다. Score-SDE의 역확산 $dX = s_\theta(X, t) \, dt + \sigma(t) \, dB_t$ 에서 확률적 항 $\sigma(t) \, dB_t$ 는 마팅게일이므로 기댓값에 기여하지 않는다. 최종 샘플 분포의 정확도는 전적으로 드리프트 항 $s_\theta$ 의 정확도에 달려 있다. 신경망 오류가 있으면 생성 이미지에 체계적 편향이 생긴다.

이토 vs Stratonovich — 어느 것을 선택하는가

이토 적분이 왼끝점을 사용한다면, Stratonovich 적분은 중점을 사용한다:

$\int_0^T H_s \circ dB_s := \lim_{\|\pi\| \to 0} \sum_i \frac{H_{t_i} + H_{t_{i+1}}}{2}(B_{t_{i+1}} - B_{t_i})$

$H_s = f(B_s)$ 처럼 피적분함수가 브라운 운동에 의존할 때 둘은 달라진다:

$\int_0^T f(B_s) \circ dB_s = \int_0^T f(B_s) \, dB_s + \frac{1}{2}\int_0^T f'(B_s) \, ds$

중점을 사용하는 Stratonovich는 결정론적 미분의 연쇄법칙을 그대로 유지한다. 기하 브라운 운동 $dX = \mu X \, dt + \sigma X \, dB$ (이토)를 Stratonovich로 바꾸면 드리프트가 $\mu \to \mu - \sigma^2/2$ 로 보정되고, 이때 $\log X_T$ 가 깔끔하게 정규분포를 따른다는 것을 연쇄법칙 한 줄로 보일 수 있다.

✎ 트레이드오프

이토 적분은 마팅게일 성질을 유지하므로 확률 이론에서 다루기 쉽다. Stratonovich 적분은 연쇄법칙이 결정론적 미분과 동일하므로 물리학·수치해석에서 더 직관적이다. Diffusion 모델의 수학 이론은 이토를 쓰지만, 확률 흐름 ODE(Probability Flow ODE)로 전환하거나 수치 이산화 안정성을 분석할 때는 Stratonovich 변환이 필요하다. 둘 중 “더 옳은” 것은 없다 — 일관되게 하나를 선택하는 것이 중요하다.

정리

브라운 운동은 무한변동이므로 리만-스틸체스 적분이 작동하지 않는다. 분할점 선택에 따라 극한이 달라진다.
이차변분 $(dB)^2 \approx dt \ne 0$ 이 이 실패의 수학적 원인이며, 이토 미적분학의 출발점이다.
이토 등장성은 이토 적분을 $L^2_\text{ad} \to L^2(\Omega)$ 의 등거리 변환으로 확립하고, 신경망 근사 오차 분석의 기초가 된다.
이토 적분은 마팅게일이다 — 기댓값이 0이고, 오차가 평균적으로 누적되지 않는다.
이토와 Straton