확률과정을 정의한다는 것은 무엇인가

sample path, 유한차원 분포, 필트레이션, 정상성 — 확률과정의 네 가지 핵심 언어가 어떻게 하나의 수학적 구조를 이루는지, AI 모델 설계까지 추적한다.

DDPM의 forward process를 “연속시간 마르코프 과정”이라 부를 때, 그 말은 정확히 무엇을 의미하는가? Transformer가 “비마르코프”이고 Mamba가 “마르코프”라는 구분은 어떤 수학적 언어 위에 서 있는가? 확률과정을 단순히 “확률변수들의 나열”로 이해하면 이 질문들에 답할 수 없다.

세 가지 관점, 하나의 대상

확률과정 $\{X_t\}_{t \in T}$ 는 세 가지 동등한 방식으로 볼 수 있다.

관점 A: 각 $t$ 마다 확률변수 $X_t : \Omega \to E$ .

관점 B: 두 변수의 함수 $X : \Omega \times T \to E$ , $(\omega, t) \mapsto X_t(\omega)$ .

관점 C: 함수값 확률변수 $X : \Omega \to E^T$ , 즉 “ $\omega$ 를 고정하면 $T$ 위의 함수 하나”가 나온다. 이 함수를 sample path라 부른다.

관점 A는 단일 시점 분포를 다룰 때 편하다. 관점 B는 $\sup_t X_t$ 나 $\int_0^T X_t dt$ 같은 경로 범함수의 측정가능성을 따를 때 필수다. 관점 C는 “경로 공간 위의 확률측도”를 볼 수 있게 해준다 — Wiener measure가 여기서 산다.

세 관점을 매개하는 것이 **유한차원 분포(fdd)**다.

$\mu_{t_1, \ldots, t_n}(A_1 \times \cdots \times A_n) = \mathbb{P}(X_{t_1} \in A_1, \ldots, X_{t_n} \in A_n)$

fdd 가족은 과정의 분포 정보를 완전히 담지만, 경로의 연속성이나 joint measurability까지는 결정하지 않는다. $X_t \equiv 0$ 과 $Y_t(\omega) = \mathbf{1}_{\{t = \omega\}}$ 는 모든 fdd가 동일하지만, 후자의 각 경로는 하나의 점프를 가진다. 이 두 과정은 modification 관계(각 $t$ 마다 a.s. 일치)이지만 indistinguishable이 아니다(모든 $t$ 에서 동시에 a.s. 일치하지 않는다).

⚠ 연속 경로는 공짜가 아니다

“모든 fdd가 잘 정의된다”는 것과 “sample path가 연속이다”는 독립된 성질이다. Brownian motion의 연속 경로는 정의에서 추가로 요구되는 조건이며, Kolmogorov continuity theorem으로 그 존재를 보장한다.

Kolmogorov 확장정리 — 유한에서 전체로

fdd 가족만 주어졌을 때 과정이 존재하는가? 이 질문이 Kolmogorov 확장정리의 출발점이다.

두 가지 일관성 조건이 필요하다. (C1) 대칭: 인덱스를 permute해도 분포가 같아야 한다. (C2) 주변: 한 인덱스를 잊으면 더 작은 fdd와 일치해야 한다. 이 조건을 만족하는 fdd 가족이 주어지면:

정리 1 · Kolmogorov 확장정리

$(E, \mathcal{E})$ 가 Polish space 위의 Borel $\sigma$ -대수라 하자. 일관성을 만족하는 fdd 가족 $\{\mu_{t_1, \ldots, t_n}\}$ 이 주어지면, $(E^T, \mathcal{E}^{\otimes T})$ 위에 유일한 확률측도 $\mathbb{P}$ 가 존재하여 coordinate 과정 $X_t(\omega) = \omega(t)$ 가 주어진 fdd를 갖는다.

▷ 증명

증명의 핵심은 cylinder set 위에 정의한 premeasure $\mathbb{P}_0$ 가 $\sigma$ -additive임을 보이는 것이다. $C_n \downarrow \emptyset$ 이면 $\mathbb{P}_0(C_n) \downarrow 0$ 이어야 한다. Polish 상태공간이므로 각 marginal이 inner-regular하고(Ulam의 정리), compact approximation을 잡을 수 있다. Tychonoff 정리로 $\prod K_n$ 이 $E^T$ 의 compact set이므로 유한교집합 성질에 의해 $\bigcap C_n \neq \emptyset$ 이라는 모순이 나온다. Polish 가정은 정확히 이 지점에서 쓰인다. $\sigma$ -additive premeasure는 Carathéodory 확장정리로 $\mathcal{E}^{\otimes T}$ 로 유일 확장된다. $\square$

∎

이 정리가 Gaussian Process를 커널만으로 정의할 수 있는 이유이고, Score-SDE의 path measure가 존재한다는 보장이다. 양정치 커널 $k(s, t)$ 는 자동으로 일관성을 만족하는 fdd를 생성하고, Polish 상태공간 $\mathbb{R}$ 에서 Kolmogorov가 과정의 존재를 보증한다.

경로의 연속성은 별도의 정리가 필요하다. $\mathbb{E}[|X_t - X_s|^\alpha] \leq C|t-s|^{1+\beta}$ 가 성립하면 $\gamma < \beta/\alpha$ 인 Hölder 연속 modification이 존재한다(Kolmogorov continuity theorem). BM은 $\mathbb{E}|B_t - B_s|^{2n} = c_n|t-s|^n$ 이므로 “거의 $1/2$ -Hölder”가 이 정리의 귀결이다.

정상성과 필트레이션 — 두 종류의 불변성

정상성은 시간 시프트에 대한 불변성이다. 모든 fdd가 시프트 불변이면 엄격 정상, 평균과 공분산만 불변이면 약 정상이다. 가우시안 과정에서는 두 개념이 일치한다 — fdd가 평균과 공분산으로 완전히 결정되기 때문이다.

필트레이션 $\{\mathcal{F}_t\}$ 는 시간에 따라 누적되는 정보 구조다. “시각 $t$ 까지 알 수 있는 사건”의 $\sigma$ -대수 $\mathcal{F}_t$ 가 단조증가하는 가족. 과정이 $\mathcal{F}_t$ 에 adapted라는 것은 각 $t$ 에서 $X_t$ 가 $\mathcal{F}_t$ -measurable이라는 의미다. Predictable은 더 강한 조건 — $H_t$ 가 ” $t$ 직전까지의 정보”로 결정된다.

이 구분이 이토 적분에서 결정적이다. $\int_0^t H_s dB_s$ 가 마팅게일이 되려면 $H$ 가 predictable이어야 한다:

$\mathbb{E}[H_n(B_n - B_{n-1}) | \mathcal{F}_{n-1}] = H_n \cdot \mathbb{E}[B_n - B_{n-1} | \mathcal{F}_{n-1}] = 0$

$H_n$ 이 $dB_n$ 을 보고 결정된다면(adapted이지만 not predictable) 이 등식이 깨진다. Transformer의 causal mask가 decoder를 adapted로 강제하는 것, DDPM의 score network $s_\theta(X_t, t)$ 가 $X_{t+\delta}$ 를 보지 않는 것 — 모두 이 필트레이션 구조의 직접 응용이다.

분류 지도 — 4개 축의 교차

확률과정은 네 가지 이진 축으로 분류된다: (시간 이산/연속) × (상태 이산/연속) × (마르코프/비마르코프) × (정상/비정상). 각 분면마다 전용 수학적 도구가 있다.

이산 시간 × 이산 상태 × 마르코프:  전이행렬 P, πP = π
연속 시간 × 이산 상태 × 마르코프:  Q-matrix, πQ = 0
이산 시간 × 연속 상태 × 마르코프:  AR(1), DDPM forward
연속 시간 × 연속 상태 × 마르코프:  SDE, Fokker-Planck ∂_t p = L*p
이산/연속 × 연속 상태 × 비마르코프: GP(정상 커널), Transformer

마르코프 성질은 필트레이션 언어로 다음과 같이 쓰인다:

$\mathbb{P}(X_t \in A \mid \mathcal{F}_s) = \mathbb{P}(X_t \in A \mid X_s), \quad s \leq t$

Gaussian process가 마르코프이기 위한 필요충분조건은 공분산 커널이 $k(s,t) = u(\min(s,t)) \cdot v(\max(s,t))$ 형태로 인수분해되는 것이다. RBF 커널 $\exp(-(s-t)^2/2)$ 는 이 조건을 만족하지 않으므로 비마르코프다. 그래서 GP 회귀는 “모든 과거 관찰”에 의존하고, 조건부 분산이 과거 점을 얼마나 추가하느냐에 따라 달라진다.

Transformer와 Mamba의 구분이 여기서 나온다. Self-attention은 모든 과거에 직접 접근하므로 비마르코프, 추론 비용 $O(T^2)$ . Hidden state $h_t$ 를 통한 Mamba는 마르코프, 추론 비용 $O(T)$ . 이는 “AR(∞) vs HMM”의 현대적 버전이다.

✎ 트레이드오프

비마르코프(Transformer): long-range dependency를 직접 포착, 연산 비용 $O(T^2)$ , 긴 문맥에서 메모리 제약.

마르코프(Mamba, RNN): 연산 비용 $O(T)$ , hidden state 차원이 병목, long-range 일부 손실.

정상 과정의 에르고딕 정리(시간평균 = 공간평균)는 MCMC의 이론적 근거이고, 비정상 과정(DDPM, Score-SDE)은 시간 $t$ 를 명시적 조건부 입력으로 받아 비정상성을 처리한다.

정리

확률과정은 “각 시각마다 확률변수”(관점 A)이기도 하고 “sample path라는 함수값 확률변수”(관점 C)이기도 하며, 두 관점은 유한차원 분포가 매개한다.
Kolmogorov 확장정리는 일관성 + Polish 상태공간이 주어지면 경로 측도가 유일하게 존재함을 보장한다. 경로 연속성은 Kolmogorov continuity theorem이 별도로 제공한다.
필트레이션은 시간에 따라 누적되