IQ Lab
← all posts
AI 2026.04.28 · 14 min read Advanced

확률과정을 정의한다는 것은 무엇인가

sample path, 유한차원 분포, 필트레이션, 정상성 — 확률과정의 네 가지 핵심 언어가 어떻게 하나의 수학적 구조를 이루는지, AI 모델 설계까지 추적한다.


DDPM의 forward process를 “연속시간 마르코프 과정”이라 부를 때, 그 말은 정확히 무엇을 의미하는가? Transformer가 “비마르코프”이고 Mamba가 “마르코프”라는 구분은 어떤 수학적 언어 위에 서 있는가? 확률과정을 단순히 “확률변수들의 나열”로 이해하면 이 질문들에 답할 수 없다.

세 가지 관점, 하나의 대상

확률과정 {Xt}tT\{X_t\}_{t \in T}는 세 가지 동등한 방식으로 볼 수 있다.

관점 A: 각 tt마다 확률변수 Xt:ΩEX_t : \Omega \to E.

관점 B: 두 변수의 함수 X:Ω×TEX : \Omega \times T \to E, (ω,t)Xt(ω)(\omega, t) \mapsto X_t(\omega).

관점 C: 함수값 확률변수 X:ΩETX : \Omega \to E^T, 즉 “ω\omega를 고정하면 TT 위의 함수 하나”가 나온다. 이 함수를 sample path라 부른다.

관점 A는 단일 시점 분포를 다룰 때 편하다. 관점 B는 suptXt\sup_t X_t0TXtdt\int_0^T X_t dt 같은 경로 범함수의 측정가능성을 따를 때 필수다. 관점 C는 “경로 공간 위의 확률측도”를 볼 수 있게 해준다 — Wiener measure가 여기서 산다.

세 관점을 매개하는 것이 **유한차원 분포(fdd)**다.

μt1,,tn(A1××An)=P(Xt1A1,,XtnAn)\mu_{t_1, \ldots, t_n}(A_1 \times \cdots \times A_n) = \mathbb{P}(X_{t_1} \in A_1, \ldots, X_{t_n} \in A_n)

fdd 가족은 과정의 분포 정보를 완전히 담지만, 경로의 연속성이나 joint measurability까지는 결정하지 않는다. Xt0X_t \equiv 0Yt(ω)=1{t=ω}Y_t(\omega) = \mathbf{1}_{\{t = \omega\}}는 모든 fdd가 동일하지만, 후자의 각 경로는 하나의 점프를 가진다. 이 두 과정은 modification 관계(각 tt마다 a.s. 일치)이지만 indistinguishable이 아니다(모든 tt에서 동시에 a.s. 일치하지 않는다).

연속 경로는 공짜가 아니다

“모든 fdd가 잘 정의된다”는 것과 “sample path가 연속이다”는 독립된 성질이다. Brownian motion의 연속 경로는 정의에서 추가로 요구되는 조건이며, Kolmogorov continuity theorem으로 그 존재를 보장한다.

Kolmogorov 확장정리 — 유한에서 전체로

fdd 가족만 주어졌을 때 과정이 존재하는가? 이 질문이 Kolmogorov 확장정리의 출발점이다.

두 가지 일관성 조건이 필요하다. (C1) 대칭: 인덱스를 permute해도 분포가 같아야 한다. (C2) 주변: 한 인덱스를 잊으면 더 작은 fdd와 일치해야 한다. 이 조건을 만족하는 fdd 가족이 주어지면:

정리 1 · Kolmogorov 확장정리

(E,E)(E, \mathcal{E})가 Polish space 위의 Borel σ\sigma-대수라 하자. 일관성을 만족하는 fdd 가족 {μt1,,tn}\{\mu_{t_1, \ldots, t_n}\}이 주어지면, (ET,ET)(E^T, \mathcal{E}^{\otimes T}) 위에 유일한 확률측도 P\mathbb{P}가 존재하여 coordinate 과정 Xt(ω)=ω(t)X_t(\omega) = \omega(t)가 주어진 fdd를 갖는다.

▷ 증명

증명의 핵심은 cylinder set 위에 정의한 premeasure P0\mathbb{P}_0σ\sigma-additive임을 보이는 것이다. CnC_n \downarrow \emptyset이면 P0(Cn)0\mathbb{P}_0(C_n) \downarrow 0이어야 한다. Polish 상태공간이므로 각 marginal이 inner-regular하고(Ulam의 정리), compact approximation을 잡을 수 있다. Tychonoff 정리로 Kn\prod K_nETE^T의 compact set이므로 유한교집합 성질에 의해 Cn\bigcap C_n \neq \emptyset이라는 모순이 나온다. Polish 가정은 정확히 이 지점에서 쓰인다. σ\sigma-additive premeasure는 Carathéodory 확장정리로 ET\mathcal{E}^{\otimes T}로 유일 확장된다. \square

이 정리가 Gaussian Process를 커널만으로 정의할 수 있는 이유이고, Score-SDE의 path measure가 존재한다는 보장이다. 양정치 커널 k(s,t)k(s, t)는 자동으로 일관성을 만족하는 fdd를 생성하고, Polish 상태공간 R\mathbb{R}에서 Kolmogorov가 과정의 존재를 보증한다.

경로의 연속성은 별도의 정리가 필요하다. E[XtXsα]Cts1+β\mathbb{E}[|X_t - X_s|^\alpha] \leq C|t-s|^{1+\beta}가 성립하면 γ<β/α\gamma < \beta/\alpha인 Hölder 연속 modification이 존재한다(Kolmogorov continuity theorem). BM은 EBtBs2n=cntsn\mathbb{E}|B_t - B_s|^{2n} = c_n|t-s|^n이므로 “거의 1/21/2-Hölder”가 이 정리의 귀결이다.

정상성과 필트레이션 — 두 종류의 불변성

정상성은 시간 시프트에 대한 불변성이다. 모든 fdd가 시프트 불변이면 엄격 정상, 평균과 공분산만 불변이면 약 정상이다. 가우시안 과정에서는 두 개념이 일치한다 — fdd가 평균과 공분산으로 완전히 결정되기 때문이다.

필트레이션 {Ft}\{\mathcal{F}_t\}는 시간에 따라 누적되는 정보 구조다. “시각 tt까지 알 수 있는 사건”의 σ\sigma-대수 Ft\mathcal{F}_t가 단조증가하는 가족. 과정이 Ft\mathcal{F}_tadapted라는 것은 각 tt에서 XtX_tFt\mathcal{F}_t-measurable이라는 의미다. Predictable은 더 강한 조건 — HtH_t가 ”tt 직전까지의 정보”로 결정된다.

이 구분이 이토 적분에서 결정적이다. 0tHsdBs\int_0^t H_s dB_s가 마팅게일이 되려면 HH가 predictable이어야 한다:

E[Hn(BnBn1)Fn1]=HnE[BnBn1Fn1]=0\mathbb{E}[H_n(B_n - B_{n-1}) | \mathcal{F}_{n-1}] = H_n \cdot \mathbb{E}[B_n - B_{n-1} | \mathcal{F}_{n-1}] = 0

HnH_ndBndB_n을 보고 결정된다면(adapted이지만 not predictable) 이 등식이 깨진다. Transformer의 causal mask가 decoder를 adapted로 강제하는 것, DDPM의 score network sθ(Xt,t)s_\theta(X_t, t)Xt+δX_{t+\delta}를 보지 않는 것 — 모두 이 필트레이션 구조의 직접 응용이다.

분류 지도 — 4개 축의 교차

확률과정은 네 가지 이진 축으로 분류된다: (시간 이산/연속) × (상태 이산/연속) × (마르코프/비마르코프) × (정상/비정상). 각 분면마다 전용 수학적 도구가 있다.

이산 시간 × 이산 상태 × 마르코프:  전이행렬 P, πP = π
연속 시간 × 이산 상태 × 마르코프:  Q-matrix, πQ = 0
이산 시간 × 연속 상태 × 마르코프:  AR(1), DDPM forward
연속 시간 × 연속 상태 × 마르코프:  SDE, Fokker-Planck ∂_t p = L*p
이산/연속 × 연속 상태 × 비마르코프: GP(정상 커널), Transformer

마르코프 성질은 필트레이션 언어로 다음과 같이 쓰인다:

P(XtAFs)=P(XtAXs),st\mathbb{P}(X_t \in A \mid \mathcal{F}_s) = \mathbb{P}(X_t \in A \mid X_s), \quad s \leq t

Gaussian process가 마르코프이기 위한 필요충분조건은 공분산 커널이 k(s,t)=u(min(s,t))v(max(s,t))k(s,t) = u(\min(s,t)) \cdot v(\max(s,t)) 형태로 인수분해되는 것이다. RBF 커널 exp((st)2/2)\exp(-(s-t)^2/2)는 이 조건을 만족하지 않으므로 비마르코프다. 그래서 GP 회귀는 “모든 과거 관찰”에 의존하고, 조건부 분산이 과거 점을 얼마나 추가하느냐에 따라 달라진다.

Transformer와 Mamba의 구분이 여기서 나온다. Self-attention은 모든 과거에 직접 접근하므로 비마르코프, 추론 비용 O(T2)O(T^2). Hidden state hth_t를 통한 Mamba는 마르코프, 추론 비용 O(T)O(T). 이는 “AR(∞) vs HMM”의 현대적 버전이다.

트레이드오프

비마르코프(Transformer): long-range dependency를 직접 포착, 연산 비용 O(T2)O(T^2), 긴 문맥에서 메모리 제약.

마르코프(Mamba, RNN): 연산 비용 O(T)O(T), hidden state 차원이 병목, long-range 일부 손실.

정상 과정의 에르고딕 정리(시간평균 = 공간평균)는 MCMC의 이론적 근거이고, 비정상 과정(DDPM, Score-SDE)은 시간 tt를 명시적 조건부 입력으로 받아 비정상성을 처리한다.

정리

  • 확률과정은 “각 시각마다 확률변수”(관점 A)이기도 하고 “sample path라는 함수값 확률변수”(관점 C)이기도 하며, 두 관점은 유한차원 분포가 매개한다.
  • Kolmogorov 확장정리는 일관성 + Polish 상태공간이 주어지면 경로 측도가 유일하게 존재함을 보장한다. 경로 연속성은 Kolmogorov continuity theorem이 별도로 제공한다.
  • 필트레이션은 시간에 따라 누적되