확률과정을 정의한다는 것은 무엇인가
sample path, 유한차원 분포, 필트레이션, 정상성 — 확률과정의 네 가지 핵심 언어가 어떻게 하나의 수학적 구조를 이루는지, AI 모델 설계까지 추적한다.
- 01 확률과정을 정의한다는 것은 무엇인가
- 02 마르코프 체인의 네 가지 얼굴 — 전이행렬에서 에르고딕 정리까지
- 03 Poisson 과정은 왜 세 가지 얼굴을 가지는가
- 04 연속시간 마르코프 체인의 통일 원리 — Q-matrix에서 정상분포까지
- 05 마팅게일은 왜 현대 AI 이론의 언어인가
- 06 브라운 운동은 왜 이토 적분을 강제하는가
- 07 MCMC는 왜 복잡한 분포에서도 작동하는가
DDPM의 forward process를 “연속시간 마르코프 과정”이라 부를 때, 그 말은 정확히 무엇을 의미하는가? Transformer가 “비마르코프”이고 Mamba가 “마르코프”라는 구분은 어떤 수학적 언어 위에 서 있는가? 확률과정을 단순히 “확률변수들의 나열”로 이해하면 이 질문들에 답할 수 없다.
세 가지 관점, 하나의 대상
확률과정 는 세 가지 동등한 방식으로 볼 수 있다.
관점 A: 각 마다 확률변수 .
관점 B: 두 변수의 함수 , .
관점 C: 함수값 확률변수 , 즉 “를 고정하면 위의 함수 하나”가 나온다. 이 함수를 sample path라 부른다.
관점 A는 단일 시점 분포를 다룰 때 편하다. 관점 B는 나 같은 경로 범함수의 측정가능성을 따를 때 필수다. 관점 C는 “경로 공간 위의 확률측도”를 볼 수 있게 해준다 — Wiener measure가 여기서 산다.
세 관점을 매개하는 것이 **유한차원 분포(fdd)**다.
fdd 가족은 과정의 분포 정보를 완전히 담지만, 경로의 연속성이나 joint measurability까지는 결정하지 않는다. 과 는 모든 fdd가 동일하지만, 후자의 각 경로는 하나의 점프를 가진다. 이 두 과정은 modification 관계(각 마다 a.s. 일치)이지만 indistinguishable이 아니다(모든 에서 동시에 a.s. 일치하지 않는다).
“모든 fdd가 잘 정의된다”는 것과 “sample path가 연속이다”는 독립된 성질이다. Brownian motion의 연속 경로는 정의에서 추가로 요구되는 조건이며, Kolmogorov continuity theorem으로 그 존재를 보장한다.
Kolmogorov 확장정리 — 유한에서 전체로
fdd 가족만 주어졌을 때 과정이 존재하는가? 이 질문이 Kolmogorov 확장정리의 출발점이다.
두 가지 일관성 조건이 필요하다. (C1) 대칭: 인덱스를 permute해도 분포가 같아야 한다. (C2) 주변: 한 인덱스를 잊으면 더 작은 fdd와 일치해야 한다. 이 조건을 만족하는 fdd 가족이 주어지면:
가 Polish space 위의 Borel -대수라 하자. 일관성을 만족하는 fdd 가족 이 주어지면, 위에 유일한 확률측도 가 존재하여 coordinate 과정 가 주어진 fdd를 갖는다.
증명의 핵심은 cylinder set 위에 정의한 premeasure 가 -additive임을 보이는 것이다. 이면 이어야 한다. Polish 상태공간이므로 각 marginal이 inner-regular하고(Ulam의 정리), compact approximation을 잡을 수 있다. Tychonoff 정리로 이 의 compact set이므로 유한교집합 성질에 의해 이라는 모순이 나온다. Polish 가정은 정확히 이 지점에서 쓰인다. -additive premeasure는 Carathéodory 확장정리로 로 유일 확장된다.
이 정리가 Gaussian Process를 커널만으로 정의할 수 있는 이유이고, Score-SDE의 path measure가 존재한다는 보장이다. 양정치 커널 는 자동으로 일관성을 만족하는 fdd를 생성하고, Polish 상태공간 에서 Kolmogorov가 과정의 존재를 보증한다.
경로의 연속성은 별도의 정리가 필요하다. 가 성립하면 인 Hölder 연속 modification이 존재한다(Kolmogorov continuity theorem). BM은 이므로 “거의 -Hölder”가 이 정리의 귀결이다.
정상성과 필트레이션 — 두 종류의 불변성
정상성은 시간 시프트에 대한 불변성이다. 모든 fdd가 시프트 불변이면 엄격 정상, 평균과 공분산만 불변이면 약 정상이다. 가우시안 과정에서는 두 개념이 일치한다 — fdd가 평균과 공분산으로 완전히 결정되기 때문이다.
필트레이션 는 시간에 따라 누적되는 정보 구조다. “시각 까지 알 수 있는 사건”의 -대수 가 단조증가하는 가족. 과정이 에 adapted라는 것은 각 에서 가 -measurable이라는 의미다. Predictable은 더 강한 조건 — 가 ” 직전까지의 정보”로 결정된다.
이 구분이 이토 적분에서 결정적이다. 가 마팅게일이 되려면 가 predictable이어야 한다:
이 을 보고 결정된다면(adapted이지만 not predictable) 이 등식이 깨진다. Transformer의 causal mask가 decoder를 adapted로 강제하는 것, DDPM의 score network 가 를 보지 않는 것 — 모두 이 필트레이션 구조의 직접 응용이다.
분류 지도 — 4개 축의 교차
확률과정은 네 가지 이진 축으로 분류된다: (시간 이산/연속) × (상태 이산/연속) × (마르코프/비마르코프) × (정상/비정상). 각 분면마다 전용 수학적 도구가 있다.
이산 시간 × 이산 상태 × 마르코프: 전이행렬 P, πP = π
연속 시간 × 이산 상태 × 마르코프: Q-matrix, πQ = 0
이산 시간 × 연속 상태 × 마르코프: AR(1), DDPM forward
연속 시간 × 연속 상태 × 마르코프: SDE, Fokker-Planck ∂_t p = L*p
이산/연속 × 연속 상태 × 비마르코프: GP(정상 커널), Transformer
마르코프 성질은 필트레이션 언어로 다음과 같이 쓰인다:
Gaussian process가 마르코프이기 위한 필요충분조건은 공분산 커널이 형태로 인수분해되는 것이다. RBF 커널 는 이 조건을 만족하지 않으므로 비마르코프다. 그래서 GP 회귀는 “모든 과거 관찰”에 의존하고, 조건부 분산이 과거 점을 얼마나 추가하느냐에 따라 달라진다.
Transformer와 Mamba의 구분이 여기서 나온다. Self-attention은 모든 과거에 직접 접근하므로 비마르코프, 추론 비용 . Hidden state 를 통한 Mamba는 마르코프, 추론 비용 . 이는 “AR(∞) vs HMM”의 현대적 버전이다.
비마르코프(Transformer): long-range dependency를 직접 포착, 연산 비용 , 긴 문맥에서 메모리 제약.
마르코프(Mamba, RNN): 연산 비용 , hidden state 차원이 병목, long-range 일부 손실.
정상 과정의 에르고딕 정리(시간평균 = 공간평균)는 MCMC의 이론적 근거이고, 비정상 과정(DDPM, Score-SDE)은 시간 를 명시적 조건부 입력으로 받아 비정상성을 처리한다.
정리
- 확률과정은 “각 시각마다 확률변수”(관점 A)이기도 하고 “sample path라는 함수값 확률변수”(관점 C)이기도 하며, 두 관점은 유한차원 분포가 매개한다.
- Kolmogorov 확장정리는 일관성 + Polish 상태공간이 주어지면 경로 측도가 유일하게 존재함을 보장한다. 경로 연속성은 Kolmogorov continuity theorem이 별도로 제공한다.
- 필트레이션은 시간에 따라 누적되