ML의 모든 손실함수는 기댓값이다. L(θ)=E(x,y)∼D[ℓ(fθ(x),y)]. 회귀든 분류든, VAE의 ELBO든 RL의 가치함수든, 형태만 다를 뿐 구조는 같다. 그렇다면 이 “기댓값”이라는 개념은 이산 데이터와 연속 데이터를 어떻게 동시에 품는가? 그리고 KL divergence가 0 이상이고 ELBO가 하한이라는 사실은 어디서 오는가?
기댓값의 단일 정의
고등학교에서는 이산과 연속을 따로 배운다.
E[X]=i∑xipi(이산),E[X]=∫xf(x)dx(연속)
그런데 실제 ML 데이터는 이 둘의 혼합이다. 픽셀값은 연속처럼 보이지만 8비트 정수다. 레이블은 이산이다. 측도론은 이 두 식을 하나로 통합한다.
E[X]:=∫ΩX(ω)dP(ω)
이 르베그 적분 정의에서 이산 케이스는 X=∑ixi1{X=xi}로 쓴 단순함수의 적분이고, 연속 케이스는 Radon-Nikodym 도함수 dPX=fXdm을 적용한 결과다. 형식이 다른 두 식이 사실 같은 정의의 두 얼굴이다.
✎ Cauchy 분포의 경고
PDF가 존재하고 대칭이어도 기댓값이 정의되지 않을 수 있다. Cauchy 분포 f(x)=1/[π(1+x2)]에서 ∫0∞x/(1+x2)dx=∞이므로 E[∣X∣]=∞. X∈/L1이라 기댓값 자체가 정의되지 않는다. “대칭이니까 0이겠지”라는 추측은 틀렸다.
이 정의가 실용적으로 중요한 이유는 Lp 공간의 위계를 만들기 때문이다. L1이면 기댓값이 존재하고, L2이면 분산이 유한하다. ML 모델을 분석할 때 “이 분포가 L2에 있는가”라는 질문은 “분산이 유한한가”와 동치다.
LOTUS — 분포만 알면 충분하다
기댓값이 Ω 위의 적분으로 정의됐지만, 실제 계산은 R 위에서 한다. 이를 정당화하는 것이 LOTUS다.
E[g(X)]=∫Ωg(X(ω))dP(ω)=∫Rg(x)dPX(x)
증명 구조는 측도론의 표준 패턴을 따른다. 지시함수 g=1B에서 시작해 단순함수, 음이 아닌 가측함수, 일반 함수 순으로 단조수렴정리(MCT)를 거쳐 확장한다. 이 4단계 패턴은 측도론적 정리 증명의 공통 구조다.
ML에서 LOTUS의 가치는 “표본평균이 모집단 기댓값을 추정한다”는 Monte Carlo의 이론적 정당성이다. X1,…,Xn i.i.d. ∼PX라면 LOTUS + SLLN으로
n1i=1∑ng(Xi)a.s.E[g(X)]
가 성립한다. 학습 루프에서 미니배치 손실의 평균이 진짜 손실로 수렴한다는 보장이 여기서 나온다. Importance sampling의 측도 변환
Ep[g]=Eq[qpg]
역시 LOTUS의 Radon-Nikodym 응용이다. off-policy RL과 VAE reparameterization trick이 모두 이 측도 변환에 기댄다.
공분산과 L2의 기하학
분산과 공분산은 단순한 산포 측도가 아니다. L2(Ω)={X:E[X2]<∞} 위에 내적 ⟨X,Y⟩:=E[XY]를 정의하면 L2가 Hilbert 공간이 된다. 이 관점에서 상관계수는 두 확률변수 사이 각도의 코사인이다.
모든 t∈R에 대해 0≤E[(X+tY)2]=E[X2]+2tE[XY]+t2E[Y2]. 이 t의 이차식이 항상 0 이상이므로 판별식 ≤0: 4(E[XY])2−4E[X2]E[Y2]≤0. □
∎
중요한 함정 하나: 무상관 = 독립. X∼N(0,1), Y=X2로 놓으면 Cov(X,Y)=E[X3]=0이지만 Y는 X의 함수다. PCA가 선형 관계만 잡고 ICA나 Mutual Information 기반 방법이 따로 필요한 이유다. SGD 미니배치 분산도 이 틀에서 깔끔하게 나온다. i.i.d. 샘플에서 Var(gˉ)=Var(g)/B이므로, 배치 크기 4배가 그래디언트 노이즈를 절반으로 줄이는 이유가 된다.
Jensen 부등식과 ML의 핵심 결과들
볼록함수 φ에 대해 φ(E[X])≤E[φ(X)]. 증명은 단 한 줄이다. μ=E[X]에서 supporting line φ(x)≥φ(μ)+λ(x−μ)가 존재하고, 양변에 기댓값을 취하면 우변의 λ(E[X]−μ)=0이 사라진다.
VAE의 목적함수가 왜 log-likelihood의 하한인지, KL 항이 왜 붙는지가 Jensen 한 번으로 설명된다. Cauchy-Schwarz는 Cramér-Rao 하한을 만든다. 불편추정량의 분산은 Fisher 정보의 역수보다 작을 수 없다. MLE가 점근적으로 효율적이라는 사실의 수학적 표현이다.
✎ 트레이드오프: 부등식의 강도와 가정
Markov는 X≥0만 있으면 되지만 매우 느슨하다. Chebyshev는 L2가 필요하고 두 꼬리를 제어한다. Hoeffding은 유계성이 필요하지만 지수적으로 tight하다. Cauchy 분포가 개입하면 분산이 무한대가 되어 Chebyshev 자체가 무력해지고, 집중 부등식 전체가 작동하지 않는다.
MGF와 특성함수 — 분포의 지문
Moment Generating Function MX(t)=E[etX]은 테일러 전개를 통해 모든 적률을 인코딩한다. MX(k)(0)=E[Xk]이므로 독립 확률변수의 합에 대해 MX+Y(t)=MX(t)⋅MY(t)가 성립한다. 그런데 Cauchy처럼 heavy tail이 있으면 t=0에서 MGF가 발산해 존재하지 않는다.
이를 해결하는 것이 특성함수 φX(t)=E[eitX]다. ∣eitX∣=1이므로 어떤 분포에서도 ∣φX(t)∣≤1이 보장된다. Cauchy의 특성함수는 φX(t)=e−∣t∣이고, 표본평균 Xˉn의 특성함수는 (e−∣t/n∣)n=e−∣t∣다. 표본평균이 단일 표본과 같은 분포를 가지므로, 데이터를 아무리 모아도 평균이 수렴하지 않는다.