SimCLR, CLIP, MoCo — 이 모델들은 서로 다른 아키텍처처럼 보이지만, 목적함수를 들여다보면 모두 같은 수식의 변형이다. 그 수식의 이름은 상호정보량(mutual information, MI) 이다. MI는 “X를 알면 Y에 대해 얼마나 많은 정보를 얻는가”를 수치로 정의하는데, 이 단순한 질문이 어떻게 현대 딥러닝 표현학습 전체의 언어가 되었는가?
MI — 독립으로부터의 KL 거리
MI의 가장 핵심적인 정의는 결합분포가 독립분포로부터 얼마나 떨어져 있는지를 KL 발산으로 잰 것이다.
이 관점에서 세 가지 성질이 즉시 따라온다. 첫째, I(X;Y)≥0 — KL 발산의 비음성(Gibbs 부등식)으로부터. 둘째, I(X;Y)=0⇔X⊥⊥Y — 독립이면 MI가 정확히 0이다. 셋째, 대칭성 I(X;Y)=I(Y;X) — 정의식이 (x,y)와 (y,x)에 대해 대칭이므로.
엔트로피 언어로 쓰면 세 가지 동치형이 존재한다.
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)
이를 Venn 다이어그램으로 보면 MI는 H(X)와 H(Y) 두 원의 교집합이다. “X의 불확실성 중 Y를 알면 사라지는 부분” — 이것이 두 변수가 공유하는 정보다.
Gaussian의 경우 상관계수 ρ가 있으면 닫힌 형태로 계산된다.
I(X;Y)=−21log(1−ρ2)
주목할 점은 ρ=0이어도 MI가 0이 아닐 수 있다는 것이다 — Gaussian에서만 correlation=0이 독립과 동치다. Y=X2처럼 비선형 의존이 있으면 Corr(X,Y)=0이지만 I(X;Y)>0이다. MI는 모든 통계적 의존을 잡고, 상관계수는 선형 의존만 잡는다.
한 가지 더 주의할 함정이 있다. Conditioning은 MI를 단조적으로 줄이지 않는다. X,Y가 독립이어도 Z=X⊕Y로 conditioning하면 I(X;Y∣Z)=log2>0=I(X;Y)가 된다. 이 “explain-away” 현상은 Simpson’s paradox의 정보이론적 뿌리다.
DPI — 정보는 처리로 늘지 않는다
표현학습의 근본 제약은 Data Processing Inequality(DPI) 에서 온다.
각 레이어는 정보 손실의 Markov step이다. 인코더를 통과하는 순간 정보는 절대 추가되지 않는다. 중요한 것은 “무엇을 보존하느냐”다. Tishby–Shwartz-Ziv(2017)의 Information Bottleneck 관점에서 학습은 두 단계로 해석된다: 초기 fitting phase에서 I(X;hl)과 I(hl;Y)가 함께 증가하다가, 후기 compression phase에서 I(X;hl)이 감소하면서 I(hl;Y)는 유지된다.
DPI는 동시에 Privacy와 Knowledge Distillation에도 직결된다. Post-processing은 민감속성으로부터의 정보를 절대 늘릴 수 없고, teacher의 정보량 이상을 student가 가질 수 없다는 것도 같은 논리다.
Fano 부등식 — 분류 오차의 정보이론적 하한
MI가 작으면 아무리 좋은 모델을 써도 분류 오차가 일정 수준 이하로 내려갈 수 없다.
정리 2
· Fano 부등식
X∈X, ∣X∣=K, 추정량 X^=g(Y), Pe=P(X^=X)라 하면
H(Pe)+Pelog(K−1)≥H(X∣Y)=H(X)−I(X;Y)
▷ 증명
에러 지시 확률변수 E=1[X=X^]를 도입한다. E=0이면 X=X^로 결정되어 H(X∣E=0,X^)=0. E=1이면 X는 나머지 K−1개 중 하나이므로 H(X∣E=1,X^)≤log(K−1). Chain rule을 전개하면
H(X∣X^)≤H(E∣X^)+H(X∣E,X^)≤H(Pe)+Pelog(K−1)
DPI에서 X→Y→X^ Markov이므로 H(X∣X^)≥H(X∣Y). 두 부등식을 결합하면 성립한다. ■
∎
X가 K=10개 클래스에 uniform하고 I(X;Y)=0.023 nats라면 — 노이즈가 99%인 채널 — Pe≥0.948이다. 정보가 거의 없는 데이터로는 어떤 모델도 5% 이상의 정확도를 낼 수 없다. Binary case에서 이 bound는 정확히 Bayes error와 일치한다.
✎ 트레이드오프
Fano bound는 binary symmetric channel에서 tight하다. 반면 K가 커질수록 느슨해지고, non-uniform prior에서는 trivial estimator가 이미 bound를 이길 수 있다. 연속 타겟에는 packing argument를 이용한 minimax 확장(Yu 1997)이 필요하다. Representation 품질 지표로 읽으면 “I(Z;Y)가 클수록 linear probe accuracy의 하한이 높아진다”는 뜻이기도 하다.
MINE과 InfoNCE — MI를 어떻게 최적화하는가
연속 변수의 MI를 샘플만으로 추정하는 것은 근본적으로 어렵다. MINE(Belghazi 2018)은 Donsker–Varadhan 변분 표현을 이용한다.
I(X;Y)=TsupEpXY[T(X,Y)]−logEpXpY[eT(X,Y)]
T를 신경망 Tθ로 파라미터화하고, joint 샘플과 marginal 샘플(배치 내 y permutation)을 이용해 이 bound를 최대화하면 MI의 하한 추정기가 된다. 하지만 실용적 한계가 있다. McAllester–Stratos(2020)에 따르면 I(X;Y)≥B일 때 2B 이하의 샘플로는 어떤 추정기도 안정적으로 추정할 수 없다 — 큰 MI 값은 구조적으로 추정 불가능하다.
InfoNCE는 더 실용적인 경로다. K-way 분류 문제로 MI를 연결한다.
I(X;Y)≥logK−LNCE
LNCE≥0이므로 이 bound의 최댓값은 logK다. 배치 크기가 MI 추정의 상한을 결정한다. CLUB(Cheng 2020)은 반대 방향 — I(X;Z)를 minimize할 때 필요한 상한 추정기로, Information Bottleneck의 압축 항을 다룰 때 쓰인다.
대조학습의 기하학적 분해는 Wang & Isola(2020)에서 나온다. K→∞ 극한에서 InfoNCE는 두 항의 합으로 쓰인다.