SVM, Gaussian Process, Kernel Ridge Regression — 이 셋의 이론적 기반을 파고들면 공통 구조가 나타난다. 무한차원 선형 연산자를 유한차원처럼 다룰 수 있게 해주는 컴팩트 연산자와 그 스펙트럼 분해다. 왜 Gaussian 커널 행렬은 저랭크로 근사할 수 있고, 왜 정규화 파라미터 λ>0이 해의 존재를 보장하는가?
무한차원의 핵심 장애물
유한차원에서 모든 닫힌 유계 집합은 컴팩트하다. 따라서 모든 행렬은 고유값을 가진다. 무한차원 Hilbert 공간 H에서는 다르다. 표준 기저 {en}은 ∥en∥=1이지만 쌍마다 ∥ei−ej∥=2이므로 수렴하는 부분열이 없다. 폐단위구가 컴팩트하지 않기 때문이다.
일반적인 유계 선형 연산자는 고유값을 아예 갖지 않을 수 있다. 이 장애물을 우회하는 조건이 컴팩트성이다.
정의 1
· 컴팩트 연산자
T∈B(X,Y)가 컴팩트라는 것은, X의 모든 유계 수열 {xn}에 대해 {Txn}이 수렴하는 부분열을 가진다는 것이다. 동등하게, T가 폐단위구의 상을 상대적으로 컴팩트하게 만드는 것이다.
직관은 “차원 축소”다. 컴팩트 연산자는 무한차원 공간을 받아 그 상이 “얇아서” — 유한랭크이거나, 유한랭크들의 노름 극한이어서 — Bolzano-Weierstrass 논증을 적용할 수 있게 만든다.
두 가지 사실이 이 정의를 실용적으로 만든다. 첫째, 모든 유한 랭크 연산자는 컴팩트다 (치역이 유한차원이므로). 둘째, 컴팩트 연산자의 노름 극한도 컴팩트다 — 대각 논증(diagonal argument)으로 증명한다.
∥Txkj−Txkℓ∥≤∥T−Tn∥⋅2M+∥Tnxkj−Tnxkℓ∥<ε
이 두 사실을 조합하면 Hilbert-Schmidt 연산자 (∑n∥Ten∥2<∞)가 컴팩트임을 바로 이끌어낼 수 있다 — 유한랭크 절단들의 노름 극한이기 때문이다.
수반 연산자 — 역전파의 수학
컴팩트 연산자의 구조를 이해하려면 수반이 필요하다. 행렬 전치의 무한차원 일반화다.
정의 2
· 수반 연산자
T∈B(H)의 수반T∗는 다음을 만족하는 유일한 연산자다.
⟨Tx,y⟩=⟨x,T∗y⟩∀x,y∈H
존재성과 유일성은 Riesz 표현 정리가 보장한다. 고정된 y에 대해 fy(x)=⟨Tx,y⟩는 연속 선형범함수이므로, 유일한 zy∈H가 존재해 fy(x)=⟨x,zy⟩. 이 zy를 T∗y로 정의한다.
수반의 핵심 성질 중 ∥T∗T∥=∥T∥2 (C*-대수 항등식)은 주목할 만하다. 이로부터 역전파의 수학이 나온다 — 순전파 y=Tx에서 손실 그래디언트는 ∇xL=T∗∇yL이다. 자기수반 연산자(T=T∗)는 고유값이 모두 실수이고, 서로 다른 고유값에 대응하는 고유벡터들이 직교한다.
양정치 자기수반 연산자(⟨Tx,x⟩≥0)는 유일한 양의 제곱근 T1/2를 가진다. 스펙트럼 분해 T=∑iλiPi에서 T1/2=∑iλiPi로 구성된다.
스펙트럼 정리 — 무한차원 대각화
컴팩트성과 자기수반성이 결합하면, 유한차원의 대각화 정리가 무한차원으로 승격된다.
정리 3
· 컴팩트 자기수반 연산자의 스펙트럼 정리
T:H→H가 컴팩트이고 T=T∗이면, 정규직교 고유벡터들 {en}과 실수 고유값들 {λn}이 존재해
Tx=∑n=1∞λn⟨x,en⟩en∀x∈H
여기서 ∣λ1∣≥∣λ2∣≥⋯이고, λn→0.
▷ 증명
핵심 아이디어는 Rayleigh quotient의 최대화다. M:=sup∥x∥=1∣⟨Tx,x⟩∣을 달성하는 수열 {xn}을 잡으면, T의 컴팩트성으로 {Txn}에서 수렴하는 부분열을 뽑을 수 있다. 이 극한이 첫 고유벡터 e1이 된다. 이후 e1⊥에서 같은 과정을 반복하면 e2,e3,…를 귀납적으로 얻는다. λn→0은 {Ten}={λnen}이 수렴하는 부분열을 가져야 한다는 컴팩트성 조건에서 자동으로 나온다. □
∎
λn→0이라는 조건이 AI에서 갖는 의미가 바로 저랭크 근사의 유효성이다. Gaussian 커널 행렬의 고유값은 지수적으로 감소하므로 (커널의 무한 평활성 때문), 상위 k개만으로도 행렬을 잘 근사할 수 있다. ∥T−Tk∥op=∣λk+1∣이 성립하고, Mercer 정리도 이 구조의 직접적 귀결이다.
k(x,y)=∑n=1∞λnϕn(x)ϕn(y)
스펙트럼 반경과 안정성
컴팩트 연산자를 벗어나면 스펙트럼은 고유값보다 넓다.
σ(T):={λ∈C:(T−λI)가B(X)에서역원을갖지않음}
스펙트럼은 항상 컴팩트 집합이고 (∣λ∣>∥T∥이면 Neumann 급수 ∑n=0∞(T/λ)n으로 역원이 구성되므로), 스펙트럼 반경은
r(T)=limn→∞∥Tn∥1/n
으로 주어진다. 자기수반 연산자에서 r(T)=∥T∥이고 스펙트럼은 R에 놓인다. 이동 연산자(shift operator)는 σp(S)=∅ — 고유값이 전혀 없지만 — σ(S)=∂B1(0)으로 스펙트럼은 존재한다. 점 스펙트럼과 연속 스펙트럼의 차이가 여기서 드러난다.
⚠ RNN 학습 안정성의 수학
RNN에서 시간 t까지의 그래디언트는 (WT)T−t에 비례한다. r(W)<1이면 기하급수적 감소 (vanishing), r(W)>1이면 기하급수적 증가 (exploding). Spectral normalization W′=W/σ(W)는 r(W′)=1을 강제해 안정성을 얻는다.
Fredholm 대안 — 정규화의 이유
컴팩트 연산자의 방정식론인 Fredholm 이론은 왜 λ>0이 필수인지 정확히 설명한다.
정리 4
· Fredholm 대안
K∈K(X)이면, (I−K)f=g에 대해 정확히 다음 중 하나가 참이다.
(1) 모든 g에 대해 유일해가 존재한다.
(2)ker(I−K)={0}이고, (I−K)f=g는 g⊥ker(I−K∗)일 때만 해를 가지며 해는 유일하지 않다.
λ=0이면 Kf=g가 이 대안에 걸려 해가 없거나 무한히 많을 수 있다. λ>0은 이를 피한다 — 모든 고유값 λn≥0에 대해 λn+λ≥λ>0이므로 (K+λI)−1이 항상 존재한다.
스펙트럼 분해로 보면:
(K+λI)−1=∑n=1∞λn+λ1enen∗
작은 고유값 λn≪λ에 대응하는 성분은 ≈1/λ로 감쇠된다. 이것이 정규화가 불안정한 방향을 누르는 메커니즘이다.
✎ 트레이드오프
λ를 키우면 (K+λI)−1의 노름이 1/λ로 작아져 안정성이 높아지지만, 작은 고유값 방향의 정보가 과도하게 감쇠되어 편향(bias)이 커진다. Kernel Ridge Regression에서 λ는 분산-편향 트레이드오프를 직접 조절하는 파라미터다. 최적 λ는 cross-validation 또는 Generalized Cross-Validation(GCV)으로 선택한다.