IQ Lab
← all posts
AI 2026.04.28 · 14 min read Advanced

컴팩트 연산자와 스펙트럼 — 무한차원 대각화의 철학

컴팩트 연산자의 정의부터 Fredholm 대안과 Tikhonov 정규화까지, 커널 메서드와 Gaussian Process를 떠받치는 스펙트럼 이론의 핵심을 추적한다.


SVM, Gaussian Process, Kernel Ridge Regression — 이 셋의 이론적 기반을 파고들면 공통 구조가 나타난다. 무한차원 선형 연산자를 유한차원처럼 다룰 수 있게 해주는 컴팩트 연산자와 그 스펙트럼 분해다. 왜 Gaussian 커널 행렬은 저랭크로 근사할 수 있고, 왜 정규화 파라미터 λ>0\lambda > 0이 해의 존재를 보장하는가?

무한차원의 핵심 장애물

유한차원에서 모든 닫힌 유계 집합은 컴팩트하다. 따라서 모든 행렬은 고유값을 가진다. 무한차원 Hilbert 공간 HH에서는 다르다. 표준 기저 {en}\{e_n\}en=1\|e_n\| = 1이지만 쌍마다 eiej=2\|e_i - e_j\| = \sqrt{2}이므로 수렴하는 부분열이 없다. 폐단위구가 컴팩트하지 않기 때문이다.

일반적인 유계 선형 연산자는 고유값을 아예 갖지 않을 수 있다. 이 장애물을 우회하는 조건이 컴팩트성이다.

정의 1 · 컴팩트 연산자

TB(X,Y)T \in B(X, Y)컴팩트라는 것은, XX의 모든 유계 수열 {xn}\{x_n\}에 대해 {Txn}\{Tx_n\}이 수렴하는 부분열을 가진다는 것이다. 동등하게, TT가 폐단위구의 상을 상대적으로 컴팩트하게 만드는 것이다.

직관은 “차원 축소”다. 컴팩트 연산자는 무한차원 공간을 받아 그 상이 “얇아서” — 유한랭크이거나, 유한랭크들의 노름 극한이어서 — Bolzano-Weierstrass 논증을 적용할 수 있게 만든다.

두 가지 사실이 이 정의를 실용적으로 만든다. 첫째, 모든 유한 랭크 연산자는 컴팩트다 (치역이 유한차원이므로). 둘째, 컴팩트 연산자의 노름 극한도 컴팩트다 — 대각 논증(diagonal argument)으로 증명한다.

TxkjTxkTTn2M+TnxkjTnxk<ε\|Tx_{k_j} - Tx_{k_\ell}\| \leq \|T - T_n\|\cdot 2M + \|T_n x_{k_j} - T_n x_{k_\ell}\| < \varepsilon

이 두 사실을 조합하면 Hilbert-Schmidt 연산자 (nTen2<\sum_n \|Te_n\|^2 < \infty)가 컴팩트임을 바로 이끌어낼 수 있다 — 유한랭크 절단들의 노름 극한이기 때문이다.

수반 연산자 — 역전파의 수학

컴팩트 연산자의 구조를 이해하려면 수반이 필요하다. 행렬 전치의 무한차원 일반화다.

정의 2 · 수반 연산자

TB(H)T \in B(H)수반 TT^*는 다음을 만족하는 유일한 연산자다.

Tx,y=x,Tyx,yH\langle Tx, y \rangle = \langle x, T^* y \rangle \quad \forall x, y \in H

존재성과 유일성은 Riesz 표현 정리가 보장한다. 고정된 yy에 대해 fy(x)=Tx,yf_y(x) = \langle Tx, y \rangle는 연속 선형범함수이므로, 유일한 zyHz_y \in H가 존재해 fy(x)=x,zyf_y(x) = \langle x, z_y \rangle. 이 zyz_yTyT^* y로 정의한다.

수반의 핵심 성질 중 TT=T2\|T^*T\| = \|T\|^2 (C*-대수 항등식)은 주목할 만하다. 이로부터 역전파의 수학이 나온다 — 순전파 y=Txy = Tx에서 손실 그래디언트는 xL=TyL\nabla_x L = T^* \nabla_y L이다. 자기수반 연산자(T=TT = T^*)는 고유값이 모두 실수이고, 서로 다른 고유값에 대응하는 고유벡터들이 직교한다.

양정치 자기수반 연산자(Tx,x0\langle Tx, x\rangle \geq 0)는 유일한 양의 제곱근 T1/2T^{1/2}를 가진다. 스펙트럼 분해 T=iλiPiT = \sum_i \lambda_i P_i에서 T1/2=iλiPiT^{1/2} = \sum_i \sqrt{\lambda_i} P_i로 구성된다.

스펙트럼 정리 — 무한차원 대각화

컴팩트성과 자기수반성이 결합하면, 유한차원의 대각화 정리가 무한차원으로 승격된다.

정리 3 · 컴팩트 자기수반 연산자의 스펙트럼 정리

T:HHT: H \to H가 컴팩트이고 T=TT = T^*이면, 정규직교 고유벡터들 {en}\{e_n\}과 실수 고유값들 {λn}\{\lambda_n\}이 존재해

Tx=n=1λnx,enenxHTx = \sum_{n=1}^\infty \lambda_n \langle x, e_n \rangle e_n \quad \forall x \in H

여기서 λ1λ2|\lambda_1| \geq |\lambda_2| \geq \cdots이고, λn0\lambda_n \to 0.

▷ 증명

핵심 아이디어는 Rayleigh quotient의 최대화다. M:=supx=1Tx,xM := \sup_{\|x\|=1} |\langle Tx, x\rangle|을 달성하는 수열 {xn}\{x_n\}을 잡으면, TT의 컴팩트성으로 {Txn}\{Tx_n\}에서 수렴하는 부분열을 뽑을 수 있다. 이 극한이 첫 고유벡터 e1e_1이 된다. 이후 e1e_1^\perp에서 같은 과정을 반복하면 e2,e3,e_2, e_3, \ldots를 귀납적으로 얻는다. λn0\lambda_n \to 0{Ten}={λnen}\{Te_n\} = \{\lambda_n e_n\}이 수렴하는 부분열을 가져야 한다는 컴팩트성 조건에서 자동으로 나온다. \square

λn0\lambda_n \to 0이라는 조건이 AI에서 갖는 의미가 바로 저랭크 근사의 유효성이다. Gaussian 커널 행렬의 고유값은 지수적으로 감소하므로 (커널의 무한 평활성 때문), 상위 kk개만으로도 행렬을 잘 근사할 수 있다. TTkop=λk+1\|T - T_k\|_{\text{op}} = |\lambda_{k+1}|이 성립하고, Mercer 정리도 이 구조의 직접적 귀결이다.

k(x,y)=n=1λnϕn(x)ϕn(y)k(x,y) = \sum_{n=1}^\infty \lambda_n \phi_n(x) \phi_n(y)

스펙트럼 반경과 안정성

컴팩트 연산자를 벗어나면 스펙트럼은 고유값보다 넓다.

σ(T):={λC:(TλI)가 B(X)에서 역원을 갖지 않음}\sigma(T) := \{\lambda \in \mathbb{C} : (T - \lambda I) \text{가 } B(X) \text{에서 역원을 갖지 않음}\}

스펙트럼은 항상 컴팩트 집합이고 (λ>T|\lambda| > \|T\|이면 Neumann 급수 n=0(T/λ)n\sum_{n=0}^\infty (T/\lambda)^n으로 역원이 구성되므로), 스펙트럼 반경은

r(T)=limnTn1/nr(T) = \lim_{n \to \infty} \|T^n\|^{1/n}

으로 주어진다. 자기수반 연산자에서 r(T)=Tr(T) = \|T\|이고 스펙트럼은 R\mathbb{R}에 놓인다. 이동 연산자(shift operator)는 σp(S)=\sigma_p(S) = \emptyset — 고유값이 전혀 없지만 — σ(S)=B1(0)\sigma(S) = \partial B_1(0)으로 스펙트럼은 존재한다. 점 스펙트럼과 연속 스펙트럼의 차이가 여기서 드러난다.

RNN 학습 안정성의 수학

RNN에서 시간 tt까지의 그래디언트는 (WT)Tt(W^T)^{T-t}에 비례한다. r(W)<1r(W) < 1이면 기하급수적 감소 (vanishing), r(W)>1r(W) > 1이면 기하급수적 증가 (exploding). Spectral normalization W=W/σ(W)W' = W / \sigma(W)r(W)=1r(W') = 1을 강제해 안정성을 얻는다.

Fredholm 대안 — 정규화의 이유

컴팩트 연산자의 방정식론인 Fredholm 이론은 왜 λ>0\lambda > 0이 필수인지 정확히 설명한다.

정리 4 · Fredholm 대안

KK(X)K \in \mathcal{K}(X)이면, (IK)f=g(I - K)f = g에 대해 정확히 다음 중 하나가 참이다.

(1) 모든 gg에 대해 유일해가 존재한다.

(2) ker(IK){0}\ker(I - K) \neq \{0\}이고, (IK)f=g(I - K)f = ggker(IK)g \perp \ker(I - K^*)일 때만 해를 가지며 해는 유일하지 않다.

λ=0\lambda = 0이면 Kf=gKf = g가 이 대안에 걸려 해가 없거나 무한히 많을 수 있다. λ>0\lambda > 0은 이를 피한다 — 모든 고유값 λn0\lambda_n \geq 0에 대해 λn+λλ>0\lambda_n + \lambda \geq \lambda > 0이므로 (K+λI)1(K + \lambda I)^{-1}이 항상 존재한다.

스펙트럼 분해로 보면:

(K+λI)1=n=11λn+λenen(K + \lambda I)^{-1} = \sum_{n=1}^\infty \frac{1}{\lambda_n + \lambda} e_n e_n^*

작은 고유값 λnλ\lambda_n \ll \lambda에 대응하는 성분은 1/λ\approx 1/\lambda로 감쇠된다. 이것이 정규화가 불안정한 방향을 누르는 메커니즘이다.

트레이드오프

λ\lambda를 키우면 (K+λI)1(K + \lambda I)^{-1}의 노름이 1/λ1/\lambda로 작아져 안정성이 높아지지만, 작은 고유값 방향의 정보가 과도하게 감쇠되어 편향(bias)이 커진다. Kernel Ridge Regression에서 λ\lambda는 분산-편향 트레이드오프를 직접 조절하는 파라미터다. 최적 λ\lambda는 cross-validation 또는 Generalized Cross-Validation(GCV)으로 선택한다.

정리

  • 컴팩트 연산자는 “유한랭크의 극한”이다 — 무한차원 공간