Kernel method의 모든 것은 한 가지 가정 위에 세워진다: “k가 positive definite(PD)이다.” 이 조건이 단순한 기술적 요건처럼 보이지만, 실제로는 feature map의 존재, SVM dual QP의 볼록성, GP covariance의 Cholesky 분해 가능성을 모두 한꺼번에 보장한다. 그렇다면 왜 하필 이중합 ∑i,jαiαjk(xi,xj)≥0이라는 조건이 그 모든 것의 열쇠가 되는가?
PD kernel의 정의 — 왜 이중합인가
집합 X 위의 함수 k:X×X→R가 positive semi-definite kernel이 되려면 두 가지를 만족해야 한다: 대칭성 k(x,y)=k(y,x), 그리고 임의의 유한 부분집합 {x1,…,xn}과 스칼라 {αi}에 대해
∑i=1n∑j=1nαiαjk(xi,xj)≥0.
이 조건이 나오는 이유는 간단하다. 만약 k(x,y)=⟨ϕ(x),ϕ(y)⟩H로 표현된다면, 이중합은 곧 ∥∑iαiϕ(xi)∥H2이고, norm 제곱은 항상 음이 아니다. 역으로 이 성질이 성립하면 feature map을 거꾸로 구성할 수 있다는 것이 Moore-Aronszajn 정리의 내용이다.
그람 행렬 관점에서 보면 더 간결하다. n개 점의 그람 행렬 Kij:=k(xi,xj)를 정의하면 이중합은 이차형식 α⊤Kα이다. 따라서:
k is PD⟺K⪰0 (모든유한샘플에서).
명제 1
· Gram 양정치성과 PD kernel의 동치
대칭 함수 k:X×X→R에 대해 다음은 동치이다: (1) k는 PD kernel이다. (2) 임의의 유한 부분집합에 대한 그람 행렬 K는 K⪰0이다.
▷ 증명
(1)⇒(2): 임의의 α∈Rn에 대해 α⊤Kα=∑i,jαiαjk(xi,xj)≥0. 대칭성에 의해 K=K⊤이므로 K⪰0.
(2)⇒(1): α⊤Kα≥0이 곧 PD 정의의 조건이다. □
∎
PD의 따름정리로 Cauchy-Schwarz 부등식 k(x,y)2≤k(x,x)⋅k(y,y)가 자동으로 성립한다. n=2인 2×2 그람의 행렬식이 ≥0이어야 하기 때문이다.
대표 kernel의 PD 증명 전략
실무에서 자주 쓰이는 kernel들이 실제로 PD인지는 세 가지 전략으로 증명한다.
전략 1 — Feature map 제시.k(x,y)=⟨ϕ(x),ϕ(y)⟩를 만족하는 ϕ를 직접 보이는 방법이다. Linear kernel k(x,y)=x⊤y는 ϕ=id로 즉각. Polynomial kernel (x⊤y+c)d는 이항전개로 각 항 (x⊤y)j=⟨x⊗j,y⊗j⟩를 확인하면 된다.
전략 2 — PD-보존 연산. 이미 PD인 kernel에 합·곱·지수함수를 적용해도 PD가 유지된다. 곱의 경우 핵심은 Schur product theorem: 두 PSD 행렬 A,B의 원소별 곱 A⊙B도 PSD다. 이로부터 k1⋅k2가 PD이고, ek=∑jkj/j!도 PD임이 따라온다. Gaussian RBF의 PD 증명이 바로 이 경로다:
가운데 exp(x⊤y/σ2)는 Taylor 전개 후 양계수 무한합, 나머지는 scalar conjugate 변환이다. 세 단계 모두 PD를 보존한다.
전략 3 — Bochner 정리. Shift-invariant kernel k(x−y)는 어떤 유한 음이 아닌 측도의 Fourier 변환일 때 정확히 PD다. Laplace kernel과 Matérn kernel은 각각 Cauchy-류, Whittle-류 spectral density를 가지며 이로써 PD가 따라온다.
⚠ Sigmoid kernel은 일반적으로 PD가 아니다
ksig(x,y)=tanh(ax⊤y+c)는 (a,c)의 일부 범위에서만 PD에 가깝다. 특정 c>0 설정에서는 그람 행렬의 최소 고유값이 음수가 되어 PD 조건을 위반한다. SVM에서 sigmoid kernel을 사용할 때 solver가 non-convex 문제에 빠지는 이유가 여기 있다.
컴팩트 측도공간 (X,μ) 위의 연속 PD kernel로부터 integral operator
(Tkf)(x):=∫Xk(x,y)f(y)dμ(y)
를 정의하면, Tk는 compact·self-adjoint·positive 작용소가 된다. 스펙트럴 정리에 의해 음이 아닌 고유값 λ1≥λ2≥⋯≥0과 L2에서 직교정규인 고유함수 {ϕn}이 존재하고, kernel 자체가 이로부터 재조립된다:
k(x,y)=∑n=1∞λnϕn(x)ϕn(y)(일양수렴).
이를 ϕ(x):=(λnϕn(x))n≥1∈ℓ2로 읽으면 k(x,y)=⟨ϕ(x),ϕ(y)⟩ℓ2이다. Gaussian RBF의 경우 고유값이 지수적으로 감쇠하므로 무한히 많은 Hermite 함수 모드가 필요하다 — 이것이 “implicit 무한차원 feature”의 정확한 의미다.
일양 수렴 보장이 중요한 이유가 있다. 유한 부분합 kN(x,y)=∑n=1Nλnϕn(x)ϕn(y)가 실제 k를 균일하게 근사한다는 것이 Random Features 근사와 Nyström 방법의 이론적 근거이기 때문이다.
Characteristic과 Universal — 두 가지 강함의 척도
PD kernel 중에서도 두 가지 중요한 성질이 추가로 구분된다.
Characteristic kernel은 mean embedding μp:=EX∼p[k(⋅,X)]∈Hk이 분포 p를 단사적으로 표현할 때 성립한다: μp=μq⇒p=q. 이 성질이 없으면 Maximum Mean Discrepancy가 의미를 잃는다. 서로 다른 두 분포인데도 MMD(p,q)=0으로 오판하는 상황이 생긴다.
Universal kernel은 RKHS Hk가 컴팩트 X 위의 연속 함수 공간 C(X)에서 sup-노름으로 dense할 때 성립한다. 이는 “임의의 연속 함수를 원하는 정밀도로 근사할 수 있다”와 같으며, SVM의 consistency가 이에 기댄다.
두 성질의 관계는 비대칭적이다.
정리 2
· Universal은 Characteristic을 함의한다
컴팩트 X에서 universal kernel은 characteristic이다. 역은 일반적으로 성립하지 않는다.
Gaussian RBF와 Laplace, Matérn-ν는 둘 다 만족한다. 이유는 공통적이다: 이 kernel들의 spectral density가 Rd 전체에서 양수이기 때문이다. Shift-invariant kernel에서 characteristic 성질은 정확히 “spectral measure의 support가 Rd 전체”와 동치다.
반면 Polynomial kernel (x⊤y+c)d는 둘 다 아니다. RKHS가 차수 ≤d 다항식의 유한 차원 공간이므로 universal이 불가능하고, mean embedding이 분포의 d차 모멘트까지만 포착하므로 같은 모멘트를 가진 서로 다른 분포를 구분하지 못한다.
정리
PD 조건은 단순한 수학적 형식이 아니다. 그 안에는 “feature map이 존재한다”는 기하적 보장, SVM dual의 볼록성, GP posterior의 수치 안정성이 전부 담겨 있다. kernel을 쓴다는 말은 곧 “내가 선택한 함수가 PD임을 알고 있다”는 뜻이다.