IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

Hilbert 공간은 왜 AI 수학의 기반인가

내적공간의 공리부터 Fourier 급수의 L² 수렴까지, Hilbert 공간이 Attention·MSE·Kernel Trick을 하나의 구조로 설명하는 과정을 추적한다.


Transformer의 Attention은 내적으로 유사도를 측정하고, MSE 손실은 L2L^2 노름의 제곱이며, SVM의 Kernel Trick은 내적을 커널로 대체한다. 이 세 가지는 서로 다른 기법처럼 보이지만, 모두 같은 수학적 구조 위에 서 있다. 그 구조가 Hilbert 공간이다. 왜 하필 Hilbert 공간이어야 하는가?

내적이 있어야 기하학이 생긴다

벡터공간에 내적 ,\langle \cdot, \cdot \rangle을 정의하면 세 가지가 따라온다. 노름 x=x,x\|x\| = \sqrt{\langle x, x \rangle}, 거리 d(x,y)=xyd(x, y) = \|x - y\|, 그리고 각도. 코사인 유사도 x,yxy\frac{\langle x, y \rangle}{\|x\|\|y\|}가 Attention의 유사도 측정으로 쓰이는 이유는, 내적이 두 벡터 사이의 “기하학적 관계”를 수치 하나로 포착하기 때문이다.

그런데 LpL^p 공간들 중 내적이 정의되는 것은 p=2p = 2이다. 이를 판별하는 기준이 평행사변형 법칙이다.

x+y2+xy2=2(x2+y2)\|x + y\|^2 + \|x - y\|^2 = 2(\|x\|^2 + \|y\|^2)

L1L^1에서 f=1[0,0.5]f = \mathbf{1}_{[0,0.5]}, g=1[0.5,1]g = \mathbf{1}_{[0.5,1]}로 놓으면 좌변이 2, 우변이 1로 등호가 깨진다. 반대로, 이 등식이 성립하면 편극화 항등식

x,y=14(x+y2xy2)\langle x, y \rangle = \frac{1}{4}\left(\|x + y\|^2 - \|x - y\|^2\right)

으로 내적을 복원할 수 있다(Jordan–von Neumann 정리). 즉, 평행사변형 법칙은 내적 존재의 필요충분조건이다.

왜 MSE인가

신경망 회귀에서 L=1nyy^22\mathcal{L} = \frac{1}{n}\|y - \hat{y}\|_2^2가 잘 작동하는 이유는 단순히 “제곱이라 미분하기 쉬워서”가 아니다. L2L^2 노름이 내적에서 나오므로, 손실 곡면이 볼록하고 기하학적으로 깔끔하다. L1L^1 손실은 내적이 없어서 이 구조가 깨진다.

완비성 — 극한이 공간 안에 있다는 보장

내적공간만으로는 부족하다. 무한차원에서는 수렴하는 수열의 극한이 공간 밖으로 나갈 수 있다. 이를 막는 조건이 완비성(completeness): 모든 Cauchy 수열이 같은 공간 안에서 수렴한다.

내적공간에 완비성을 더한 것이 Hilbert 공간이다. Rn\mathbb{R}^n, L2([a,b])L^2([a,b]), 2\ell^2 모두 Hilbert 공간이다. L1L^1은 노름 공간(Banach)이지만 내적이 없고, 유리수 위의 다항식 공간은 내적이 있지만 완비가 아니다.

완비성이 없으면 닫힌 부분공간으로의 **수직투영(orthogonal projection)**이 존재한다는 것을 증명할 수 없다. 투영 정리의 핵심 증명 단계는 바로 완비성을 사용해 최근점이 되는 Cauchy 수열의 수렴을 보장하는 것이다.

정리 1 · 투영 정리

HH가 Hilbert 공간이고 MM이 닫힌 부분공간이면, 임의의 xHx \in H에 대해 유일한 PM(x)MP_M(x) \in M이 존재하여 xPM(x)Mx - P_M(x) \perp M이다.

▷ 증명

d=infmMxmd = \inf_{m \in M} \|x - m\|로 정의되는 최근점 수열 (yn)(y_n)이 Cauchy임을 평행사변형 법칙으로 보인다. MM이 볼록이므로 yn+ym2M\frac{y_n + y_m}{2} \in M이고,

ynym22=xyn2+xym22xyn+ym22xyn2+xym22d20\left\|\frac{y_n - y_m}{2}\right\|^2 = \frac{\|x - y_n\|^2 + \|x - y_m\|^2}{2} - \left\|x - \frac{y_n + y_m}{2}\right\|^2 \leq \frac{\|x-y_n\|^2 + \|x-y_m\|^2}{2} - d^2 \to 0

HH의 완비성으로 yny0My_n \to y_0 \in M. 수직 특성 xy0Mx - y_0 \perp Mx(y0+tm)2xy02\|x - (y_0 + tm)\|^2 \geq \|x - y_0\|^2를 모든 tt에 대해 전개하면 나온다. \square

PCA가 분산을 최대화하는 부분공간을 찾는 것도, Ridge Regression이 가중치를 제약하는 것도, 모두 이 투영 정리의 응용이다.

Riesz 표현 — 모든 범함수는 내적이다

Hilbert 공간의 또 다른 기적은 쌍대 구조다. 유계 선형범함수 ϕ:HF\phi: H \to \mathbb{F} 는 모두 어떤 y0Hy_0 \in H와의 내적으로 표현된다.

ϕ(x)=x,y0,ϕ=y0\phi(x) = \langle x, y_0 \rangle, \quad \|\phi\| = \|y_0\|

이것이 Riesz 표현 정리다. 유한차원에서는 자명하다 — ϕ(x)=aTx\phi(x) = a^T x는 이미 내적 형태다. 하지만 무한차원에서는 이것이 비자명하고, Hilbert 구조가 없으면 성립하지 않는다.

AI에서 이 정리가 결정적으로 나타나는 곳이 **RKHS(Reproducing Kernel Hilbert Space)**다. 점 평가 δx(f)=f(x)\delta_x(f) = f(x)가 유계 범함수이면, Riesz에 의해 유일한 kxHk_x \in \mathcal{H}가 존재하여

f(x)=f,kxHf(x) = \langle f, k_x \rangle_{\mathcal{H}}

SVM의 Kernel Trick이 작동하는 이유는 고차원 feature map ϕ(x)\phi(x)의 내적 ϕ(x),ϕ(y)\langle \phi(x), \phi(y) \rangle이 커널 K(x,y)K(x,y)로 표현될 수 있기 때문이고, 그 이론적 정당성이 바로 이 재생 성질에 있다.

트레이드오프

Hilbert 공간은 강력하지만 L2L^2 가정이 필요하다. L1L^1 공간이 필요한 경우(희소 신호, 로버스트 추정)에는 내적이 없어 투영과 Riesz 표현을 포기해야 한다. 일반 Banach 공간 이론이 필요해지고, 계산과 이론 모두 훨씬 복잡해진다.

Parseval 등식 — 기저 분해와 에너지 보존

Hilbert 공간이 완비이고 가분(separable)이면, 정규직교기저 {en}\{e_n\}이 존재하여 모든 원소를

x=n=1x,enenx = \sum_{n=1}^{\infty} \langle x, e_n \rangle e_n

으로 표현할 수 있다. Parseval 등식은 이 분해가 에너지를 보존함을 말한다.

x2=n=1x,en2\|x\|^2 = \sum_{n=1}^{\infty} |\langle x, e_n \rangle|^2

Fourier 기저 en(x)=1πeinxe_n(x) = \frac{1}{\sqrt{\pi}} e^{inx}L2([π,π])L^2([-\pi, \pi])의 정규직교기저다. 이 덕분에 L2L^2 함수의 Fourier 급수는 항상 L2L^2 노름에서 수렴한다.

fSN(f)L22=n>Ncn20\|f - S_N(f)\|_{L^2}^2 = \sum_{|n| > N} |c_n|^2 \to 0

점별 수렴은 보장되지 않는다. 불연속점에서 약 9%의 오버슈팅(Gibbs 현상)이 생긴다. 그러나 L2L^2 수렴은 무조건이다. 신호 압축에서 고주파 계수를 제거하면 복원 오차가 생기지만, Parseval에 의해 그 오차의 크기가 제거된 계수의 에너지로 정확히 계산된다. JPEG 압축과 Fourier Neural Operator가 이 보장 위에 서 있다.

정리

  • 평행사변형 법칙이 성립하는 노름 공간에만 내적이 존재한다. LpL^pp=2p = 2만 해당한다.
  • Hilbert 공간 = 내적 + 완비성. 완비성이 없으면 투영 정리가 성립하지 않는다.
  • Riesz 표현 정리는 모든 유계 선형범함수를 내적으로 환원한다. RKHS와 Kernel Trick의 이론적 기반이다.
  • Parseval 등식은 L2L^2 수렴을 보장한다. 신호 압축의 에너지 오차가 통제되는 이유다.

유한차원 선형대수로 충분해 보이는 AI 수학이 왜 함수해석학까지 올라가야 하는지, 그 이유는 이 구조의 이름이다 — 무한차원에서도 기하학이 작동하게 만드는 유일한 공간.