IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

내적 공간의 다섯 기둥은 하나의 구조다

Cauchy-Schwarz 부등식의 기하적 의미부터 정사영, 최소제곱, Gram 행렬, QR 분해까지 — 내적 하나에서 파생되는 선형대수의 통합 구조를 추적한다.


내적(inner product)은 단순한 연산이 아니다. 각도, 거리, 투영, 최적 근사, 부피 — 이 모든 기하적 개념이 내적 하나에서 파생된다. 제5장의 다섯 절은 각각 독립적인 주제처럼 보이지만, 실제로는 하나의 구조가 점점 더 풍부한 형태로 전개되는 과정이다. 왜 ATAA^TA의 조건수는 AA의 제곱이 되고, QR 분해는 왜 그것보다 수치적으로 우월한가?

기하의 출발점: 내적과 Cauchy-Schwarz

실 벡터 공간 위의 내적은 세 공리로 정의된다 — 대칭성, 쌍선형성, 양의 정부호성. 이 세 조건의 최소 집합에서 모든 기하가 나온다. 유도 노름은

x=x,x\|\mathbf{x}\| = \sqrt{\langle \mathbf{x}, \mathbf{x} \rangle}

이고, 이 노름이 삼각부등식을 만족한다는 사실 자체가 이미 비자명하다.

정리 1 · Cauchy-Schwarz 부등식

임의의 x,y\mathbf{x}, \mathbf{y}에 대해

x,yxy|\langle \mathbf{x}, \mathbf{y} \rangle| \leq \|\mathbf{x}\| \|\mathbf{y}\|

등호 조건은 x\mathbf{x}y\mathbf{y}가 선형종속일 때이다.

▷ 증명

y0\mathbf{y} \neq \mathbf{0}. 임의의 tRt \in \mathbb{R}에 대해 x+ty,x+ty0\langle \mathbf{x} + t\mathbf{y},\, \mathbf{x} + t\mathbf{y} \rangle \geq 0을 전개하면

x2+2tx,y+t2y20\|\mathbf{x}\|^2 + 2t\langle \mathbf{x}, \mathbf{y} \rangle + t^2 \|\mathbf{y}\|^2 \geq 0

이 이차식이 항상 0\geq 0이려면 판별식이 0\leq 0이어야 한다. 4x,y24x2y204\langle \mathbf{x}, \mathbf{y} \rangle^2 - 4\|\mathbf{x}\|^2\|\mathbf{y}\|^2 \leq 0. \blacksquare

Cauchy-Schwarz의 진짜 역할은 각도의 존재 보장이다. cosθ1|\cos\theta| \leq 1이 성립함은 이 부등식이 있어야 비로소 정의가 가능하다. L2L^2 함수 공간도, 행렬 Frobenius 내적도, 가중 내적 x,yW=xTWy\langle \mathbf{x}, \mathbf{y} \rangle_W = \mathbf{x}^T W \mathbf{y}도 — 공리만 만족하면 같은 기하가 성립한다.

정사영: 최적 근사의 기하 원리

부분공간 WW로의 정사영은 “가장 가까운 점”을 찾는 문제의 해다.

정리 2 · Best Approximation

유한차원 부분공간 WW와 벡터 v\mathbf{v}에 대해, 유일한 wW\mathbf{w}^* \in W가 존재하여 vwvw\|\mathbf{v} - \mathbf{w}^*\| \leq \|\mathbf{v} - \mathbf{w}\|, wW\forall \mathbf{w} \in W이다. 그 특징 조건은 vwW\mathbf{v} - \mathbf{w}^* \perp W.

▷ 증명

WW의 정규직교 기저 {q1,,qk}\{\mathbf{q}_1, \ldots, \mathbf{q}_k\}를 취하고 w=iv,qiqi\mathbf{w}^* = \sum_i \langle \mathbf{v}, \mathbf{q}_i \rangle \mathbf{q}_i로 정의하면 vwW\mathbf{v} - \mathbf{w}^* \perp W. 임의의 wW\mathbf{w} \in W에 대해 피타고라스 정리를 적용하면

vw2=vw2+ww2vw2\|\mathbf{v} - \mathbf{w}\|^2 = \|\mathbf{v} - \mathbf{w}^*\|^2 + \|\mathbf{w}^* - \mathbf{w}\|^2 \geq \|\mathbf{v} - \mathbf{w}^*\|^2

유일성은 두 최소점이 동시에 존재하면 거리 0이 됨에서 따른다. \blacksquare

정사영 행렬 P=A(ATA)1ATP = A(A^TA)^{-1}A^T는 두 성질로 완전히 특징지어진다 — P2=PP^2 = P (멱등)과 PT=PP^T = P (대칭). 정규직교 기저 QQ가 있으면 P=QQTP = QQ^T로 단순화된다. 정사영의 고유값은 0과 1뿐이고, tr(P)=dimW\operatorname{tr}(P) = \dim W이다.

최소제곱: 정사영의 대수적 구체화

과결정계 Ax=bA\mathbf{x} = \mathbf{b} (mnm \gg n)는 일반적으로 해가 없다. 목표는 minxAxb2\min_\mathbf{x} \|A\mathbf{x} - \mathbf{b}\|^2이고, 기하적으로는 b\mathbf{b}C(A)C(A)에 정사영하는 것이다. 직교 조건 AT(bAx)=0A^T(\mathbf{b} - A\mathbf{x}^*) = \mathbf{0}을 정리하면 정규방정식을 얻는다.

ATAx=ATbA^T A \mathbf{x}^* = A^T \mathbf{b}

여기서 핵심 함정이 있다.

조건수 함정

AA의 thin QR A=Q^R^A = \hat{Q}\hat{R}을 이용하면 정규방정식은 R^x=Q^Tb\hat{R}\mathbf{x}^* = \hat{Q}^T\mathbf{b}로 바뀐다. 직접 ATAA^TA를 구성해 풀면 조건수가 κ(A)2\kappa(A)^2로 증가하지만, QR로 풀면 κ(A)\kappa(A)가 유지된다. AA의 조건수가 10410^4이면 ATAA^TA의 조건수는 10810^8이 된다.

Gauss-Markov 정리는 이 OLS 추정량의 통계적 지위를 확립한다 — 가우시안 분포 가정 없이도, 선형 불편 추정량 중 분산이 최소임을 보장한다. Ridge 정규화 (ATA+αI)x=ATb(A^TA + \alpha I)\mathbf{x} = A^T\mathbf{b}는 조건수를 개선하는 동시에 prior xN(0,σ2αI)\mathbf{x} \sim \mathcal{N}(0, \frac{\sigma^2}{\alpha}I)의 MAP 추정으로 해석된다.

Gram 행렬: 내적 구조의 행렬 압축

벡터 v1,,vkv_1, \ldots, v_k의 Gram 행렬은 Gij=vi,vjG_{ij} = \langle v_i, v_j \rangle, 행렬 표현으로는 G=ATAG = A^TA다.

xTGx=xTATAx=Ax20x^T G x = x^T A^T A x = \|Ax\|^2 \geq 0

이 세 줄의 증명이 Gram 행렬이 항상 PSD임을 확립한다. GG가 PD가 되는 정확한 조건은 {vi}\{v_i\}의 선형독립과 동치다. 더 깊은 결과는 detG\det G가 평행육면체의 부피의 제곱이라는 것이다 — QR 분해 A=QRA = QR에서 detG=det(RTR)=(detR)2=Volk2\det G = \det(R^TR) = (\det R)^2 = \text{Vol}_k^2.

QR 분해: 다섯 조각의 통합

QR 분해의 세 시각 중 가장 통찰력 있는 것은 내적 관점이다 — ATA=RTRA^TA = R^TR이므로 QR은 Gram 행렬의 Cholesky 루트다.

ATA=(QR)T(QR)=RTQTQR=RTRA^T A = (QR)^T(QR) = R^T Q^T Q R = R^T R

Gram-Schmidt의 kk번째 단계는 정사영의 반복이다.

q~k=aki=1k1ak,qiqi=akPspan(q1,,qk1)ak\tilde{q}_k = a_k - \sum_{i=1}^{k-1} \langle a_k, q_i \rangle q_i = a_k - P_{\operatorname{span}(q_1,\ldots,q_{k-1})} a_k

고전 Gram-Schmidt(CGS)는 aka_k에서 한꺼번에 정사영을 제거하고, 수정된 Gram-Schmidt(MGS)는 갱신된 vv에서 순차적으로 제거한다. 이론적으로 동치지만 수치 안정성은 다르다 — CGS는 직교성 손실이 O(εκ(A)2)O(\varepsilon \cdot \kappa(A)^2), MGS는 O(εκ(A))O(\varepsilon \cdot \kappa(A))다. Householder 반사 H=I2uuTH = I - 2uu^T는 반사 대칭으로 O(ε)O(\varepsilon) 수준의 직교성을 보장한다.

QR 알고리즘 Ak+1=RkQkA_{k+1} = R_k Q_k은 이 구조를 고유값 계산에 응용한다. Ak+1=QkTAkQkA_{k+1} = Q_k^T A_k Q_k이므로 닮음변환이 유지되고, 반복이 AkA^k의 QR 분해와 동치임을 보이면 수렴이 보장된다.

정리

  • 내적 공리 세 가지는 Cauchy-Schwarz를 통해 각도·거리·정사영 전체를 생성한다.
  • 정사영 P2=PP^2 = P, PT=PP^T = P은 Best Approximation의 대수적 등가물이다.
  • 최소제곱은 정사영의 구체화이고, ATAA^TA를 직접 구성하면 조건수가 제곱으로 증가한다 — QR이 수치적으로 우월한 이유다.
  • Gram 행렬 G=ATAG = A^TA는 내적 구조를 PSD 행렬 한 장에 압축하고, detG\det G는 부피의 제곱이다.
  • QR 분해는 Gram-Schmidt를 행렬 방정식으로 쓴 것이자 Gram 행렬의 Cholesky 루트다.

내적 공간의 다섯 기둥은 독립된 주제가 아니라, 하나의 구조가 정의 → 기하 → 계산 → 압축 → 통합의 방향으로 전개되는 단일한 서사다.