SVD는 왜 모든 행렬 분해의 황금 표준인가
단위구가 타원체로 찌그러지는 기하학적 직관부터 Eckart-Young 저랭크 최적성, Randomized SVD의 확률론적 보장까지, SVD가 선형대수의 통합 언어가 되는 이유를 추적한다.
- 01 선형대수의 모든 정리는 왜 그렇게 많은 곳에서 다시 나타나는가
- 02 행렬 분해는 왜 그렇게 설계됐는가
- 03 고유값은 행렬의 무엇을 말하는가
- 04 SVD는 왜 모든 행렬 분해의 황금 표준인가
- 05 내적 공간의 다섯 기둥은 하나의 구조다
- 06 텐서란 무엇인가 — 좌표를 넘어선 다중선형 대상
행렬을 분해하는 방법은 여러 가지다. LU, QR, 고유값 분해 — 각각 목적이 다르고 제약이 있다. 그런데 SVD만은 정사각이든 직사각이든, 정칙이든 특이하든, 모든 행렬에 존재하며 노름·랭크·역행렬·차원축소를 한 번에 준다. 어떻게 이것이 가능한가?
단위구가 타원체로 찌그러진다
SVD의 출발점은 기하다. 행렬 이 단위구 에 작용하면 그 이미지는 언제나 중심이 원점인 타원체다. 이 타원체의 반지름이 특이값 이고, 반지름 방향이 우특이벡터 , 대응하는 출력 방향이 좌특이벡터 다.
이를 행렬로 쓰면 , 즉 . 가 대칭 PSD이므로 스펙트럼 정리에 의해 항상 직교 대각화 가능하고, 그 고유값이 다. 특이값이 항상 비음인 이유가 여기 있다 — .
V^T Σ U
ℝ^n ----> ℝ^n --(σ_i 확축)--> ℝ^m ----> ℝ^m
(입력 회전) (출력 회전)
모든 선형 변환은 “입력 회전 → 축별 확대/축소 → 출력 회전”의 합성이다. SVD는 이 사실의 정확한 수학적 진술이다.
특이값은 유일하지만 특이벡터는 아니다
의 특이값 ()은 유일하다. 단, 특이벡터는 중복 특이값이 있을 때 대응 부분공간 내에서 임의의 정규직교 기저를 선택할 수 있다.
는 의 고유값 집합으로, 특성다항식의 근으로 유일 결정된다. 부호가 없으므로 으로 유일하게 정해진다. 중복도 인 특이값에 대해서는 가 차원이며, 그 안에서 임의의 정규직교 기저가 유효한 특이벡터 집합이 된다.
특이값의 안정성도 주목할 만하다. 행렬 를 만큼 섭동했을 때 특이값 변화는 Weyl 부등식으로 제어된다:
고유값과 달리 비대칭 행렬에서도 Lipschitz-1 안정성이 보장된다. 이것이 수치 계산에서 SVD가 선호되는 근본 이유다.
Pseudoinverse와 최소 노름 최소 제곱
역행렬이 없는 행렬에서 “최선의 해”를 구하는 문제가 있다. Moore-Penrose pseudoinverse 는 이 문제의 유일한 해답이다. 는 의 0이 아닌 대각 성분을 역수로 바꾼 것이다.
과결정 시스템 ()에서 는 를 최소화하는 최소 제곱 해고, 부족결정 시스템 ()에서는 를 최소화하는 해 중 가 가장 작은 것이다. Rank-deficient 경우에는 두 조건을 동시에 만족한다.
Ridge 해 는 SVD로 쓰면 각 번째 성분에 를 곱한다. 이면 인 성분에서 로 수렴하고, 인 성분은 0으로 유지된다 — 정확히 다. Tikhonov 정규화는 작은 특이값에서 조건수 폭발을 막는 완충재다.
Eckart-Young: 저랭크 근사의 최적성
에서 앞 항만 남긴 Truncated SVD 는 rank- 근사 중 최선이다.
두 노름에서 최적해가 같은 라는 점이 핵심이다. Mirsky의 일반화는 더 강하다: 2-norm, Frobenius, nuclear norm을 포함한 모든 유니타리 불변 노름에서 가 동시에 최적이다. PCA의 -차원 투영이 데이터 손실을 최소화하는 이유, 이미지 압축에서 상위 특이값을 남기는 이유가 전부 이 정리에서 나온다.
PCA의 경우 이 최적성은 두 가지 얼굴을 가진다 — 분산 최대화와 재구성 오차 최소화. 피타고라스 항등식 의 합산이 두 목적함수를 동등하게 만든다. 공분산 행렬의 고유벡터 = 데이터 행렬의 우특이벡터 = 분산 최대화 방향 = 재구성 오차 최소화 방향. 셋이 하나다.
Randomized SVD: 확률이 정확도를 보장한다
에서 full SVD의 복잡도는 감당하기 어렵다. Halko-Martinsson-Tropp (2011)의 Randomized SVD는 이 문제를 로 해결한다.
핵심 아이디어는 두 단계다.
- Range finder: 랜덤 Gaussian 행렬 로 를 만들고 QR 분해로 의 치역에 대한 근사 정규직교 기저 를 얻는다.
- 소규모 SVD: 는 의 작은 행렬이다. 여기서 SVD를 수행하고 를 곱해 복원한다.
오차 보장은 확률론적이다:
정도의 oversampling이면 Eckart-Young 최적 오차의 몇 배 이내로 들어온다. 스펙트럼이 완만히 감소하는 행렬에서는 power iteration 로 큰 특이값을 지수적으로 부각시켜 정확도를 높인다.
정리
- SVD 는 단위구 → 타원체 변환에서 직접 유도된다. 특이값은 유일하고, 항상 비음이며, Weyl 부등식으로 섭동에 안정적이다.
- Pseudoinverse 는 역행렬이 없어도 “최소 노름 최소 제곱” 해를 유일하게 정의한다.
- Eckart-Young 정리에 의해 Truncated SVD는 모든 유니타리 불변 노름에서 동시에 최적의 저랭크 근사다. PCA는 이 최적성의 데이터 분석 버전이다.
- Randomized SVD는 복잡도로 확률론적으로 보장된 근사를 제공한다. 실무 파라미터 이면 대부분의 경우 충분하다.
SVD가 선형대수의 황금 표준인 이유는 하나다 — 다른 모든 분해가 “특별한 경우에만 작동할 때” SVD는 항상 작동하고, 그 작동의 결과가 기하·대수·확률 세 언어 모두로 해석된다.