선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지

가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.

선형 회귀는 LinearRegression().fit(X, y) 한 줄이다. 그런데 그 한 줄 뒤에는 잡음이 가우시안이어야 하고, 데이터 행렬이 full rank여야 하며, 잔차가 등분산이어야 한다는 세 가정이 조용히 작동하고 있다. 이 가정들이 깨지면 OLS는 Ridge가 되고, Lasso가 되고, Pseudoinverse가 된다. 왜 하필 그 방향으로 깨지는가?

최소제곱의 통계적 기원

데이터 생성 모델 $y = X\beta + \epsilon$ , $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$ 하에서 log-likelihood는

\ell(\beta) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\|y - X\beta\|^2.

$\beta$ 에 대해 상수를 제거하면 $-\frac{1}{2\sigma^2}\|y - X\beta\|^2$ 만 남는다. log-likelihood 최대화 = 잔차 제곱합 최소화. 최소제곱법은 천재적 직관이 아니라, “잡음이 가우시안”이라는 가정에서 자동으로 나오는 결론이다.

Normal Equation $X^\top X\hat\beta = X^\top y$ 는 이 목적함수를 $\beta$ 로 미분해 0으로 놓은 1계 조건이다. $X^\top X \succ 0$ (full column rank)이면 유일한 해 $\hat\beta = (X^\top X)^{-1}X^\top y$ 가 존재한다. MLE 추정량의 분포는

\hat\beta \sim \mathcal{N}\!\bigl(\beta,\ \sigma^2(X^\top X)^{-1}\bigr),

비편향이고 분산이 명시적이다. 더 나아가 Gauss-Markov 정리는 가우시안 가정 없이도 OLS가 모든 선형 비편향 추정량 중 분산이 최소(BLUE)임을 보장한다. 잡음 분포를 잘못 가정해도 OLS는 어느 정도 robust하다는 뜻이다.

기하학: 투영으로 보면 모두 같다

같은 식 $\hat\beta = (X^\top X)^{-1}X^\top y$ 를 공간적으로 보면 다른 그림이 나온다. $\hat y = X\hat\beta$ 는 $y \in \mathbb{R}^n$ 을 $\text{col}(X)$ 라는 부분공간으로 수직투영한 점이다.

H = X(X^\top X)^{-1}X^\top, \qquad \hat y = Hy.

Hat matrix $H$ 는 $H^2 = H$ , $H^\top = H$ 를 만족하는 orthogonal projection이다. 고유값은 $\{0, 1\}$ 뿐이고 $\text{tr}(H) = p$ — 모델 자유도와 정확히 일치한다. 잔차 $r = (I - H)y$ 는 $\text{col}(X)$ 에 수직이고, 잔차 공간의 차원은 $n - p$ 다. 이것이 분산 비편향 추정에 $1/(n-p)$ 가 들어가는 이유다.

✎ OLS와 Kernel Ridge의 통합

이 투영 관점은 Hilbert 공간으로 그대로 확장된다. RKHS에서 함수를 특정 부분공간으로 투영하면 Kernel Ridge Regression의 Representer 해가 나온다. OLS와 KRR은 같은 정리의 두 차원이다.

대각원소 $h_{ii}$ 는 leverage — 점 $i$ 가 회귀선에 미치는 영향력이다. $\text{Var}(\hat y_i) = \sigma^2 h_{ii}$ 이고 $h_{ii} > 2p/n$ 이면 고-leverage 점으로 의심한다.

$X^\top X$ 가 특이일 때: Pseudoinverse

현실 데이터에서 $X^\top X$ 가 정확히 가역인 경우는 드물다. $n < p$ 이거나, 두 feature가 강하게 공선이거나, 수치적 조건수가 $10^{14}$ 를 넘으면 사실상 특이다.

이때 OLS 해는 유일하지 않다. 해 집합은 $\{\hat\beta + v : v \in \text{null}(X)\}$ — 무한히 많고, 모두 같은 $\hat y = X\beta$ 를 만든다. Moore-Penrose pseudoinverse $X^+$ 는 이 집합에서 norm이 가장 작은 해를 자동으로 고른다.

X^+ = V\Sigma^+U^\top, \qquad \Sigma^+_{ii} = \begin{cases} 1/\sigma_i & \sigma_i > 0 \\ 0 & \sigma_i = 0 \end{cases}.

Ridge regression의 $\lambda \to 0^+$ 극한이 pseudoinverse다. sklearn.linear_model.LinearRegression은 내부적으로 SVD 기반 pseudoinverse를 사용한다 — 교과서의 Normal Equation과 실제 구현은 다르다.

수치 안정성 순위는 SVD > QR > Cholesky > Normal Equation이다. 조건수가 클수록 Normal Equation은 오차를 제곱으로 키운다.

Ridge: 하나의 식, 세 가지 얼굴

$X^\top X$ 의 조건수가 크면 $\hat\beta$ 의 분산이 폭발한다. Ridge는 $\lambda I$ 를 더해 이를 막는다.

\hat\beta_R = (X^\top X + \lambda I)^{-1}X^\top y.

이 식은 세 가지 동등한 방식으로 해석된다.

해석	형태
정규화	$\min \\|y - X\beta\\|^2 + \lambda\\|\beta\\|^2$
MAP (Bayesian)	$\beta \sim \mathcal{N}(0, \tau^2 I)$ , $\lambda = \sigma^2/\tau^2$
제약	$\min \\|y - X\beta\\|^2$ s.t. $\\|\beta\\|^2 \leq c^2$

SVD로 펼치면 구조가 가장 명확하다.

\hat\beta_R = \sum_{i=1}^r \frac{\sigma_i}{\sigma_i^2 + \lambda}(u_i^\top y)\,v_i.

shrinkage factor $f_i = \sigma_i^2/(\sigma_i^2 + \lambda)$ 는 큰 특이값 방향(정보 풍부)은 거의 1, 작은 특이값 방향(잡음 취약)은 강하게 0으로 축소한다. PCA와 유사한 효과가 자동으로 일어난다.

✎ 트레이드오프

$\lambda > 0$ 이면 항상 bias가 발생한다. 그러나 분산은 항상 OLS보다 작다. 1D oracle 최적은 $\lambda^* = \sigma^2/\beta^2$ — 신호가 약할수록 더 많이 정규화해야 한다. NN weight decay, SVM의 $\frac{1}{2}\|w\|^2$ , Gaussian Process posterior mean은 모두 같은 수학이다.

Lasso: L1이 sparsity를 만드는 이유

Ridge의 L2 ball은 매끄러운 공이다. Lasso의 L1 ball은 좌표축 위에 꼭짓점이 있는 다이아몬드다. OLS 등고선(타원체)이 다이아몬드와 만나는 첫 점은 꼭짓점일 가능성이 높고, 꼭짓점은 좌표축 위에 있으므로 일부 계수가 정확히 0이 된다.

\hat\beta_{L,j} = 0 \iff \left|\tfrac{1}{n}X_j^\top(y - X\hat\beta_L)\right| \leq \lambda.

0이 되기 위해 등식이 아닌 부등식으로 충분하다. L2의 KKT에서는 $\beta_j = 0$ 이 되려면 $X_j^\top r = 0$ 이라는 엄격한 등식이 필요하므로 우연히 발생하지 않는다.

한 좌표를 고정한 1D 최소화의 closed-form은 soft-thresholding이다.

S_\lambda(z) = \text{sgn}(z)\cdot\max(|z| - \lambda,\, 0).

이 업데이트를 좌표 순서대로 반복하는 것이 sklearn Lasso의 내부 알고리즘(Coordinate Descent)이다. Bayesian 관점에서는 Laplace prior $\beta_j \sim \text{Laplace}(0, b)$ 의 MAP와 정확히 일치한다 — 0에서 첨두인 prior가 0 해를 자연스럽게 유도한다.

Bias-Variance: 정규화의 통합 언어

예측 오차는 항상 세 항으로 분해된다.

\mathbb{E}\bigl[(y_0 - \hat f(x_0))^2\bigr] = \underbrace{(f(x_0) - \mathbb{E}[\hat f(x_0)])^2}_{\text{Bias}^2} + \underbrace{\text{Var}(\hat f(x_0))}_{\text{Variance}} + \underbrace{\sigma^2}_{\text{Noise}}.

OLS는 bias = 0이지만 $\text{Var}_{\text{OLS}}(x_0) = \sigma^2 x_0^\top(X^\top X)^{-1}x_0$ 로 데이터가 적거나 $p$ 가 $n$ 에 가까울 때 폭발한다. Ridge는 $\lambda > 0$ 이면 항상 bias를 도입하지만 분산은 항상 OLS보다 작다.

학습 곡선의 이론값은 $\bar R \approx \sigma^2(1 + p/(n-p-1))$ — $n-p$ 가 작으면 risk가 폭발하고, $n \to \infty$ 에서 irreducible error $\sigma^2$ 에 수렴한다.

✎ 트레이드오프: 현대 ML에서의 한계

NN의 over-parameterization regime에서는 파라미터 수가 $n$ 보다 훨씬 많아도 test error가 다시 감소하는 double descent 현상이 나타난다. 이는 “복잡도 ↑ → variance ↑“라는 전통적 분해의 직관과 어긋난다. Bias-Variance가 ML의 모든 것을 설명하지는 않는다 — 이를 인정하는 것이 현대 이론의 출발점이다.

정리

MLE = OLS: 잡음이 가우시안일 때만 성립한다. 잡음이 Laplace면 MLE는 LAD(절댓값 최소화)가 된다.
기하학: Normal Equation은 투영의 언어다. 같은 구조가 RKHS·GP까지 확장된다.
Pseudoinverse: sklearn이 실제로 푸는 것. Ridge의 $\lambda \to 0$ 극한이며 min-norm 해를 자동 선택