IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지

가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.


선형 회귀는 LinearRegression().fit(X, y) 한 줄이다. 그런데 그 한 줄 뒤에는 잡음이 가우시안이어야 하고, 데이터 행렬이 full rank여야 하며, 잔차가 등분산이어야 한다는 세 가정이 조용히 작동하고 있다. 이 가정들이 깨지면 OLS는 Ridge가 되고, Lasso가 되고, Pseudoinverse가 된다. 왜 하필 그 방향으로 깨지는가?

최소제곱의 통계적 기원

데이터 생성 모델 y=Xβ+ϵy = X\beta + \epsilon, ϵN(0,σ2I)\epsilon \sim \mathcal{N}(0, \sigma^2 I) 하에서 log-likelihood는

(β)=n2log(2πσ2)12σ2yXβ2.\ell(\beta) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\|y - X\beta\|^2.

β\beta에 대해 상수를 제거하면 12σ2yXβ2-\frac{1}{2\sigma^2}\|y - X\beta\|^2만 남는다. log-likelihood 최대화 = 잔차 제곱합 최소화. 최소제곱법은 천재적 직관이 아니라, “잡음이 가우시안”이라는 가정에서 자동으로 나오는 결론이다.

Normal Equation XXβ^=XyX^\top X\hat\beta = X^\top y는 이 목적함수를 β\beta로 미분해 0으로 놓은 1계 조건이다. XX0X^\top X \succ 0(full column rank)이면 유일한 해 β^=(XX)1Xy\hat\beta = (X^\top X)^{-1}X^\top y가 존재한다. MLE 추정량의 분포는

β^N ⁣(β, σ2(XX)1),\hat\beta \sim \mathcal{N}\!\bigl(\beta,\ \sigma^2(X^\top X)^{-1}\bigr),

비편향이고 분산이 명시적이다. 더 나아가 Gauss-Markov 정리는 가우시안 가정 없이도 OLS가 모든 선형 비편향 추정량 중 분산이 최소(BLUE)임을 보장한다. 잡음 분포를 잘못 가정해도 OLS는 어느 정도 robust하다는 뜻이다.

기하학: 투영으로 보면 모두 같다

같은 식 β^=(XX)1Xy\hat\beta = (X^\top X)^{-1}X^\top y를 공간적으로 보면 다른 그림이 나온다. y^=Xβ^\hat y = X\hat\betayRny \in \mathbb{R}^ncol(X)\text{col}(X)라는 부분공간으로 수직투영한 점이다.

H=X(XX)1X,y^=Hy.H = X(X^\top X)^{-1}X^\top, \qquad \hat y = Hy.

Hat matrix HHH2=HH^2 = H, H=HH^\top = H를 만족하는 orthogonal projection이다. 고유값은 {0,1}\{0, 1\}뿐이고 tr(H)=p\text{tr}(H) = p — 모델 자유도와 정확히 일치한다. 잔차 r=(IH)yr = (I - H)ycol(X)\text{col}(X)에 수직이고, 잔차 공간의 차원은 npn - p다. 이것이 분산 비편향 추정에 1/(np)1/(n-p)가 들어가는 이유다.

OLS와 Kernel Ridge의 통합

이 투영 관점은 Hilbert 공간으로 그대로 확장된다. RKHS에서 함수를 특정 부분공간으로 투영하면 Kernel Ridge Regression의 Representer 해가 나온다. OLS와 KRR은 같은 정리의 두 차원이다.

대각원소 hiih_{ii}leverage — 점 ii가 회귀선에 미치는 영향력이다. Var(y^i)=σ2hii\text{Var}(\hat y_i) = \sigma^2 h_{ii}이고 hii>2p/nh_{ii} > 2p/n이면 고-leverage 점으로 의심한다.

XXX^\top X가 특이일 때: Pseudoinverse

현실 데이터에서 XXX^\top X가 정확히 가역인 경우는 드물다. n<pn < p이거나, 두 feature가 강하게 공선이거나, 수치적 조건수가 101410^{14}를 넘으면 사실상 특이다.

이때 OLS 해는 유일하지 않다. 해 집합은 {β^+v:vnull(X)}\{\hat\beta + v : v \in \text{null}(X)\} — 무한히 많고, 모두 같은 y^=Xβ\hat y = X\beta를 만든다. Moore-Penrose pseudoinverse X+X^+는 이 집합에서 norm이 가장 작은 해를 자동으로 고른다.

X+=VΣ+U,Σii+={1/σiσi>00σi=0.X^+ = V\Sigma^+U^\top, \qquad \Sigma^+_{ii} = \begin{cases} 1/\sigma_i & \sigma_i > 0 \\ 0 & \sigma_i = 0 \end{cases}.

Ridge regression의 λ0+\lambda \to 0^+ 극한이 pseudoinverse다. sklearn.linear_model.LinearRegression은 내부적으로 SVD 기반 pseudoinverse를 사용한다 — 교과서의 Normal Equation과 실제 구현은 다르다.

수치 안정성 순위는 SVD > QR > Cholesky > Normal Equation이다. 조건수가 클수록 Normal Equation은 오차를 제곱으로 키운다.

Ridge: 하나의 식, 세 가지 얼굴

XXX^\top X의 조건수가 크면 β^\hat\beta의 분산이 폭발한다. Ridge는 λI\lambda I를 더해 이를 막는다.

β^R=(XX+λI)1Xy.\hat\beta_R = (X^\top X + \lambda I)^{-1}X^\top y.

이 식은 세 가지 동등한 방식으로 해석된다.

해석형태
정규화minyXβ2+λβ2\min \|y - X\beta\|^2 + \lambda\|\beta\|^2
MAP (Bayesian)βN(0,τ2I)\beta \sim \mathcal{N}(0, \tau^2 I), λ=σ2/τ2\lambda = \sigma^2/\tau^2
제약minyXβ2\min \|y - X\beta\|^2 s.t. β2c2\|\beta\|^2 \leq c^2

SVD로 펼치면 구조가 가장 명확하다.

β^R=i=1rσiσi2+λ(uiy)vi.\hat\beta_R = \sum_{i=1}^r \frac{\sigma_i}{\sigma_i^2 + \lambda}(u_i^\top y)\,v_i.

shrinkage factor fi=σi2/(σi2+λ)f_i = \sigma_i^2/(\sigma_i^2 + \lambda)는 큰 특이값 방향(정보 풍부)은 거의 1, 작은 특이값 방향(잡음 취약)은 강하게 0으로 축소한다. PCA와 유사한 효과가 자동으로 일어난다.

트레이드오프

λ>0\lambda > 0이면 항상 bias가 발생한다. 그러나 분산은 항상 OLS보다 작다. 1D oracle 최적은 λ=σ2/β2\lambda^* = \sigma^2/\beta^2 — 신호가 약할수록 더 많이 정규화해야 한다. NN weight decay, SVM의 12w2\frac{1}{2}\|w\|^2, Gaussian Process posterior mean은 모두 같은 수학이다.

Lasso: L1이 sparsity를 만드는 이유

Ridge의 L2 ball은 매끄러운 공이다. Lasso의 L1 ball은 좌표축 위에 꼭짓점이 있는 다이아몬드다. OLS 등고선(타원체)이 다이아몬드와 만나는 첫 점은 꼭짓점일 가능성이 높고, 꼭짓점은 좌표축 위에 있으므로 일부 계수가 정확히 0이 된다.

이 직관의 수학적 근거는 subdifferential이다. βj|\beta_j|βj=0\beta_j = 0에서 미분 불가능하고, βj0=[1,1]\partial|\beta_j|\big|_0 = [-1, 1]이라는 구간을 갖는다. KKT 조건은

β^L,j=0    1nXj(yXβ^L)λ.\hat\beta_{L,j} = 0 \iff \left|\tfrac{1}{n}X_j^\top(y - X\hat\beta_L)\right| \leq \lambda.

0이 되기 위해 등식이 아닌 부등식으로 충분하다. L2의 KKT에서는 βj=0\beta_j = 0이 되려면 Xjr=0X_j^\top r = 0이라는 엄격한 등식이 필요하므로 우연히 발생하지 않는다.

한 좌표를 고정한 1D 최소화의 closed-form은 soft-thresholding이다.

Sλ(z)=sgn(z)max(zλ,0).S_\lambda(z) = \text{sgn}(z)\cdot\max(|z| - \lambda,\, 0).

이 업데이트를 좌표 순서대로 반복하는 것이 sklearn Lasso의 내부 알고리즘(Coordinate Descent)이다. Bayesian 관점에서는 Laplace prior βjLaplace(0,b)\beta_j \sim \text{Laplace}(0, b)의 MAP와 정확히 일치한다 — 0에서 첨두인 prior가 0 해를 자연스럽게 유도한다.

Bias-Variance: 정규화의 통합 언어

예측 오차는 항상 세 항으로 분해된다.

E[(y0f^(x0))2]=(f(x0)E[f^(x0)])2Bias2+Var(f^(x0))Variance+σ2Noise.\mathbb{E}\bigl[(y_0 - \hat f(x_0))^2\bigr] = \underbrace{(f(x_0) - \mathbb{E}[\hat f(x_0)])^2}_{\text{Bias}^2} + \underbrace{\text{Var}(\hat f(x_0))}_{\text{Variance}} + \underbrace{\sigma^2}_{\text{Noise}}.

OLS는 bias = 0이지만 VarOLS(x0)=σ2x0(XX)1x0\text{Var}_{\text{OLS}}(x_0) = \sigma^2 x_0^\top(X^\top X)^{-1}x_0로 데이터가 적거나 ppnn에 가까울 때 폭발한다. Ridge는 λ>0\lambda > 0이면 항상 bias를 도입하지만 분산은 항상 OLS보다 작다.

학습 곡선의 이론값은 Rˉσ2(1+p/(np1))\bar R \approx \sigma^2(1 + p/(n-p-1))npn-p가 작으면 risk가 폭발하고, nn \to \infty에서 irreducible error σ2\sigma^2에 수렴한다.

트레이드오프: 현대 ML에서의 한계

NN의 over-parameterization regime에서는 파라미터 수가 nn보다 훨씬 많아도 test error가 다시 감소하는 double descent 현상이 나타난다. 이는 “복잡도 ↑ → variance ↑“라는 전통적 분해의 직관과 어긋난다. Bias-Variance가 ML의 모든 것을 설명하지는 않는다 — 이를 인정하는 것이 현대 이론의 출발점이다.

정리

  • MLE = OLS: 잡음이 가우시안일 때만 성립한다. 잡음이 Laplace면 MLE는 LAD(절댓값 최소화)가 된다.
  • 기하학: Normal Equation은 투영의 언어다. 같은 구조가 RKHS·GP까지 확장된다.
  • Pseudoinverse: sklearn이 실제로 푸는 것. Ridge의 λ0\lambda \to 0 극한이며 min-norm 해를 자동 선택