선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지
가우시안 잡음 가정에서 MLE가 최소제곱이 되는 이유부터, 기하학적 투영·Ridge의 세 해석·Lasso의 sparsity·Bias-Variance 분해까지, 회귀 이론의 통합 구조를 추적한다.
- 01 선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지
- 02 Logistic Regression의 통일 철학 — MLE가 모든 것을 설명한다
- 03 결정트리의 모든 분할 기준은 하나의 질문에서 나온다
- 04 Random Forest는 왜 트리를 많이 추가할수록 좋아지는가
- 05 AdaBoost에서 XGBoost까지 — Boosting은 하나의 수식이다
- 06 Naive Bayes에서 Generative Model까지 — 가정이 틀려도 잘 작동하는 이유
- 07 비지도 학습의 세 가지 질문: 모양, 계층, 밀도
선형 회귀는 LinearRegression().fit(X, y) 한 줄이다. 그런데 그 한 줄 뒤에는 잡음이 가우시안이어야 하고, 데이터 행렬이 full rank여야 하며, 잔차가 등분산이어야 한다는 세 가정이 조용히 작동하고 있다. 이 가정들이 깨지면 OLS는 Ridge가 되고, Lasso가 되고, Pseudoinverse가 된다. 왜 하필 그 방향으로 깨지는가?
최소제곱의 통계적 기원
데이터 생성 모델 , 하에서 log-likelihood는
에 대해 상수를 제거하면 만 남는다. log-likelihood 최대화 = 잔차 제곱합 최소화. 최소제곱법은 천재적 직관이 아니라, “잡음이 가우시안”이라는 가정에서 자동으로 나오는 결론이다.
Normal Equation 는 이 목적함수를 로 미분해 0으로 놓은 1계 조건이다. (full column rank)이면 유일한 해 가 존재한다. MLE 추정량의 분포는
비편향이고 분산이 명시적이다. 더 나아가 Gauss-Markov 정리는 가우시안 가정 없이도 OLS가 모든 선형 비편향 추정량 중 분산이 최소(BLUE)임을 보장한다. 잡음 분포를 잘못 가정해도 OLS는 어느 정도 robust하다는 뜻이다.
기하학: 투영으로 보면 모두 같다
같은 식 를 공간적으로 보면 다른 그림이 나온다. 는 을 라는 부분공간으로 수직투영한 점이다.
Hat matrix 는 , 를 만족하는 orthogonal projection이다. 고유값은 뿐이고 — 모델 자유도와 정확히 일치한다. 잔차 는 에 수직이고, 잔차 공간의 차원은 다. 이것이 분산 비편향 추정에 가 들어가는 이유다.
이 투영 관점은 Hilbert 공간으로 그대로 확장된다. RKHS에서 함수를 특정 부분공간으로 투영하면 Kernel Ridge Regression의 Representer 해가 나온다. OLS와 KRR은 같은 정리의 두 차원이다.
대각원소 는 leverage — 점 가 회귀선에 미치는 영향력이다. 이고 이면 고-leverage 점으로 의심한다.
가 특이일 때: Pseudoinverse
현실 데이터에서 가 정확히 가역인 경우는 드물다. 이거나, 두 feature가 강하게 공선이거나, 수치적 조건수가 를 넘으면 사실상 특이다.
이때 OLS 해는 유일하지 않다. 해 집합은 — 무한히 많고, 모두 같은 를 만든다. Moore-Penrose pseudoinverse 는 이 집합에서 norm이 가장 작은 해를 자동으로 고른다.
Ridge regression의 극한이 pseudoinverse다. sklearn.linear_model.LinearRegression은 내부적으로 SVD 기반 pseudoinverse를 사용한다 — 교과서의 Normal Equation과 실제 구현은 다르다.
수치 안정성 순위는 SVD > QR > Cholesky > Normal Equation이다. 조건수가 클수록 Normal Equation은 오차를 제곱으로 키운다.
Ridge: 하나의 식, 세 가지 얼굴
의 조건수가 크면 의 분산이 폭발한다. Ridge는 를 더해 이를 막는다.
이 식은 세 가지 동등한 방식으로 해석된다.
| 해석 | 형태 |
|---|---|
| 정규화 | |
| MAP (Bayesian) | , |
| 제약 | s.t. |
SVD로 펼치면 구조가 가장 명확하다.
shrinkage factor 는 큰 특이값 방향(정보 풍부)은 거의 1, 작은 특이값 방향(잡음 취약)은 강하게 0으로 축소한다. PCA와 유사한 효과가 자동으로 일어난다.
이면 항상 bias가 발생한다. 그러나 분산은 항상 OLS보다 작다. 1D oracle 최적은 — 신호가 약할수록 더 많이 정규화해야 한다. NN weight decay, SVM의 , Gaussian Process posterior mean은 모두 같은 수학이다.
Lasso: L1이 sparsity를 만드는 이유
Ridge의 L2 ball은 매끄러운 공이다. Lasso의 L1 ball은 좌표축 위에 꼭짓점이 있는 다이아몬드다. OLS 등고선(타원체)이 다이아몬드와 만나는 첫 점은 꼭짓점일 가능성이 높고, 꼭짓점은 좌표축 위에 있으므로 일부 계수가 정확히 0이 된다.
이 직관의 수학적 근거는 subdifferential이다. 는 에서 미분 불가능하고, 이라는 구간을 갖는다. KKT 조건은
0이 되기 위해 등식이 아닌 부등식으로 충분하다. L2의 KKT에서는 이 되려면 이라는 엄격한 등식이 필요하므로 우연히 발생하지 않는다.
한 좌표를 고정한 1D 최소화의 closed-form은 soft-thresholding이다.
이 업데이트를 좌표 순서대로 반복하는 것이 sklearn Lasso의 내부 알고리즘(Coordinate Descent)이다. Bayesian 관점에서는 Laplace prior 의 MAP와 정확히 일치한다 — 0에서 첨두인 prior가 0 해를 자연스럽게 유도한다.
Bias-Variance: 정규화의 통합 언어
예측 오차는 항상 세 항으로 분해된다.
OLS는 bias = 0이지만 로 데이터가 적거나 가 에 가까울 때 폭발한다. Ridge는 이면 항상 bias를 도입하지만 분산은 항상 OLS보다 작다.
학습 곡선의 이론값은 — 가 작으면 risk가 폭발하고, 에서 irreducible error 에 수렴한다.
NN의 over-parameterization regime에서는 파라미터 수가 보다 훨씬 많아도 test error가 다시 감소하는 double descent 현상이 나타난다. 이는 “복잡도 ↑ → variance ↑“라는 전통적 분해의 직관과 어긋난다. Bias-Variance가 ML의 모든 것을 설명하지는 않는다 — 이를 인정하는 것이 현대 이론의 출발점이다.
정리
- MLE = OLS: 잡음이 가우시안일 때만 성립한다. 잡음이 Laplace면 MLE는 LAD(절댓값 최소화)가 된다.
- 기하학: Normal Equation은 투영의 언어다. 같은 구조가 RKHS·GP까지 확장된다.
- Pseudoinverse: sklearn이 실제로 푸는 것. Ridge의 극한이며 min-norm 해를 자동 선택