Logistic Regression의 통일 철학 — MLE가 모든 것을 설명한다
왜 sigmoid인가, 왜 cross-entropy인가, 왜 softmax인가. Bernoulli MLE 한 줄 유도부터 분리 문제·Firth 보정까지, 분류 알고리즘의 공통 뿌리를 추적한다.
- 01 선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지
- 02 Logistic Regression의 통일 철학 — MLE가 모든 것을 설명한다
- 03 결정트리의 모든 분할 기준은 하나의 질문에서 나온다
- 04 Random Forest는 왜 트리를 많이 추가할수록 좋아지는가
- 05 AdaBoost에서 XGBoost까지 — Boosting은 하나의 수식이다
- 06 Naive Bayes에서 Generative Model까지 — 가정이 틀려도 잘 작동하는 이유
- 07 비지도 학습의 세 가지 질문: 모양, 계층, 밀도
Logistic Regression을 “분류 알고리즘 하나”로 보면 작게 보인다. 하지만 MLE 한 줄 유도를 따라가면 sigmoid의 출처, cross-entropy의 정체, softmax의 일반화, 그리고 왜 weight decay가 필수인지까지 모두 같은 뿌리에서 나온다는 것을 알게 된다. 이 챕터들이 공유하는 질문은 하나다 — “MLE가 분류 문제에 적용될 때 무슨 일이 일어나는가?”
Bernoulli MLE가 sigmoid를 만드는 방법
에 선형 모델 를 직접 쓰면 두 가지가 어긋난다. 출력이 범위를 벗어나고, 이산 레이블에 연속 회귀를 강제한다. Bernoulli 분포의 자연 모수는 이고, 선형 출력을 이 범위로 매핑할 함수가 필요하다.
Logit 는 을 전체로 보내는 자연스러운 변환이다. 이를 뒤집으면 sigmoid가 나온다.
여기서 sigmoid는 선택이 아니라 Bernoulli 분포의 canonical link의 역함수다. 그리고 Bernoulli likelihood 에 log를 취하면
이 나온다. 이것이 binary cross-entropy의 음수다. MLE = cross-entropy 최소화는 유도의 결과이지 정의가 아니다.
Concavity — 왜 LR은 항상 같은 답을 주는가
log-likelihood의 Hessian을 계산하면 구조가 드러난다.
이면 이므로 , 따라서 (PSD), (NSD). log-likelihood는 concave다.
가 full column rank이고 데이터가 linear separation이 아니면, 가 유일하게 존재한다.
strictly concave + separation 없을 때 sublevel set이 compact → 유일 global max. 어떤 초기값에서 gradient descent나 Newton-Raphson을 돌려도 같은 답에 수렴한다. 심층 신경망과 달리 local minimum에 갇히지 않는다.
이 concavity는 **IRLS(Iteratively Reweighted Least Squares)**의 기반이기도 하다. Newton-Raphson update를 정리하면
가 되는데, 이는 working response 를 타겟으로 한 가중 최소제곱 문제의 해다. Newton 한 step이 WLS 한 번과 정확히 같다. 수렴 속도는 quadratic — gradient descent의 linear 수렴보다 훨씬 빠르다 (실험에서 7 iteration vs 623 iteration).
GLM — 분포가 바뀌어도 공식은 그대로
Logistic Regression이 Bernoulli + logit link인 GLM의 특수 사례라는 관점은 강력하다. Exponential Family의 통일 형태
에서 canonical link 를 쓰면 분포에 무관하게 score equation이 , Hessian이 로 나온다.
| 분포 | Canonical link | |
|---|---|---|
| Normal | (상수) | identity |
| Bernoulli | logit | |
| Poisson | log | |
| Gamma | inverse |
공식은 같고 만 바뀐다. IRLS 한 줄이 모든 GLM에 통한다.
Gaussian에서 이므로 IRLS가 1 iteration에 수렴한다 — 이것이 OLS다. Poisson에서 working response는 가 되어 log-scale 회귀로 환원된다. canonical link의 마법은 분류 문제를 회귀 문제로 반복적으로 환원하는 것이다.
Softmax와 Identifiability
K-class 일반화에서 softmax
는 sigmoid의 자연스러운 확장이다. cross-entropy loss가 categorical MLE의 negative log-likelihood라는 것도 같은 유도로 나온다. 이면 sigmoid로 돌아온다.
한 가지 주의할 점이 있다. (모든 클래스에 같은 벡터를 더함)로 분자·분모에서 가 약분되어 가 변하지 않는다. 해의 비유일성 — identifiability 문제다. 해결책은 으로 reference class를 고정하거나 L2 regularization을 추가하는 것이다. sklearn LogisticRegression의 기본값 C=1.0이 사실 이 문제의 보호 장치다.
PyTorch CrossEntropyLoss는 LogSoftmax + NLLLoss로 multinomial LR의 negative log-likelihood와 정확히 같다. 모든 NN 분류기의 출력층이 LR이다.
분리 문제 — MLE가 존재하지 않을 때
두 클래스가 hyperplane으로 완전히 분리되면 에서 로 보낼 때 (양성) 또는 (음성)이 되어 으로 올라간다. 그러나 어떤 유한 에서도 도달하지 않는다.
수치적으로는 Newton 업데이트가 발산한다 — 가 iteration마다 폭발적으로 증가한다. Hessian이 으로 degenerate해지면서 업데이트가 무한히 커진다.
Firth의 penalized likelihood는 이를 해결한다.
분리 방향에서 이면 이고 다. likelihood가 0으로 올라가는 속도보다 페널티가 로 떨어지는 속도가 빠르다 — 균형점이 유한한 곳에 생긴다.
Ridge ()는 계산이 빠르고 tuning이 필요하지만 coordinate-invariant하지 않고 systematic shrinkage bias가 있다. Firth는 tuning-free이고 coordinate-invariant하며 first-order bias를 제거하지만 매 iteration마다 행렬식 계산이 필요하다. 드문 사건(rare events)이나 high-dim regime ()에서는 Firth가 더 신뢰할 만하다.
Modern NN이 항상 weight decay를 쓰는 이유도 같은 뿌리에서 나온다. 깊은 네트워크는 train set에서 두 클래스를 분리하는 representation을 쉽게 만들어낸다. 그 순간 마지막 layer의 weight가 분리 방향으로 발산한다. Weight decay는 그 발산을 막는 Ridge LR이다. Label smoothing은 one-hot target을 부드럽게 만들어 MLE 발산 자체를 불가능하게 한다.
정리
- sigmoid: Bernoulli canonical link의 역함수. MLE를 계산하면 나온다.
- cross-entropy: Bernoulli negative log-likelihood. 선택이 아니라 유도의 결과다.
- IRLS: Newton = 가중 최소제곱. Concavity가 quadratic 수렴을 보장한다.
- GLM 통일: 분포만 바뀌고 score , Hessian , IRLS 공식은 그대로다.
- 분리 문제: MLE가 존재하지 않는 가장 극적인 사례. Ridge와 Firth, 그리고 NN의 weight decay가 모두 같은 문제에 대한 답이다.
MLE 한 줄 유도가 “왜 sigmoid인가”부터 “왜 weight decay인가”까지 설명한다. 이것이 LR을 마스터하는 것이 분류 알고리즘 절반을 마스터하는 것과 같은 이유다.