AdaBoost에서 XGBoost까지 — Boosting은 하나의 수식이다
지수손실 최소화라는 단일 프레임으로 AdaBoost의 가중치 공식부터 XGBoost의 closed-form leaf 값, LightGBM의 histogram 최적화, margin theory의 과적합 저항성까지 추적한다.
- 01 선형 회귀는 왜 최소제곱인가 — MLE부터 Lasso까지
- 02 Logistic Regression의 통일 철학 — MLE가 모든 것을 설명한다
- 03 결정트리의 모든 분할 기준은 하나의 질문에서 나온다
- 04 Random Forest는 왜 트리를 많이 추가할수록 좋아지는가
- 05 AdaBoost에서 XGBoost까지 — Boosting은 하나의 수식이다
- 06 Naive Bayes에서 Generative Model까지 — 가정이 틀려도 잘 작동하는 이유
- 07 비지도 학습의 세 가지 질문: 모양, 계층, 밀도
AdaBoost의 가중치 공식 는 왜 하필 그 형태인가? XGBoost의 leaf 값 는 어디서 왔나? 이 공식들은 서로 다른 알고리즘의 독립적 발명처럼 보이지만, 모두 하나의 구조에서 나온다. 볼록 손실 + 그리디 최적화. 이 다섯 챕터를 관통하는 통일 주제를 추적한다.
공식들의 공통 기원
Friedman, Hastie, Tibshirani (2000)는 AdaBoost를 재해석했다. 알고리즘이 아니라 목적함수 + 최적화로.
손실 를 Forward Stagewise Additive Modeling(FSAM)으로 최소화한다고 하자. 매 단계 새 learner 를 추가해 를 줄인다. 이 과정에서 와 이 자동으로 유도된다.
지수손실 FSAM에서 고정 시 손실을 최소화하는 :
여기서 는 weighted error rate다.
가 -valued이므로 단계별 손실은 . 으로 놓으면 . 따라서 .
가중치 업데이트 역시 같은 유도의 귀결이다. “틀린 샘플에 집중”이라는 직관이 사실 지수함수의 분리 성질에서 나온다.
함수공간에서의 경사하강법
AdaBoost를 일반화한 Gradient Boosting (Friedman 2001)은 이 프레임을 임의의 미분 가능 손실로 확장한다. 핵심 관찰은 단순하다 — 유한차원 경사하강법 을 함수공간으로 옮기면 무엇이 되는가.
각 훈련 점 에서 를 계산하면 “이 점에서 가 어느 방향으로 바뀌어야 하는가”를 알 수 있다. 이것이 pseudo-residual 다. 이 값들에 tree를 fit하면 훈련 점 밖의 로도 일반화되는 gradient 근사를 얻는다.
MSE에서는 — 잔차. 지수손실에서는 — AdaBoost의 가중 라벨. AdaBoost는 GBM의 지수손실 특수 사례다.
| 손실 | pseudo-residual | 특성 |
|---|---|---|
| MSE | 잔차 | |
| MAE | 부호만 | |
| Exponential | (AdaBoost 가중치) | noise 민감 |
| Binomial deviance | logistic 형태 |
Newton 한 스텝 — XGBoost의 기여
GBM이 1차 Taylor 근사라면, XGBoost (Chen & Guestrin 2016)는 2차까지 사용한다.
여기서 , . 정규화항 을 더하고 leaf별로 최소화하면 closed-form이 나온다.
Tree 구조 고정 시 leaf 의 최적 값:
Leaf 에 대한 손실: . 으로 놓으면 . 이므로 convex, 유일 최소.
이는 tree 형식의 Newton-Raphson 한 스텝이다. 단일 샘플의 Newton step 를 leaf 내 샘플들에 대해 가중 평균한 것이 이고, 는 numerical damping이다. Logistic loss를 넣으면 — Ch2의 IRLS와 정확히 같은 구조다.
Split 여부는 Gain 공식으로 결정된다:
이면 이득이 충분하지 않은 split은 하지 않는다 — 수식 안에 regularization이 내재된다.
공학적 가속 — LightGBM의 세 가지 결정
LightGBM (Ke et al. 2017)은 알고리즘을 바꾸지 않는다. 같은 수식을 더 빠르게 계산하는 세 가지 공학적 결정을 내린다.
Histogram binning: 연속 feature를 개 bucket으로 이산화한다. Split 후보가 개에서 개로 줄어든다. , 에서 약 40,000배 차이. 정확도 손실은 bin 수가 충분하면 무시할 수준이다.
GOSS (Gradient-based One-Side Sampling): gradient 큰 샘플 — 아직 잘 예측 못 한 샘플 — 은 전부 보존하고, gradient 작은 샘플은 %만 subsample한다. 작은 gradient 샘플의 기여분을 로 scale up해 unbiased estimator를 유지한다. 기본값 에서 30%만 사용하면서 거의 같은 정확도를 낸다.
EFB (Exclusive Feature Bundling): sparse feature들 중 동시에 비영인 샘플이 드문 pair를 묶는다. 최적 bundling은 그래프 컬러링의 NP-hard 문제로 환원되지만, greedy heuristic으로 충분히 좋은 근사를 얻는다.
과적합 저항성 — Margin Theory
Schapire et al. (1998)는 반직관적 현상을 보고했다. AdaBoost가 train error 0에 도달한 이후에도 boosting을 계속하면 test error가 계속 감소한다. VC bound로는 설명이 안 된다 — 증가 → VC dim 증가 → bound 커짐.
답은 margin distribution에 있다. normalized margin 가 증가에 따라 우측으로 이동한다. 작은 margin 샘플의 비율이 감소한다.
이 bound에는 가 없다. 를 늘려도 complexity 항이 커지지 않는다. 단지 첫 항 이 와 함께 감소하면서 전체 bound가 tight해진다.
Label noise가 많은 데이터에서 AdaBoost는 위험하다. noise 샘플의 gradient가 큰 채로 유지되면 weight가 폭발하고 margin theory의 보장이 깨진다. 이 경우 지수손실 대신 logistic loss (GBM의 log_loss)를 사용하면 noise 샘플의 gradient가 cap되어 robust해진다. noise rate 30%에서 AdaBoost test accuracy 68% vs GBM(log loss) 71%의 차이가 이 메커니즘을 보여준다.
또한 극한에서 max-margin solution으로 수렴하는 self-regularization 현상은 clean data에서만 작동한다. 이 특성은 NN의 double descent, SGD implicit bias와 같은 정신이지만, AdaBoost가 이를 이론적으로 가장 먼저 분석한 사례다.
정리
- AdaBoost의 공식과 가중치 업데이트는 “직관”이 아니라 지수손실 FSAM의 closed-form 최적화 결과다.
- Gradient Boosting은 이 프레임을 임의의 미분 가능 손실로 확장한다. AdaBoost는 그 특수 사례다.
- XGBoost는 2차 Taylor 근사로 tree를 Newton step으로 만들고, 와 를 수식 안에 내재시킨다.
- LightGBM은 같은 수식을 histogram, GOSS, EFB로 대규모 데이터에서 실용적으로 만든다.
- Margin theory는 “train error 0 이후에도 test error 감소”를 독립 bound로 설명한다. 이 통찰은 modern NN의 over-parameterization 이론으로 직