볼록 최적화는 머신러닝을 어떻게 설명하는가
Logistic Regression의 수렴 보장부터 SVM 쌍대성, L1 희소성의 기하학, 비볼록 딥러닝의 역설, 그리고 온라인 학습의 Regret 경계까지 — 볼록 최적화라는 하나의 렌즈로 추적한다.
- 01 볼록 집합이 최적화에 황금 티켓을 부여하는 이유
- 02 볼록 함수의 세 가지 얼굴 — Jensen, Epigraph, Gradient
- 03 볼록 최적화는 왜 ML의 기반인가
- 04 Lagrangian 쌍대성은 왜 SVM을 가능하게 하는가
- 05 경사하강법은 얼마나 빠른가 — 수렴 이론의 전체 지도
- 06 Proximal Operator는 왜 경사하강법의 일반화인가
- 07 볼록 최적화는 머신러닝을 어떻게 설명하는가
머신러닝 교과서는 알고리즘을 나열한다. 그런데 왜 어떤 알고리즘은 “전역 최적해가 보장된다”고 하고, 어떤 알고리즘은 “경험적으로 잘 된다”고만 말하는가? 그 경계를 긋는 것이 볼록성(convexity)이다. Logistic Regression부터 SVM, Lasso, 딥러닝, 온라인 학습까지 — 이 챕터들은 모두 하나의 질문을 다른 각도에서 묻는다. “이 문제는 볼록인가, 아닌가? 그래서 무엇이 보장되는가?”
볼록성이 보장하는 것
Logistic Regression의 손실함수는 볼록이다. 이것이 왜 중요한가? 볼록함수는 극솟값이 곧 전역 최솟값이다. 경사 하강법이 어디서 시작하든 같은 지점에 도달한다.
증명의 핵심은 헤시안(Hessian)이다. 로지스틱 손실 의 헤시안은 다음과 같다.
여기서 이고 이므로 모든 대각 원소가 양수다. 는 반정부호(PSD)이므로 헤시안이 — 볼록이 증명된다.
에 대해, 이다. 따라서 이면 는 강볼록(strongly convex)이고, 유일한 전역 최솟값이 존재한다.
이고 이므로 합은 이다. 강볼록 함수는 coercive하므로 (일 때 ) 최솟값이 존재하고, 강볼록에 의해 유일하다. ∎
L2 정규화는 단순히 과적합을 막는 것이 아니다. 헤시안에 를 더해 강볼록성을 보장함으로써, 경사 하강법의 수렴을 수치적으로 안정화한다.
SVM: 쌍대성이 드러내는 구조
SVM은 볼록 최적화의 교과서적 응용이다. Soft-margin SVM의 프라이멀(primal) 문제는 볼록 이차 계획법(QP)이다. 그런데 라그랑주 쌍대(dual)로 변환하면 훨씬 더 많은 것이 보인다.
쌍대 문제:
이 문제의 목적함수 행렬 는 반정부호 — 쌍대 문제도 볼록 QP다. 강쌍대성(strong duality)이 성립하므로 프라이멀과 쌍대의 최적값이 같다.
KKT 조건에서 결정적인 사실이 나온다. 인 데이터만 결정 경계에 기여한다 — 이것이 support vector다. 나머지는 존재하지 않는 것과 같다. 또한 내적 자리에 커널 를 대입하면, 암묵적으로 고차원 특징 공간에서 선형 분류를 하게 된다. Mercer 조건은 이 커널이 유효한 내적에 대응함을 — 즉 그람 행렬이 반정부호임을 — 보장하여 쌍대의 볼록성을 유지한다.
L1 vs L2: 마름모와 구의 기하학
Ridge(L2)와 Lasso(L1)의 차이는 계산적 편의가 아니라 기하에서 온다.
제약 형태로 쓰면 두 문제의 차이가 명확해진다. L2 제약 집합은 구(sphere) 이고, L1 제약 집합은 마름모(diamond) 이다. 손실함수의 등고선이 바깥에서 조여들 때, 구와 처음 만나는 점은 “표면 어디나” 가능하다 — 대부분 모든 좌표가 non-zero다. 마름모와 처음 만나는 점은 꼭짓점(vertex) 근처이고, 꼭짓점은 정확히 인 축 위에 있다.
이것이 Lasso sparsity의 기원이다. 수식으로는 KKT 조건의 부분미분(subdifferential)이 을 유지하는 조건을 설명한다.
Ridge는 폐쇄해(closed-form)가 존재하고 상관된 변수를 균등하게 처리하지만 sparsity가 없다. Lasso는 자동 변수 선택을 하고 고차원에서 일관된 모델 선택이 가능하지만, 반복 알고리즘이 필요하고 상관 변수 중 어느 것을 택할지 불안정하다. Elastic Net은 두 페널티를 혼합해 이 트레이드오프를 완화한다.
특이값 분해로 보면 Ridge의 축소 비율은 — 모든 성분을 연속으로 축소한다. Lasso는 임계값 이하를 정확히 0으로 만든다 — 불연속적 축소.
비볼록 딥러닝은 왜 동작하는가
신경망은 비볼록이다. 그런데 경사 하강법이 잘 작동한다. 이 역설의 현대적 설명은 두 축이다.
첫째, **과모수화(over-parameterization)**다. 파라미터 수 이면 손실을 0으로 만드는 가 풍부하게 존재하고, 이 최솟값들이 저손실 경로(low-loss path)로 연결되어 있다. 국소 극솟값이 “덫”처럼 작동하지 않는다.
둘째, **Neural Tangent Kernel(NTK)**이다. 무한 폭(width ) 극한에서 NTK 행렬
이 학습 내내 상수로 유지된다. 그러면 학습 역학은
로 선형 ODE가 되고, 손실이 속도로 지수 감소한다. 무한 폭 극한에서 신경망은 커널 회귀와 동치다.
물론 NTK는 부분적 설명이다. 유한 폭, 유한 학습률, 배치 노이즈 — 실제 신경망은 NTK가 가정하는 조건에서 벗어난다. 이론이 실천을 따라가는 중이다.
Online Convex Optimization과 Regret
지금까지는 손실함수가 고정된 설정이었다. 온라인 학습에서는 매 라운드 마다 새로운 가 등장한다 — 미리 알 수 없다.
Regret은 온라인 알고리즘의 누적 손실과 최적 고정 해의 차이다.
Online Gradient Descent(OGD)는 로 업데이트한다. Descent Lemma와 볼록성을 결합하면 다음이 나온다.
로 최적화하면 — O(√T) 경계다. 평균 후회가 으로 수렴한다.
OGD는 균등 학습률로 O(√T) Regret을 달성한다. AdaGrad는 좌표별 누적 제곱 그레디언트로 학습률을 조정해, 희소 그레디언트 환경에서 효율적으로 동작한다 — 자주 나타나는 특징은 학습률을 줄이고, 드문 특징은 유지한다. 단, AdaGrad는 학습률이 단조 감소해 비정상(non-stationary) 문제에서는 성능이 저하될 수 있다. RMSprop과 Adam은 이 한계를 지수 이동 평균으로 완화한다.
정리
- 볼록성 = 수렴 보장이다. Logistic Regression과 SVM 쌍대가 전역 최적해를 보장하는 이유는 헤시안이 PSD이거나 쌍대가 볼록 QP이기 때문이다.
- L1과 L2의 차이는 기하다. 마름모의 꼭짓점 구조가 sparsity를 만든다. 페널티 형태의 차이는 결과적으로 제약 집합의 모양 차이다.
- 딥러닝은 비볼록이지만, 과모수화와 NTK가 부분적으로 그 성