볼록 함수의 세 가지 얼굴 — Jensen, Epigraph, Gradient
볼록 함수를 정의하는 세 동치 조건부터 강볼록성·조건수·켤레 함수까지, 경사하강법의 수렴 보장이 어디서 오는지를 추적한다.
- 01 볼록 집합이 최적화에 황금 티켓을 부여하는 이유
- 02 볼록 함수의 세 가지 얼굴 — Jensen, Epigraph, Gradient
- 03 볼록 최적화는 왜 ML의 기반인가
- 04 Lagrangian 쌍대성은 왜 SVM을 가능하게 하는가
- 05 경사하강법은 얼마나 빠른가 — 수렴 이론의 전체 지도
- 06 Proximal Operator는 왜 경사하강법의 일반화인가
- 07 볼록 최적화는 머신러닝을 어떻게 설명하는가
볼록 함수에는 세 가지 등가 정의가 있다 — Jensen 부등식, Epigraph의 볼록성, 1차 조건. 수식은 달라 보이지만 같은 대상을 가리킨다. 왜 이렇게 여러 언어로 설명하는가? 그리고 이 중 어느 언어를 고르느냐가 실제 최적화 알고리즘의 수렴 보장 전체를 결정한다면?
세 정의는 왜 동치인가
첫 번째 언어는 Jensen 부등식이다.
두 점을 이은 선분이 함수 그래프보다 위에 있다는 기하학적 직관이다. 두 번째 언어는 Epigraph다.
가 볼록이면 그 에피그래프는 볼록 집합이고, 역도 성립한다. 함수의 성질을 집합의 성질로 번역하는 다리다. 세 번째는 1차 조건이다.
에서 그은 접선(1차 Taylor 근사)이 항상 함수의 하한을 제공한다. 이 세 조건이 동치임은 증명 가능하지만, 핵심은 동치라는 사실 자체다. 실제 계산에서는 1차 조건이 가장 유용하다 — 접선의 기울기만 알면 다른 모든 점의 함수값의 하한을 즉시 구할 수 있기 때문이다.
Hessian — 볼록성의 2차 언어
미분 가능 함수라면 2차 조건이 추가된다.
모든 방향에서 곡률이 0 이상이라는 뜻이다. Log-Sum-Exp 를 예로 들면, (softmax)라 할 때 Hessian은 다음과 같다.
임의의 벡터 에 대해:
마지막 부등식은 Cauchy-Schwarz에서 나온다. Log-Sum-Exp는 볼록이고, 무한 번 미분 가능하며, Softmax 손실의 이론적 토대다.
강볼록성과 조건수
일반 볼록함수에서 한 발 더 나아가면 -강볼록(strongly convex) 함수가 있다.
접선 아래에 이차 하한이 추가된다. 이것이 중요한 이유는 경사하강법의 수렴 속도 때문이다.
가 -강볼록이고 -smooth일 때, 스텝 크기 인 경사하강법은 다음 속도로 수렴한다.
Descent Lemma()에서 . 강볼록성에서 이므로 . 귀납적으로 적용하면 증명이 완성된다.
수렴률을 결정하는 수는 — 조건수다. Ridge 회귀 에서 Hessian은 이고, 최소 고유값은 , 최대 고유값은 이므로 이다. 를 키우면 조건수가 줄고, 수렴이 빨라지지만 정확도는 떨어진다. 이것이 정규화의 진짜 역할이다.
볼록 연산의 안전 목록
볼록성은 특정 연산 아래에서 보존된다. 이 규칙이 CVXPY 같은 볼록 최적화 라이브러리의 자동 검증(DCP) 기반이다.
| 연산 | 조건 | 결과 |
|---|---|---|
| 비음 가중합 | , 볼록 | 볼록 |
| 포인트와이즈 상한 | 각 볼록 | 볼록 |
| 아핀 합성 | 볼록 | 볼록 |
| 스칼라 합성 | 볼록, 볼록 증가 | 볼록 |
Log-Sum-Exp가 볼록인 또 다른 증명 경로가 여기 있다. (, 심플렉스 위의 점)는 선형 함수다. 이므로, 선형 함수들의 상한 — 포인트와이즈 상한 규칙에 의해 즉시 볼록이다.
볼록 연산의 보존 규칙은 강력하지만 단방향이다. “곱”은 보존하지 않는다. 비음 볼록 함수 두 개의 곱이 볼록임을 보장하는 일반 정리는 없다. 신경망이 비볼록인 이유도 여기 있다 — 여러 층의 합성(composition)이 볼록성 보존 조건을 일반적으로 만족하지 않기 때문이다.
켤레 함수 — 기울기 언어로의 변환
볼록 함수 이론의 가장 우아한 결과 중 하나는 **켤레 함수(conjugate function)**다.
는 를 “점들의 집합”이 아닌 “접선들의 집합”으로 다시 쓴 것이다. 는 에 대해 선형이므로, 상한인 는 항상 볼록이다 — 가 볼록이든 아니든.
Fenchel 부등식 는 항상 성립하고, 등호는 일 때 정확히 성립한다. 이것이 KKT 조건의 기하학적 토대다.
닫히고 볼록인 에 대해서는 가 성립한다. Log-Sum-Exp와 음의 엔트로피 는 서로의 켤레 함수다 — 로지스틱 회귀의 손실함수와 확률 모델이 하나의 구조로 묶이는 이유다.
정리
- 볼록 함수의 세 정의(Jensen, Epigraph, 1차 조건)는 동치이며, 계산 맥락에 따라 골라 쓴다.
- Hessian PSD ↔ 볼록, 최소 고유값 ↔ 강볼록성, 최대 고유값 ↔ Smoothness. 조건수 가 경사하강법의 수렴 속도를 결정한다.
- 가중합, 상한, 아핀 합성은 볼록성을 보존한다. 이 규칙이 CVXPY DCP 검사기의 핵심이다.
- 켤레 함수는 함수를 접선들의 집합으로 재해석하며, 쌍대 문제와 Proximal 알고리즘의 이론적 기반이 된다.
다음 글에서는 이 함수 이론 위에 제약 최적화 표준형이 어떻게 세워지는지, 그리고 라그랑주 쌍대가 강볼록성 및 켤레 함수와 어떻게 연결되는지를 추적한다.