IQ Lab
← all posts
AI 2026.04.28 · 11 min read Advanced

볼록 함수의 세 가지 얼굴 — Jensen, Epigraph, Gradient

볼록 함수를 정의하는 세 동치 조건부터 강볼록성·조건수·켤레 함수까지, 경사하강법의 수렴 보장이 어디서 오는지를 추적한다.


볼록 함수에는 세 가지 등가 정의가 있다 — Jensen 부등식, Epigraph의 볼록성, 1차 조건. 수식은 달라 보이지만 같은 대상을 가리킨다. 왜 이렇게 여러 언어로 설명하는가? 그리고 이 중 어느 언어를 고르느냐가 실제 최적화 알고리즘의 수렴 보장 전체를 결정한다면?

세 정의는 왜 동치인가

첫 번째 언어는 Jensen 부등식이다.

f(λx+(1λ)y)λf(x)+(1λ)f(y),λ[0,1]f(\lambda x + (1-\lambda)y) \leq \lambda f(x) + (1-\lambda)f(y), \quad \lambda \in [0,1]

두 점을 이은 선분이 함수 그래프보다 위에 있다는 기하학적 직관이다. 두 번째 언어는 Epigraph다.

epi(f)={(x,t)Rn×R:f(x)t}\text{epi}(f) = \{(x, t) \in \mathbb{R}^n \times \mathbb{R} : f(x) \leq t\}

ff가 볼록이면 그 에피그래프는 볼록 집합이고, 역도 성립한다. 함수의 성질을 집합의 성질로 번역하는 다리다. 세 번째는 1차 조건이다.

f(y)f(x)+f(x)T(yx)f(y) \geq f(x) + \nabla f(x)^T(y - x)

xx에서 그은 접선(1차 Taylor 근사)이 항상 함수의 하한을 제공한다. 이 세 조건이 동치임은 증명 가능하지만, 핵심은 동치라는 사실 자체다. 실제 계산에서는 1차 조건이 가장 유용하다 — 접선의 기울기만 알면 다른 모든 점의 함수값의 하한을 즉시 구할 수 있기 때문이다.

Hessian — 볼록성의 2차 언어

미분 가능 함수라면 2차 조건이 추가된다.

2f(x)0(양반정치, PSD)\nabla^2 f(x) \succeq 0 \quad \text{(양반정치, PSD)}

모든 방향에서 곡률이 0 이상이라는 뜻이다. Log-Sum-Exp f(x)=logiexif(x) = \log \sum_i e^{x_i}를 예로 들면, pi=exi/jexjp_i = e^{x_i}/\sum_j e^{x_j} (softmax)라 할 때 Hessian은 다음과 같다.

2f(x)=diag(p)ppT\nabla^2 f(x) = \text{diag}(p) - pp^T

임의의 벡터 vv에 대해:

vT2f(x)v=ipivi2(ipivi)20v^T \nabla^2 f(x) v = \sum_i p_i v_i^2 - \left(\sum_i p_i v_i\right)^2 \geq 0

마지막 부등식은 Cauchy-Schwarz에서 나온다. Log-Sum-Exp는 볼록이고, 무한 번 미분 가능하며, Softmax 손실의 이론적 토대다.

강볼록성과 조건수

일반 볼록함수에서 한 발 더 나아가면 μ\mu-강볼록(strongly convex) 함수가 있다.

f(y)f(x)+f(x)T(yx)+μ2yx2f(y) \geq f(x) + \nabla f(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2

접선 아래에 이차 하한이 추가된다. 이것이 중요한 이유는 경사하강법의 수렴 속도 때문이다.

정리 1 · GD 수렴률

ffμ\mu-강볼록이고 LL-smooth일 때, 스텝 크기 α=1/L\alpha = 1/L인 경사하강법은 다음 속도로 수렴한다.

f(x(k))f(x)(1μL)k[f(x(0))f(x)]f(x^{(k)}) - f(x^*) \leq \left(1 - \frac{\mu}{L}\right)^k \bigl[f(x^{(0)}) - f(x^*)\bigr]
▷ 증명

Descent Lemma(α=1/L\alpha = 1/L)에서 f(x+)f(x)12Lf(x)2f(x^+) \leq f(x) - \frac{1}{2L}\|\nabla f(x)\|^2. 강볼록성에서 f(x)22μ(f(x)f(x))\|\nabla f(x)\|^2 \geq 2\mu(f(x)-f(x^*))이므로 f(x+)f(x)(1μ/L)(f(x)f(x))f(x^+) - f(x^*) \leq (1 - \mu/L)(f(x) - f(x^*)). 귀납적으로 적용하면 증명이 완성된다.

수렴률을 결정하는 수는 κ=L/μ\kappa = L/\mu조건수다. Ridge 회귀 f(w)=Xwy2+λw2f(w) = \|Xw - y\|^2 + \lambda\|w\|^2에서 Hessian은 2XTX+2λI2X^TX + 2\lambda I이고, 최소 고유값은 2λ2\lambda, 최대 고유값은 2λmax(XTX)+2λ2\lambda_{\max}(X^TX) + 2\lambda이므로 κ=λmax(XTX)/λ+1\kappa = \lambda_{\max}(X^TX)/\lambda + 1이다. λ\lambda를 키우면 조건수가 줄고, 수렴이 빨라지지만 정확도는 떨어진다. 이것이 정규화의 진짜 역할이다.

볼록 연산의 안전 목록

볼록성은 특정 연산 아래에서 보존된다. 이 규칙이 CVXPY 같은 볼록 최적화 라이브러리의 자동 검증(DCP) 기반이다.

연산조건결과
비음 가중합 wifi\sum w_i f_iwi0w_i \geq 0, fif_i 볼록볼록
포인트와이즈 상한 supαfα\sup_\alpha f_\alphafαf_\alpha 볼록볼록
아핀 합성 f(Ax+b)f(Ax + b)ff 볼록볼록
스칼라 합성 g(f(x))g(f(x))ff 볼록, gg 볼록 증가볼록

Log-Sum-Exp가 볼록인 또 다른 증명 경로가 여기 있다. gp(x)=pTxg_p(x) = p^T x (pΔnp \in \Delta_n, 심플렉스 위의 점)는 선형 함수다. logiexi=suppΔnpTx\log \sum_i e^{x_i} = \sup_{p \in \Delta_n} p^T x 이므로, 선형 함수들의 상한 — 포인트와이즈 상한 규칙에 의해 즉시 볼록이다.

트레이드오프

볼록 연산의 보존 규칙은 강력하지만 단방향이다. “곱”은 보존하지 않는다. 비음 볼록 함수 두 개의 곱이 볼록임을 보장하는 일반 정리는 없다. 신경망이 비볼록인 이유도 여기 있다 — 여러 층의 합성(composition)이 볼록성 보존 조건을 일반적으로 만족하지 않기 때문이다.

켤레 함수 — 기울기 언어로의 변환

볼록 함수 이론의 가장 우아한 결과 중 하나는 **켤레 함수(conjugate function)**다.

f(y):=supx(yTxf(x))f^*(y) := \sup_x \left(y^T x - f(x)\right)

ff^*ff를 “점들의 집합”이 아닌 “접선들의 집합”으로 다시 쓴 것이다. yTxf(x)y^T x - f(x)yy에 대해 선형이므로, 상한인 ff^*는 항상 볼록이다 — ff가 볼록이든 아니든.

Fenchel 부등식 yTxf(x)+f(y)y^T x \leq f(x) + f^*(y)는 항상 성립하고, 등호는 yf(x)y \in \partial f(x)일 때 정확히 성립한다. 이것이 KKT 조건의 기하학적 토대다.

닫히고 볼록인 ff에 대해서는 f=ff^{**} = f가 성립한다. Log-Sum-Exp와 음의 엔트로피 pilogpi-\sum p_i \log p_i는 서로의 켤레 함수다 — 로지스틱 회귀의 손실함수와 확률 모델이 하나의 구조로 묶이는 이유다.

정리

  • 볼록 함수의 세 정의(Jensen, Epigraph, 1차 조건)는 동치이며, 계산 맥락에 따라 골라 쓴다.
  • Hessian PSD ↔ 볼록, 최소 고유값 μ\mu ↔ 강볼록성, 최대 고유값 LL ↔ Smoothness. 조건수 κ=L/μ\kappa = L/\mu가 경사하강법의 수렴 속도를 결정한다.
  • 가중합, 상한, 아핀 합성은 볼록성을 보존한다. 이 규칙이 CVXPY DCP 검사기의 핵심이다.
  • 켤레 함수는 함수를 접선들의 집합으로 재해석하며, 쌍대 문제와 Proximal 알고리즘의 이론적 기반이 된다.

다음 글에서는 이 함수 이론 위에 제약 최적화 표준형이 어떻게 세워지는지, 그리고 라그랑주 쌍대가 강볼록성 및 켤레 함수와 어떻게 연결되는지를 추적한다.