제약이 있는 최적화 문제를 보면 두 가지 선택이 있다 — 원 문제를 직접 풀거나, 쌍대 문제를 풀거나. SVM은 왜 쌍대를 선택했고, 그 덕분에 커널 트릭이 어떻게 가능해졌는가?
Lagrangian: 제약을 벌칙으로 흡수하기
원 문제(primal)의 구조는 다음과 같다.
minimizef0(x)subject tofi(x)≤0,hj(x)=0
Lagrangian은 이 제약들을 벌칙 형태로 목적함수에 합산한다.
L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+j=1∑pνjhj(x)
여기서 λi≥0은 부등식 제약에, νj∈R은 등식 제약에 대응하는 쌍대 변수다. 쌍대 함수g(λ,ν)=infxL(x,λ,ν)는 x에 대해 최솟값을 취한다. 고정된 x에서 L은 (λ,ν)에 대해 아핀이므로, 이 아핀 함수들의 하한인 g는 항상 오목함수다 — 원 문제가 볼록이든 아니든.
약쌍대성: 항상 성립하는 하한
정리 1
· 약쌍대성 (Weak Duality)
모든 원 문제에 대해 (볼록, 비볼록 상관없이) d∗≤p∗ 가 성립한다. 여기서 d∗=supλ≥0,νg(λ,ν)이고 p∗는 원 문제의 최적값이다.
약쌍대성이 강력한 이유는 볼록성을 요구하지 않는다는 데 있다. 비볼록 문제에서도 쌍대 함수를 풀어 하한을 얻을 수 있고, 이 하한은 분기 한계(branch and bound) 알고리즘에서 탐색 공간 축소에 쓰인다. 단, p∗−d∗>0이면 쌍대 문제만으로 원 문제의 정확한 해를 복원할 수 없다.
강쌍대성과 Slater 조건
d∗=p∗가 되려면 추가 조건이 필요하다. 볼록 문제에서 충분조건은 Slater 조건이다.
Slater 조건: 부등식 제약을 엄격히 만족하는 내부점 x~가 존재한다.
fi(x~)<0∀i,hj(x~)=0∀j
직관적으로는 “제약들이 너무 빡빡하게 모여 있지 않다”는 뜻이다. Slater 조건이 성립하면 분리 초평면 정리를 적용해 d∗=p∗를 증명할 수 있다 — 확장 집합 A와 이상적 목적함수 범위 집합 B가 서로 분리되고, 그 분리 초평면이 정확히 최적 쌍대 변수 (λ∗,ν∗)가 된다.
✎ 트레이드오프: 강쌍대성의 비용
Slater 조건은 충분조건이지만 필요조건은 아니다. 제약이 선형(아핀)이면 비엄격한 조건으로도 강쌍대성이 성립한다. 반면 Slater 조건을 위반하는 볼록 문제에서는 duality gap이 나타날 수 있다. 실제로 Slater 점을 명시적으로 찾기 어려운 경우도 있지만, SVM처럼 선형 분리 가능한 문제는 자연히 조건을 만족한다.
KKT 조건: 최적성의 필요충분
강쌍대성이 성립하는 볼록 문제에서, 최적해의 특성은 네 가지 KKT 조건으로 완전히 기술된다.
정류 조건 (stationarity): ∇f0(x∗)+∑iλi∗∇fi(x∗)+∑jνj∗∇hj(x∗)=0
원 가능성 (primal feasibility): fi(x∗)≤0, hj(x∗)=0
쌍대 가능성 (dual feasibility): λi∗≥0
상보 느슨함 (complementary slackness): λi∗fi(x∗)=0
볼록 문제에서 KKT는 필요충분조건이다. 비볼록 문제에서는 필요조건에 그친다 — KKT를 만족해도 전역 최적이 아닌 안장점일 수 있다. 상보 느슨함의 의미는 명확하다: λi∗>0이면 제약이 활성(binding)이고, fi(x∗)<0이면 λi∗=0이다. 비활성 제약은 최적해를 결정하는 데 아무 역할도 하지 않는다.
쌍대 변수 = 그림자 가격 = SVM의 α
강쌍대성이 성립하면 쌍대 변수는 구체적인 경제 의미를 갖는다. 파라미터화된 원 문제 p(u,v)에서 포락선 정리(envelope theorem)에 의해
∂ui∂pu=0=−λi∗
λi∗는 i번째 제약의 RHS를 1단위 완화할 때 최적값이 얼마나 개선되는가를 나타낸다. 이것이 **그림자 가격(shadow price)**이다. 활성 제약의 그림자 가격은 양수이고, 비활성 제약(여유 자원)의 그림자 가격은 0이다.