경사하강법의 수렴은 왜 그 속도인가

볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.

딥러닝 모델을 학습시킬 때 우리는 학습률을 고르고, 옵티마이저를 선택하고, 스케줄을 붙인다. 그런데 그 선택들이 왜 작동하는지, 더 정확히는 “왜 그 숫자인지” 설명하지 못한 채 쓰는 경우가 많다. GD 수렴 이론부터 Loss Landscape 기하학까지 관통하는 질문은 하나다 — 분산을 어떻게 제어하면 빠르고 일반화되는 최솟값에 도달하는가?

수렴 속도의 출발점: L-smooth 가정

경사하강법의 수렴 분석은 두 가지 가정에서 시작한다. 함수가 볼록하고, 그래디언트가 L-Lipschitz 연속(L-smooth)하다는 것이다.

L-smooth 조건 $\|\nabla f(x) - \nabla f(y)\| \leq L\|x-y\|$ 은 이차 테일러 근사의 상한을 보장한다. 이로부터 핵심 부등식인 Descent Lemma가 따라온다.

f(x - \eta\nabla f(x)) \leq f(x) - \eta\!\left(1 - \frac{\eta L}{2}\right)\|\nabla f(x)\|^2

우변의 계수 $\eta(1 - \eta L/2)$ 가 양수이려면 $\eta < 2/L$ 이어야 한다. 이것이 학습률 상한의 이론적 근거다. 최적 학습률은 이 계수를 최대화하는 $\eta^* = 1/L$ 이다.

볼록 L-smooth 함수에서 $\eta = 1/L$ 을 쓰면 telescoping 합산을 통해 다음이 증명된다.

f(x_k) - f^* \leq \frac{L\|x_0 - x^*\|^2}{2k} = O(1/k)

$k$ 번 반복 후 $\varepsilon$ 근사에 $O(1/\varepsilon)$ 번이 필요하다. 함수가 $\mu$ -강볼록이면 GD 스텝 사상이 수축 사상이 되어 선형 수렴 $O\!\left((\frac{\kappa-1}{\kappa+1})^k\right)$ 을 달성한다. 조건수 $\kappa = L/\mu$ 가 클수록 수렴이 느린 이유가 여기 있다.

모멘텀: 조건수의 제곱근을 잡는다

GD는 조건수 $\kappa$ 에 선형 비례하는 수렴률 $\rho_{GD} = \frac{\kappa-1}{\kappa+1}$ 을 가진다. $\kappa = 100$ 이면 약 100번에 한 자릿수 감소다.

Heavy Ball(Polyak 모멘텀)은 이전 스텝을 더하는 단순한 변형이다.

x_{k+1} = x_k - \eta \nabla f(x_k) + \beta(x_k - x_{k-1})

이 점화식을 특성다항식으로 분석하면 최적 모멘텀은 $\beta^* = \left(\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}\right)^2$ 이고, 수렴률은 $\rho_{HB} = \frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}$ 이다. GD 수렴률의 제곱근이다. $\kappa = 100$ 에서 GD는 $\rho \approx 0.98$ , Heavy Ball은 $\rho \approx 0.82$ — 같은 정밀도에 필요한 반복 횟수가 약 10배 줄어든다.

Nesterov Accelerated Gradient(NAG)는 현재 위치가 아닌 “look-ahead” 지점 $y_k = x_k + \gamma_k(x_k - x_{k-1})$ 에서 그래디언트를 계산한다. Lyapunov 함수 분석으로 볼록 함수에서 $O(1/k^2)$ 수렴이 증명된다.

정리 1 · Nesterov 하한

$L$ -smooth이고 볼록인 함수에 대해, 모든 1차 방법이 $k$ 번의 그래디언트 평가 후 달성 가능한 최상의 오차는

$f(x_k) - f(x^*) \geq \frac{3L\|x_0-x^*\|^2}{32(k+1)^2}$

▷ 증명

NAG의 $O(1/k^2)$ 수렴은 이 하한과 일치한다. 즉 NAG는 1차 방법의 이론적 최적성을 달성한다. 2차 방법(뉴턴법)만이 이보다 빠를 수 있다.

∎

SGD의 잡음: 피할 수 없는 $O(1/\sqrt{k})$

딥러닝에서 실제로 쓰는 것은 배치 GD가 아니라 확률적 그래디언트다. 미니배치 그래디언트 $\tilde{\nabla}f$ 는 비편향적이지만 분산 $\sigma^2$ 을 도입한다.

SGD의 Descent Lemma를 기댓값으로 확장하면 분산항 $\eta_k^2 L \sigma^2 / 2$ 가 추가된다. 이 항을 줄이려면 학습률을 감소시켜야 한다. $\eta_k = c/\sqrt{k}$ 를 쓰면 볼록 함수에서 $O(1/\sqrt{k})$ 수렴이 나온다.

⚠ 정보-이론적 하한

분산이 $\sigma^2$ 으로 유계인 확률적 1차 방법은 볼록 함수에서 $O(1/\sqrt{k})$ 보다 빠를 수 없다. GD의 $O(1/k)$ 는 잡음이 없을 때만 달성된다. SVRG 같은 분산 감소 방법은 주기적으로 전체 그래디언트를 계산해 이 장벽을 우회한다.

배치 크기 $B$ 를 키우면 분산이 $\sigma^2/B$ 로 줄어든다. 하지만 동일한 에포크당 계산량은 $B$ 배 증가한다. 대규모 학습에서 배치 크기와 학습률을 함께 키우는 “linear scaling rule”은 이 분산-계산 트레이드오프의 실용적 표현이다.

적응형 옵티마이저: 파라미터별 분산 제어

모든 파라미터에 같은 학습률을 쓰는 것은 비효율적이다. 자주 등장하는 파라미터(임베딩의 특정 토큰)와 드물게 등장하는 파라미터는 그래디언트 스케일이 수십 배 다르다.

Adagrad는 누적 제곱 그래디언트 $G_t^{ii} = \sum_\tau (g_\tau^i)^2$ 로 파라미터별 학습률을 조정한다. 희소 그래디언트 문제에 강하지만 $G_t$ 가 단조 증가하므로 학습이 진행될수록 학습률이 0에 수렴한다.

RMSProp은 지수 이동 평균 $v_t = \rho v_{t-1} + (1-\rho)g_t^2$ 으로 이 문제를 해결한다. Adam은 여기에 1차 모멘트를 더한다.

\hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t}, \quad x_{t+1} = x_t - \alpha\frac{\hat{m}_t}{\sqrt{\hat{v}_t}+\epsilon}

bias correction 항 $1-\beta_1^t$ , $1-\beta_2^t$ 는 초기화 $m_0 = v_0 = 0$ 으로 인한 편향을 제거한다. $\beta_1 = 0.9$ 이면 첫 스텝에서 $m_1 = 0.1 \cdot g_1$ 이 되어 실제 그래디언트의 10%만 반영된다. 보정 없이 수백 스텝을 낭비한다.

Adam의 업데이트 $\hat{m}_t / \sqrt{\hat{v}_t}$ 는 신호 대 잡음비(SNR) 정규화다. 분산이 큰 성분은 스케일이 줄고, 분산이 작은 성분은 상대적으로 크게 움직인다. 이것이 Adam이 학습률에 덜 민감한 이유다.

Loss Landscape: 어떤 최솟값을 찾는가

수렴 속도만큼 중요한 것이 어디에 수렴하느냐다. 딥러닝 손실은 비볼록이고 지수적으로 많은 국소 최솟값이 존재한다. 하지만 모든 최솟값이 동등하지 않다.

Sharp minimum은 헤시안 최대 고유값 $\lambda_{\max}$ 가 크다. 작은 파라미터 섭동에도 손실이 급증하므로, 훈련 분포와 약간 다른 테스트 샘플에서 손실이 폭발할 수 있다. Flat minimum은 $\lambda_{\max}$ 가 작아 넓은 영역에서 손실이 안정적이다.

PAC-Bayes 프레임워크는 일반화 오차의 상한이 sharpness에 의존함을 보인다. 이를 직접 목적함수로 삼은 것이 SAM(Sharpness-Aware Minimization)이다.

\min_w \max_{\|\epsilon\| \leq \rho} f(w + \epsilon)

최악의 섭동 $\epsilon^* \approx \rho \nabla f / \|\nabla f\|$ 지점에서 그래디언트를 계산해 업데이트한다. 추가 forward/backward 패스 1회로 flat minima를 향한 편향을 만든다.

정리

볼록 L-smooth 함수에서 GD의 $O(1/k)$ 수렴은 학습률 상한 $\eta < 2/L$ 과 telescoping 합산으로 정확히 유도된다.
모멘텀은 수렴률의 제곱근을 개선한다( $\rho_{GD} \to \sqrt{\rho_{GD}}$ ). NAG는 1차 방법의 이론적 하한 $O(1/k^2)$ 을 달성한다.
SGD의 분산 $\sigma^2$ 은 수렴을 $O(1/\sqrt{k})$ 로 제한한다. 이 장벽은 배치 크기 확대나 SVRG 같은 분산 감소로 완화된다.
Adam의 bias correction은 초기 편향을 제거하고, $\hat{m}/\sqrt{\hat{v}}$ 는 파라미터별 SNR 정규화다. AdamW는 weight decay를 그래디언트와 분리해 일반화를 개선한다.