IQ Lab
← all posts
AI 2026.04.28 · 13 min read Advanced

경사하강법의 수렴은 왜 그 속도인가

볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.


딥러닝 모델을 학습시킬 때 우리는 학습률을 고르고, 옵티마이저를 선택하고, 스케줄을 붙인다. 그런데 그 선택들이 왜 작동하는지, 더 정확히는 “왜 그 숫자인지” 설명하지 못한 채 쓰는 경우가 많다. GD 수렴 이론부터 Loss Landscape 기하학까지 관통하는 질문은 하나다 — 분산을 어떻게 제어하면 빠르고 일반화되는 최솟값에 도달하는가?

수렴 속도의 출발점: L-smooth 가정

경사하강법의 수렴 분석은 두 가지 가정에서 시작한다. 함수가 볼록하고, 그래디언트가 L-Lipschitz 연속(L-smooth)하다는 것이다.

L-smooth 조건 f(x)f(y)Lxy\|\nabla f(x) - \nabla f(y)\| \leq L\|x-y\|은 이차 테일러 근사의 상한을 보장한다. 이로부터 핵심 부등식인 Descent Lemma가 따라온다.

f(xηf(x))f(x)η ⁣(1ηL2)f(x)2f(x - \eta\nabla f(x)) \leq f(x) - \eta\!\left(1 - \frac{\eta L}{2}\right)\|\nabla f(x)\|^2

우변의 계수 η(1ηL/2)\eta(1 - \eta L/2)가 양수이려면 η<2/L\eta < 2/L이어야 한다. 이것이 학습률 상한의 이론적 근거다. 최적 학습률은 이 계수를 최대화하는 η=1/L\eta^* = 1/L이다.

볼록 L-smooth 함수에서 η=1/L\eta = 1/L을 쓰면 telescoping 합산을 통해 다음이 증명된다.

f(xk)fLx0x22k=O(1/k)f(x_k) - f^* \leq \frac{L\|x_0 - x^*\|^2}{2k} = O(1/k)

kk번 반복 후 ε\varepsilon 근사에 O(1/ε)O(1/\varepsilon)번이 필요하다. 함수가 μ\mu-강볼록이면 GD 스텝 사상이 수축 사상이 되어 선형 수렴 O ⁣((κ1κ+1)k)O\!\left((\frac{\kappa-1}{\kappa+1})^k\right)을 달성한다. 조건수 κ=L/μ\kappa = L/\mu가 클수록 수렴이 느린 이유가 여기 있다.

모멘텀: 조건수의 제곱근을 잡는다

GD는 조건수 κ\kappa에 선형 비례하는 수렴률 ρGD=κ1κ+1\rho_{GD} = \frac{\kappa-1}{\kappa+1}을 가진다. κ=100\kappa = 100이면 약 100번에 한 자릿수 감소다.

Heavy Ball(Polyak 모멘텀)은 이전 스텝을 더하는 단순한 변형이다.

xk+1=xkηf(xk)+β(xkxk1)x_{k+1} = x_k - \eta \nabla f(x_k) + \beta(x_k - x_{k-1})

이 점화식을 특성다항식으로 분석하면 최적 모멘텀은 β=(κ1κ+1)2\beta^* = \left(\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}\right)^2이고, 수렴률은 ρHB=κ1κ+1\rho_{HB} = \frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}이다. GD 수렴률의 제곱근이다. κ=100\kappa = 100에서 GD는 ρ0.98\rho \approx 0.98, Heavy Ball은 ρ0.82\rho \approx 0.82 — 같은 정밀도에 필요한 반복 횟수가 약 10배 줄어든다.

Nesterov Accelerated Gradient(NAG)는 현재 위치가 아닌 “look-ahead” 지점 yk=xk+γk(xkxk1)y_k = x_k + \gamma_k(x_k - x_{k-1})에서 그래디언트를 계산한다. Lyapunov 함수 분석으로 볼록 함수에서 O(1/k2)O(1/k^2) 수렴이 증명된다.

정리 1 · Nesterov 하한

LL-smooth이고 볼록인 함수에 대해, 모든 1차 방법이 kk번의 그래디언트 평가 후 달성 가능한 최상의 오차는

f(xk)f(x)3Lx0x232(k+1)2f(x_k) - f(x^*) \geq \frac{3L\|x_0-x^*\|^2}{32(k+1)^2}

▷ 증명

NAG의 O(1/k2)O(1/k^2) 수렴은 이 하한과 일치한다. 즉 NAG는 1차 방법의 이론적 최적성을 달성한다. 2차 방법(뉴턴법)만이 이보다 빠를 수 있다.

SGD의 잡음: 피할 수 없는 O(1/k)O(1/\sqrt{k})

딥러닝에서 실제로 쓰는 것은 배치 GD가 아니라 확률적 그래디언트다. 미니배치 그래디언트 ~f\tilde{\nabla}f는 비편향적이지만 분산 σ2\sigma^2을 도입한다.

SGD의 Descent Lemma를 기댓값으로 확장하면 분산항 ηk2Lσ2/2\eta_k^2 L \sigma^2 / 2가 추가된다. 이 항을 줄이려면 학습률을 감소시켜야 한다. ηk=c/k\eta_k = c/\sqrt{k}를 쓰면 볼록 함수에서 O(1/k)O(1/\sqrt{k}) 수렴이 나온다.

정보-이론적 하한

분산이 σ2\sigma^2으로 유계인 확률적 1차 방법은 볼록 함수에서 O(1/k)O(1/\sqrt{k})보다 빠를 수 없다. GD의 O(1/k)O(1/k)는 잡음이 없을 때만 달성된다. SVRG 같은 분산 감소 방법은 주기적으로 전체 그래디언트를 계산해 이 장벽을 우회한다.

배치 크기 BB를 키우면 분산이 σ2/B\sigma^2/B로 줄어든다. 하지만 동일한 에포크당 계산량은 BB배 증가한다. 대규모 학습에서 배치 크기와 학습률을 함께 키우는 “linear scaling rule”은 이 분산-계산 트레이드오프의 실용적 표현이다.

적응형 옵티마이저: 파라미터별 분산 제어

모든 파라미터에 같은 학습률을 쓰는 것은 비효율적이다. 자주 등장하는 파라미터(임베딩의 특정 토큰)와 드물게 등장하는 파라미터는 그래디언트 스케일이 수십 배 다르다.

Adagrad는 누적 제곱 그래디언트 Gtii=τ(gτi)2G_t^{ii} = \sum_\tau (g_\tau^i)^2로 파라미터별 학습률을 조정한다. 희소 그래디언트 문제에 강하지만 GtG_t가 단조 증가하므로 학습이 진행될수록 학습률이 0에 수렴한다.

RMSProp은 지수 이동 평균 vt=ρvt1+(1ρ)gt2v_t = \rho v_{t-1} + (1-\rho)g_t^2으로 이 문제를 해결한다. Adam은 여기에 1차 모멘트를 더한다.

m^t=mt1β1t,v^t=vt1β2t,xt+1=xtαm^tv^t+ϵ\hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t}, \quad x_{t+1} = x_t - \alpha\frac{\hat{m}_t}{\sqrt{\hat{v}_t}+\epsilon}

bias correction 항 1β1t1-\beta_1^t, 1β2t1-\beta_2^t는 초기화 m0=v0=0m_0 = v_0 = 0으로 인한 편향을 제거한다. β1=0.9\beta_1 = 0.9이면 첫 스텝에서 m1=0.1g1m_1 = 0.1 \cdot g_1이 되어 실제 그래디언트의 10%만 반영된다. 보정 없이 수백 스텝을 낭비한다.

Adam의 업데이트 m^t/v^t\hat{m}_t / \sqrt{\hat{v}_t}신호 대 잡음비(SNR) 정규화다. 분산이 큰 성분은 스케일이 줄고, 분산이 작은 성분은 상대적으로 크게 움직인다. 이것이 Adam이 학습률에 덜 민감한 이유다.

Loss Landscape: 어떤 최솟값을 찾는가

수렴 속도만큼 중요한 것이 어디에 수렴하느냐다. 딥러닝 손실은 비볼록이고 지수적으로 많은 국소 최솟값이 존재한다. 하지만 모든 최솟값이 동등하지 않다.

Sharp minimum은 헤시안 최대 고유값 λmax\lambda_{\max}가 크다. 작은 파라미터 섭동에도 손실이 급증하므로, 훈련 분포와 약간 다른 테스트 샘플에서 손실이 폭발할 수 있다. Flat minimumλmax\lambda_{\max}가 작아 넓은 영역에서 손실이 안정적이다.

PAC-Bayes 프레임워크는 일반화 오차의 상한이 sharpness에 의존함을 보인다. 이를 직접 목적함수로 삼은 것이 SAM(Sharpness-Aware Minimization)이다.

minwmaxϵρf(w+ϵ)\min_w \max_{\|\epsilon\| \leq \rho} f(w + \epsilon)

최악의 섭동 ϵρf/f\epsilon^* \approx \rho \nabla f / \|\nabla f\| 지점에서 그래디언트를 계산해 업데이트한다. 추가 forward/backward 패스 1회로 flat minima를 향한 편향을 만든다.

정리

  • 볼록 L-smooth 함수에서 GD의 O(1/k)O(1/k) 수렴은 학습률 상한 η<2/L\eta < 2/L과 telescoping 합산으로 정확히 유도된다.
  • 모멘텀은 수렴률의 제곱근을 개선한다(ρGDρGD\rho_{GD} \to \sqrt{\rho_{GD}}). NAG는 1차 방법의 이론적 하한 O(1/k2)O(1/k^2)을 달성한다.
  • SGD의 분산 σ2\sigma^2은 수렴을 O(1/k)O(1/\sqrt{k})로 제한한다. 이 장벽은 배치 크기 확대나 SVRG 같은 분산 감소로 완화된다.
  • Adam의 bias correction은 초기 편향을 제거하고, m^/v^\hat{m}/\sqrt{\hat{v}}는 파라미터별 SNR 정규화다. AdamW는 weight decay를 그래디언트와 분리해 일반화를 개선한다.