경사하강법의 수렴은 왜 그 속도인가
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.
- 01 딥러닝의 수학은 왜 극한에서 시작하는가
- 02 미분가능성의 계층 — 편미분에서 역전파까지
- 03 손실 함수의 기하학 — 헤시안이 최적화를 지배하는 방식
- 04 경사하강법의 수렴은 왜 그 속도인가
- 05 역전파는 어떻게 수십억 파라미터의 기울기를 한 번에 계산하는가
- 06 제약 최적화는 왜 AI의 핵심 언어인가
- 07 딥러닝 미분의 통일된 언어 — 야코비안에서 암묵적 미분까지
딥러닝 모델을 학습시킬 때 우리는 학습률을 고르고, 옵티마이저를 선택하고, 스케줄을 붙인다. 그런데 그 선택들이 왜 작동하는지, 더 정확히는 “왜 그 숫자인지” 설명하지 못한 채 쓰는 경우가 많다. GD 수렴 이론부터 Loss Landscape 기하학까지 관통하는 질문은 하나다 — 분산을 어떻게 제어하면 빠르고 일반화되는 최솟값에 도달하는가?
수렴 속도의 출발점: L-smooth 가정
경사하강법의 수렴 분석은 두 가지 가정에서 시작한다. 함수가 볼록하고, 그래디언트가 L-Lipschitz 연속(L-smooth)하다는 것이다.
L-smooth 조건 은 이차 테일러 근사의 상한을 보장한다. 이로부터 핵심 부등식인 Descent Lemma가 따라온다.
우변의 계수 가 양수이려면 이어야 한다. 이것이 학습률 상한의 이론적 근거다. 최적 학습률은 이 계수를 최대화하는 이다.
볼록 L-smooth 함수에서 을 쓰면 telescoping 합산을 통해 다음이 증명된다.
번 반복 후 근사에 번이 필요하다. 함수가 -강볼록이면 GD 스텝 사상이 수축 사상이 되어 선형 수렴 을 달성한다. 조건수 가 클수록 수렴이 느린 이유가 여기 있다.
모멘텀: 조건수의 제곱근을 잡는다
GD는 조건수 에 선형 비례하는 수렴률 을 가진다. 이면 약 100번에 한 자릿수 감소다.
Heavy Ball(Polyak 모멘텀)은 이전 스텝을 더하는 단순한 변형이다.
이 점화식을 특성다항식으로 분석하면 최적 모멘텀은 이고, 수렴률은 이다. GD 수렴률의 제곱근이다. 에서 GD는 , Heavy Ball은 — 같은 정밀도에 필요한 반복 횟수가 약 10배 줄어든다.
Nesterov Accelerated Gradient(NAG)는 현재 위치가 아닌 “look-ahead” 지점 에서 그래디언트를 계산한다. Lyapunov 함수 분석으로 볼록 함수에서 수렴이 증명된다.
-smooth이고 볼록인 함수에 대해, 모든 1차 방법이 번의 그래디언트 평가 후 달성 가능한 최상의 오차는
NAG의 수렴은 이 하한과 일치한다. 즉 NAG는 1차 방법의 이론적 최적성을 달성한다. 2차 방법(뉴턴법)만이 이보다 빠를 수 있다.
SGD의 잡음: 피할 수 없는
딥러닝에서 실제로 쓰는 것은 배치 GD가 아니라 확률적 그래디언트다. 미니배치 그래디언트 는 비편향적이지만 분산 을 도입한다.
SGD의 Descent Lemma를 기댓값으로 확장하면 분산항 가 추가된다. 이 항을 줄이려면 학습률을 감소시켜야 한다. 를 쓰면 볼록 함수에서 수렴이 나온다.
분산이 으로 유계인 확률적 1차 방법은 볼록 함수에서 보다 빠를 수 없다. GD의 는 잡음이 없을 때만 달성된다. SVRG 같은 분산 감소 방법은 주기적으로 전체 그래디언트를 계산해 이 장벽을 우회한다.
배치 크기 를 키우면 분산이 로 줄어든다. 하지만 동일한 에포크당 계산량은 배 증가한다. 대규모 학습에서 배치 크기와 학습률을 함께 키우는 “linear scaling rule”은 이 분산-계산 트레이드오프의 실용적 표현이다.
적응형 옵티마이저: 파라미터별 분산 제어
모든 파라미터에 같은 학습률을 쓰는 것은 비효율적이다. 자주 등장하는 파라미터(임베딩의 특정 토큰)와 드물게 등장하는 파라미터는 그래디언트 스케일이 수십 배 다르다.
Adagrad는 누적 제곱 그래디언트 로 파라미터별 학습률을 조정한다. 희소 그래디언트 문제에 강하지만 가 단조 증가하므로 학습이 진행될수록 학습률이 0에 수렴한다.
RMSProp은 지수 이동 평균 으로 이 문제를 해결한다. Adam은 여기에 1차 모멘트를 더한다.
bias correction 항 , 는 초기화 으로 인한 편향을 제거한다. 이면 첫 스텝에서 이 되어 실제 그래디언트의 10%만 반영된다. 보정 없이 수백 스텝을 낭비한다.
Adam의 업데이트 는 신호 대 잡음비(SNR) 정규화다. 분산이 큰 성분은 스케일이 줄고, 분산이 작은 성분은 상대적으로 크게 움직인다. 이것이 Adam이 학습률에 덜 민감한 이유다.
Loss Landscape: 어떤 최솟값을 찾는가
수렴 속도만큼 중요한 것이 어디에 수렴하느냐다. 딥러닝 손실은 비볼록이고 지수적으로 많은 국소 최솟값이 존재한다. 하지만 모든 최솟값이 동등하지 않다.
Sharp minimum은 헤시안 최대 고유값 가 크다. 작은 파라미터 섭동에도 손실이 급증하므로, 훈련 분포와 약간 다른 테스트 샘플에서 손실이 폭발할 수 있다. Flat minimum은 가 작아 넓은 영역에서 손실이 안정적이다.
PAC-Bayes 프레임워크는 일반화 오차의 상한이 sharpness에 의존함을 보인다. 이를 직접 목적함수로 삼은 것이 SAM(Sharpness-Aware Minimization)이다.
최악의 섭동 지점에서 그래디언트를 계산해 업데이트한다. 추가 forward/backward 패스 1회로 flat minima를 향한 편향을 만든다.
정리
- 볼록 L-smooth 함수에서 GD의 수렴은 학습률 상한 과 telescoping 합산으로 정확히 유도된다.
- 모멘텀은 수렴률의 제곱근을 개선한다(). NAG는 1차 방법의 이론적 하한 을 달성한다.
- SGD의 분산 은 수렴을 로 제한한다. 이 장벽은 배치 크기 확대나 SVRG 같은 분산 감소로 완화된다.
- Adam의 bias correction은 초기 편향을 제거하고, 는 파라미터별 SNR 정규화다. AdamW는 weight decay를 그래디언트와 분리해 일반화를 개선한다.