Momentum은 왜 빠른가 — 관성에서 진동까지
Polyak Heavy Ball의 √κ 가속 유도부터 NAG의 O(1/T²) 최적성, ODE 해석, 진동 조건, SGD 노이즈 누적까지 — Momentum optimizer의 설계 철학을 추적한다.
- 01 Gradient Descent의 수렴 보장은 어디까지인가
- 02 SGD는 왜 수렴하는가 — Robbins–Monro부터 Implicit Regularization까지
- 03 Momentum은 왜 빠른가 — 관성에서 진동까지
- 04 Adam은 왜 수렴을 보장하지 못하는가
- 05 Loss Landscape는 어떻게 생겼는가
- 06 LR 스케줄링의 통일 원리 — 왜 하나의 철학으로 수렴하는가
- 07 딥러닝 최적화의 숨은 기하학 — Sharpness에서 Fisher까지
torch.optim.SGD(momentum=0.9)를 호출할 때, 대부분은 “기울기의 지수평균을 누적한다”는 정도만 알고 있다. 하지만 이 한 줄 뒤에는 물리학의 관성 방정식, Chebyshev 다항식 최적화, 정보이론적 하한, 시변 마찰 ODE가 숨어 있다. Momentum optimizer의 모든 설계 결정은 하나의 질문에서 출발한다 — gradient descent의 수렴을 이론적으로 가속할 수 있는 최대치는 얼마이고, 그 대가는 무엇인가?
관성에서 알고리즘으로 — Heavy Ball의 탄생
Polyak 1964의 출발점은 뉴턴 방정식이다. 점성 매질 속에 잠긴 질량 1의 공:
로 정규화하고 Euler 이산화하면 정확히 다음이 나온다:
이것이 Heavy Ball Method다. “새 위치 = 기울기 방향 + 이전 모멘텀”이라는 직관은 물리학에서 직접 왔다.
Quadratic 에서는 정확한 수렴 분석이 가능하다. 각 고유값 방향이 독립적인 2차 점화식이 되고, 그 특성방정식의 근의 크기가 수렴 속도를 결정한다. Chebyshev 다항식의 미니맥스 성질을 이용해 모든 고유값 방향에서 균일하게 최적인 파라미터를 구하면:
이 하에서 수렴율은 , 반면 GD의 최적 수렴율은 . 큰 에서:
GD는 반복, Heavy Ball은 반복 — 배 가속이다.
NAG — 미리 보기와 정보이론적 최적성
Heavy Ball은 현재 위치에서 기울기를 계산한다. Nesterov 1983의 핵심 아이디어는 momentum이 향할 미래 위치에서 기울기를 계산하는 것이다:
이 “lookahead”가 수렴 속도 등급을 바꾼다.
가 -smooth convex이고 일 때:
GD는 , Heavy Ball은 convex에서 인데, NAG는 다. 그리고 이것이 달성 가능한 최대치다.
1차 방법(first-order oracle을 가진 결정론적 알고리즘)에 대해, 최악의 -smooth convex 함수에서:
NAG의 은 이 하한과 일치한다. NAG는 단순히 좋은 알고리즘이 아니라 정보이론적으로 최적이다.
증명의 핵심 도구는 estimate sequence다. 보조 수열 를 를 유지하도록 구성하고, 로 기하급수 수렴을 보인다. 스케줄 하에서 가 되어 이 자연스럽게 도출된다.
연속 시간 ODE — 마찰이 숨긴 것
NAG의 이산 업데이트에서 step size 극한을 취하면 ODE가 나온다 (Su–Boyd–Candes 2014):
왜 정확히 인가? 마찰 계수를 로 일반화하면:
이 임계값이다. 마찰이 클수록(초기) 안정화되고, 마찰이 작을수록(말기) momentum이 지속된다 — 이 시변 감쇠가 가속의 본질이다.
진동 — 가속의 대가
모든 이득에는 대가가 있다. Heavy Ball의 특성방정식 으로 돌아가면, 판별식이 음수일 때 복소근이 나온다:
복소근의 크기는 , 위상은 . 수렴 궤적은:
라면 100 step 후에도 진폭의 약 60%가 남는다. 이것이 large-batch training에서 높은 momentum을 쓸 때 loss가 “울렁거리는” 근본 이유다.
크게: 가속 극대화, 그러나 복소 고유값으로 진동 발생, noise 누적 심화.
작게: 진동 억제, noise 안정적, 그러나 가속 이득 감소. PyTorch 기본값 momentum=0.9는 이 둘 사이의 경험적 균형점이다.
QHM (Gitman 2019): 추가 파라미터 로 lookahead 가중치를 제어해 진동을 줄이면서 가속을 유지하는 방향.
SGD에서 Momentum — 노이즈가 이득을 상쇄한다
Deterministic 이론은 아름답지만, 현실의 신경망은 SGD다. Stochastic gradient 를 momentum 항에 넣으면:
과거 noise 가 로 감쇠하며 누적된다. 라면 약 20~25 step 이전의 noise까지 유의미하게 남는다.
Non-convex smooth에서 Yan 2018은 다음을 증명한다:
수렴 속도 등급은 GD와 같다. 가속은 noise가 없을 때(배치 무한대) 의 이득이고, SGD에서는 noise 때문에 hidden constant가 달라진다. 완전한 가속을 누리려면 SVRG 같은 variance reduction이 필요하고, 실전에서는 batch size를 키우는 것이 더 쉬운 대안이다.
정리
- Heavy Ball은 Quadratic에서 으로 GD 대비 배 가속을 달성한다.
- NAG의 lookahead는 convex에서 를 달성하고, 이는 1차 방법의 정보이론적 상한이다.
- ODE 해석에서 시변 마찰 가 가속의 핵심임이 드러난다 — 현대 LR schedule의 원형이다.
- 가 크면 복소 고유값으로 진동이 발생하고, SGD에서 노이즈가 momentum 항에 누적되어 이론적 이득을 상쇄한다.
Momentum의 설계는 결국 하나의 tradeoff를 다른 언어로 반복해서 표현한다 — 관성을 키우면 빠르지만 흔들린다.