AI 2026.04.28 · 11 min
Advanced Optimization Theory Deep Dive · 3
Momentum은 왜 빠른가 — 관성에서 진동까지
Polyak Heavy Ball의 √κ 가속 유도부터 NAG의 O(1/T²) 최적성, ODE 해석, 진동 조건, SGD 노이즈 누적까지 — Momentum optimizer의 설계 철학을 추적한다.
총 2개의 글
Polyak Heavy Ball의 √κ 가속 유도부터 NAG의 O(1/T²) 최적성, ODE 해석, 진동 조건, SGD 노이즈 누적까지 — Momentum optimizer의 설계 철학을 추적한다.
L-smooth 볼록 함수의 O(1/k) 수렴부터 Nesterov 가속의 최적성, 뉴턴 방법의 이차 수렴, 분산 감소 기법의 선형 수렴까지 — 1차 최적화 이론의 핵심 정리를 하나의 흐름으로 추적한다.