AI 2026.04.28 · 13 min
Advanced Optimization Theory Deep Dive · 4
Adam은 왜 수렴을 보장하지 못하는가
AdaGrad의 누적 분산에서 출발해 RMSProp의 이동평균, Adam의 편향 보정, 수렴 반례, 그리고 AMSGrad·AdamW·Lion까지 — adaptive optimizer 계보의 설계 결정을 추적한다.
총 2개의 글
AdaGrad의 누적 분산에서 출발해 RMSProp의 이동평균, Adam의 편향 보정, 수렴 반례, 그리고 AMSGrad·AdamW·Lion까지 — adaptive optimizer 계보의 설계 결정을 추적한다.
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.