AI 2026.04.28 · 13 min
Advanced Calculus Optimization Deep Dive · 4
경사하강법의 수렴은 왜 그 속도인가
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.
총 2개의 글
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.
고차원 saddle point의 통계적 희귀성부터 NTK의 lazy regime까지, 딥러닝 loss landscape의 기하학을 하나의 프레임으로 추적한다.