tag

#learning-rate

총 3개의 글

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 2

SGD는 왜 수렴하는가 — Robbins–Monro부터 Implicit Regularization까지

학습률 스케줄의 수학적 근거인 Robbins–Monro 조건부터 SGD noise가 flat minima를 선호하는 이유까지, 딥러닝 최적화의 이론적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 6

LR 스케줄링의 통일 원리 — 왜 하나의 철학으로 수렴하는가

고정 LR의 O(1/T) 보장부터 warmup의 curvature 안정화, cosine+warm restart의 local minimum 탐색, One-Cycle의 super-convergence까지, 현대 LR 스케줄링 전체를 관통하는 설계 원리를 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 4

Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정

Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.