AI 2026.04.27 · 12 min
Advanced Transformer Deep Dive · 4
Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정
Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.