AI 2026.04.28 · 13 min
Advanced Regularization Theory Deep Dive · 3
Normalization은 어떻게 깊은 네트워크를 훈련 가능하게 만드는가
BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.
총 2개의 글
BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.
Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.