AI 2026.04.27 · 11 min
Advanced Transformer Deep Dive · 2
Transformer Block은 왜 이 네 요소의 조합인가
Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.