series · transformer-deep-dive

📚 Transformer Deep Dive

총 6편 · 순서대로 읽기를 권장

AI 2026.04.27 · 11 min Advanced Transformer Deep Dive · 2

Transformer Block은 왜 이 네 요소의 조합인가

Attention, FFN, LayerNorm, Residual이 하나의 block에 packed되는 이유부터 Pre-LN/Post-LN의 gradient dynamics, Encoder/Decoder 분기의 본질까지 Transformer 설계 철학을 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 3

Positional Encoding은 어떻게 진화했나

순서를 모르는 Self-Attention의 한계부터 Sinusoidal, Learned, Relative PE를 거쳐 RoPE와 ALiBi까지, 위치 정보 주입의 설계 진화를 추적한다.

AI 2026.04.27 · 12 min Advanced Transformer Deep Dive · 4

Transformer 훈련을 가능하게 하는 다섯 가지 설계 결정

Warmup 스케줄의 이론적 정당성부터 AdamW의 분리된 weight decay, label smoothing의 calibration 효과, gradient accumulation의 선형 스케일링 법칙, BF16 mixed precision까지 — 현대 LLM 훈련 레시피의 공통 철학을 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 5

Attention의 O(T²) 벽을 어떻게 부수는가

Self-attention의 이차 복잡도가 만드는 메모리·시간 병목의 근원부터, Linear·Sparse·Flash·MQA/GQA 네 가지 해법의 수학적 원리와 트레이드오프까지 추적한다.

AI 2026.04.27 · 13 min Advanced Transformer Deep Dive · 6

BERT, GPT, T5, ViT, MoE — 다섯 아키텍처는 하나의 질문에 답한다

Transformer 의 다섯 변형이 '맥락을 어떻게 쓸 것인가'라는 하나의 질문에 각자 다르게 답하는 방식부터, MoE 가 파라미터와 계산을 분리하는 원리까지, 아키텍처 설계 철학의 흐름을 추적한다.

AI 2026.04.27 · 15 min Advanced Transformer Deep Dive · 7

LLM은 왜 클수록 똑똑한가 — Scaling Laws의 세계

Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.