AI 2026.04.28 · 14 min
Advanced Neural Network Theory Deep Dive · 7
Transformer는 왜 작동하는가 — 설계 결정들의 공통 뿌리
√d_k 스케일링부터 Residual Connection까지, Transformer의 핵심 설계 결정들이 하나의 원칙 — '신호가 사라지지 않게 하라' — 에서 비롯됨을 추적한다.
총 1개의 글
√d_k 스케일링부터 Residual Connection까지, Transformer의 핵심 설계 결정들이 하나의 원칙 — '신호가 사라지지 않게 하라' — 에서 비롯됨을 추적한다.