#transformer · IQ Lab

AI 2026.04.15 · 6 min Advanced

Scaled dot-product attention의 분모 √d_k가 왜 필요한가. Softmax 포화를 막기 위한 분산 보존 유도와 Linear Attention의 가정까지.