AI 2026.04.15 · 6 min
Advanced
Attention의 √d 스케일링은 어디서 왔나
Scaled dot-product attention의 분모 √d_k가 왜 필요한가. Softmax 포화를 막기 위한 분산 보존 유도와 Linear Attention의 가정까지.
총 1개의 글
Scaled dot-product attention의 분모 √d_k가 왜 필요한가. Softmax 포화를 막기 위한 분산 보존 유도와 Linear Attention의 가정까지.