AI 2026.04.28 · 11 min
Advanced Rnn Lstm Deep Dive · 3
RNN의 Vanishing Gradient는 왜 피할 수 없는가
Spectral radius가 vanishing과 exploding을 결정하는 원리부터 gradient clipping, orthogonal init, IRNN까지 — RNN이 긴 의존성을 학습하지 못하는 근본 원인을 추적한다.
총 2개의 글
Spectral radius가 vanishing과 exploding을 결정하는 원리부터 gradient clipping, orthogonal init, IRNN까지 — RNN이 긴 의존성을 학습하지 못하는 근본 원인을 추적한다.
대칭성 깨기부터 Fixup까지, 분산 보존이라는 하나의 원칙이 Xavier, He, LSUV, Orthogonal 초기화를 어떻게 파생시켰는지 추적한다.