AI 2026.04.28 · 11 min
Advanced Rnn Lstm Deep Dive · 3
RNN의 Vanishing Gradient는 왜 피할 수 없는가
Spectral radius가 vanishing과 exploding을 결정하는 원리부터 gradient clipping, orthogonal init, IRNN까지 — RNN이 긴 의존성을 학습하지 못하는 근본 원인을 추적한다.
총 4개의 글
Spectral radius가 vanishing과 exploding을 결정하는 원리부터 gradient clipping, orthogonal init, IRNN까지 — RNN이 긴 의존성을 학습하지 못하는 근본 원인을 추적한다.
Vanishing gradient의 근본 원인부터 Constant Error Carousel의 수학적 증명, forget bias 초기화의 결정적 효과, GRU의 단순화까지 — LSTM 설계 철학의 전체 흐름을 추적한다.
양방향 컨텍스트부터 외부 메모리, 랜덤 리저보어까지 RNN 아키텍처 확장의 공통 철학과 각 설계 결정의 트레이드오프를 추적한다.
Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.