RNN은 왜 sequence를 이해할 수 있는가
가변 길이 sequence 처리의 정식화부터 N-gram의 sparsity 한계, Bengio 2003의 embedding 통찰, RNN의 parameter sharing과 hidden state bottleneck까지 sequence 학습의 진화를 추적한다.
총 7개의 글
가변 길이 sequence 처리의 정식화부터 N-gram의 sparsity 한계, Bengio 2003의 embedding 통찰, RNN의 parameter sharing과 hidden state bottleneck까지 sequence 학습의 진화를 추적한다.
Unrolled graph에서 BPTT 유도, truncated BPTT의 메모리 절약, 복잡도 분석, RTRL까지 — RNN 학습 알고리즘의 통일된 설계 철학을 추적한다.
Spectral radius가 vanishing과 exploding을 결정하는 원리부터 gradient clipping, orthogonal init, IRNN까지 — RNN이 긴 의존성을 학습하지 못하는 근본 원인을 추적한다.
Vanishing gradient의 근본 원인부터 Constant Error Carousel의 수학적 증명, forget bias 초기화의 결정적 효과, GRU의 단순화까지 — LSTM 설계 철학의 전체 흐름을 추적한다.
양방향 컨텍스트부터 외부 메모리, 랜덤 리저보어까지 RNN 아키텍처 확장의 공통 철학과 각 설계 결정의 트레이드오프를 추적한다.
Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.
병렬성 한계에서 출발한 RNN의 구조적 결함부터 Linear Attention, SSM, Mamba의 하드웨어 인식 설계까지 — 시퀀스 모델 진화를 관통하는 하나의 원리를 추적한다.