Skip Connection은 왜 깊은 네트워크를 살렸는가
Residual block의 identity shortcut부터 DenseNet의 dense connection, Highway의 learnable gate, Stochastic Depth의 implicit ensemble까지, 깊이의 저주를 구조적으로 해결한 설계 철학을 추적한다.
- 01 CNN의 수학적 토대 — Convolution부터 Frequency까지
- 02 CNN 설계의 다섯 가지 선택은 하나의 문제에서 나온다
- 03 CNN의 수용장은 왜 기대보다 작은가
- 04 Skip Connection은 왜 깊은 네트워크를 살렸는가
- 05 CNN 아키텍처 설계의 통일된 논리: 무엇이 성능을 결정하는가
- 06 CNN 응용의 통일 원리 — 손실 함수가 설계를 결정한다
- 07 CNN의 설계 철학은 어디서 왔는가
2015년 ImageNet에서 152층짜리 네트워크가 우승했다. 그 전까지 50층을 넘으면 오히려 성능이 떨어졌다. 무엇이 바뀌었는가? 답은 단 하나의 수식이다 — . 왜 이 항등원 하나가 깊이의 저주를 풀었는지, 그리고 이후 아키텍처들이 그 철학을 어떻게 다르게 해석했는지 추적한다.
깊이가 저주가 되는 이유
길이 인 plain network의 역전파:
각 이면 product는 에 비례한다. , 이면:
초기 층의 gradient는 99.5% 소멸한다. 학습률 0.01에서 파라미터 업데이트는 수준 — 사실상 학습이 멈춘다. 이것이 plain-56이 plain-20보다 나쁜 성능을 보인 이유다.
더 많은 파라미터를 가진 깊은 plain network가 얕은 network보다 성능이 나쁘다. 이는 과적합이 아니라 optimization 실패다 — 훈련 오차 자체가 더 높다.
Identity Shortcut: 항등원을 고속도로로
Residual block:
역전파를 전개하면:
개 block을 거치면:
Taylor 전개하면 이 product에는 반드시 항등원 가 남는다. 이 아무리 작아도 gradient는 최소 크기를 유지한다.
Pre-activation residual block에서, 이면:
따라서 역전파 시 gradient norm은 최악의 경우에도 까지만 감소한다.
Spectral norm의 삼각 부등식에서 직접 따른다. 의 eigenvalue 범위는 이고, 이면 모든 eigenvalue가 양수이므로 gradient가 역전되거나 소멸하지 않는다.
직관적으로는 gradient highway 메타포가 명확하다. Plain network에서 gradient는 매 층의 신호등(ReLU mask, weight norm)에서 감쇠된다. Residual network에서는 identity 경로가 고속도로 차선을 열어둔다 — 학습된 변형 가 작아도 gradient는 직통으로 흐른다.
He initialization()과 BN 초기화()를 조합하면, 훈련 초기에 이므로 각 block은 identity에 가까운 상태에서 시작한다. 이것이 Identity Approximation Theorem의 핵심이다: 깊은 residual network는 항상 “추가 block이 모두 을 학습한 얕은 network”를 최소 성능으로 보장한다. 깊이가 optimization의 적이 아니라 중립이 된다.
DenseNet: Concatenation으로 모든 층을 연결
ResNet이 덧셈으로 shortcut을 연결했다면, DenseNet(Huang et al., 2017)은 concatenation으로 모든 이전 층을 연결한다:
Growth rate (보통 12–32)만큼 각 층의 출력 채널이 증가하며, Bottleneck() 구조로 파라미터를 제어한다. 결과는 극적이다 — DenseNet-121은 ResNet-50과 유사한 ImageNet 정확도를 1/3 파라미터로 달성한다.
Dense Block (c₀=24, k=12, L=6):
Layer 0: 24 channels input
Layer 1: 36 channels input (24 + 12)
Layer 2: 48 channels input (24 + 12 + 12)
...
Layer 5: 84 channels input (24 + 5×12)
Block output: 96 channels (24 + 6×12)
→ Transition (×0.5): 48 channels
Gradient 경로 수가 ResNet의 1개에서 개로 늘어나므로, gradient vanishing은 더욱 어려워진다. 대신 모든 intermediate feature를 메모리에 유지해야 하므로 VRAM bandwidth 병목이 생긴다 — 파라미터 수와 실제 메모리 사용량이 다를 수 있다.
Highway의 Learnable Gate, 그리고 실패의 교훈
Highway Network(Srivastava et al., 2015)는 ResNet과 거의 동시에 발표된 대안이다:
Gate 이 얼마나 많은 정보를 변환(transform)하고 얼마나 많은 정보를 통과(carry)시킬지를 동적으로 결정한다. LSTM의 forget gate와 구조적으로 동일하다. ResNet은 로 고정한 Highway의 특수 케이스로 해석할 수 있다.
Highway는 이론적으로 더 일반적(general)이다. 그러나 Greff et al.(2016)의 분석은 훈련이 진행될수록 에 수렴한다는 것을 발견했다 — gate가 결국 identity를 버리고 완전한 변환을 선택한다. 학습 가능한 gate가 고정 identity보다 열등한 결과를 보였다. ResNet의 단순함이 이기는 희귀한 사례다.
Stochastic Depth: Layer-wise Dropout과 Implicit Ensemble
Stochastic Depth(Huang et al., 2016)는 전혀 다른 방향을 탐색한다. 훈련 중 전체 residual block을 확률적으로 drop한다:
Drop되면 해당 block의 gradient는 identity path만 통과한다 — 가장 직접적인 gradient flow다. Drop probability는 linear decay schedule을 따른다:
초기 층(low-level feature, redundant)은 자주 drop되고, 후기 층(high-level feature, 중요)은 거의 유지된다.
개 block이 독립적으로 drop/keep되면 가능한 sub-network 수는 이다. ResNet-1001에서 이 수는 — 이 모든 네트워크를 implicit하게 훈련하는 효과가 강력한 regularization을 만든다. 실제로 이 기법 없이는 훈련 불가능했던 ResNet-1001이 이를 통해 수렴에 성공했다. 이후 Vision Transformer의 DropPath로 직접 이어진다.
정리
- 의 항등원 항은 gradient highway를 열고, 깊이를 optimization 비용에서 해방시켰다.
- DenseNet은 concatenation으로 모든 이전 층을 연결해 파라미터 효율을 극대화했지만, 메모리 bandwidth 비용이 따른다.
- Highway는 learnable gate가 고정 identity보다 열등함을 반증한 사례다 — 복잡성이 항상 이기지는 않는다.
- Stochastic Depth는 layer-wise dropout으로 implicit ensemble을 만들어 1000층 이상의 네트워크를 가능하게 했다.
이 네 가지 설계는 모두 같은 질문의 다른 답이다 — “gradient를 어떻게 초기 층까지 살아서 보낼 것인가”.