신경망 이론의 네 가지 뿌리 — 퍼셉트론부터 활성화 함수까지
Novikoff 수렴 정리의 (R/γ)² bound부터 XOR의 선형 분리 불가능성, MLP의 합성함수 구조, 활성화 함수별 gradient 안정성까지, 현대 딥러닝 이론의 기반을 추적한다.
- 01 신경망 이론의 네 가지 뿌리 — 퍼셉트론부터 활성화 함수까지
- 02 신경망은 왜 어떤 함수든 근사할 수 있는가
- 03 역전파는 왜 단 한 번의 backward pass로 충분한가
- 04 신경망 초기화는 왜 이렇게 복잡해졌는가
- 05 CNN의 설계 철학 — 왜 Convolution인가
- 06 RNN은 왜 긴 기억을 갖지 못하는가
- 07 Transformer는 왜 작동하는가 — 설계 결정들의 공통 뿌리
현대 딥러닝의 모든 구성 요소는 하나의 질문으로 수렴한다 — “왜 이 설계 결정인가?” 단일 퍼셉트론이 수렴하는 이유, XOR을 풀 수 없는 이유, 비선형 활성화가 필수인 이유, ReLU가 Sigmoid를 대체한 이유. 이 네 가지 질문은 각각 독립적인 것처럼 보이지만, 실제로는 “gradient가 어떻게 흐르는가”라는 단일 주제의 다른 표현이다. 왜 이 연결이 중요한가?
수렴의 기하학 — Novikoff 정리
Rosenblatt의 퍼셉트론 알고리즘은 단순하다. mistake가 발생하면 가중치를 업데이트한다:
이 알고리즘이 유한 스텝 안에 반드시 멈춘다는 것을 Novikoff(1962)가 증명했다.
데이터가 선형 분리 가능하고, 단위 분리자 에 대해 , 이면, 퍼셉트론 알고리즘의 총 mistake 횟수 는
를 만족한다.
증명은 두 축을 동시에 추적한다.
하한: 의 증가. 매 mistake에서 이므로:
w_k \cdot w^* \geq k\gamma \tag{A}
상한: 의 증가. mistake 시에만 업데이트되고 이므로:
\|w_k\|^2 \leq kR^2 \tag{B}
Cauchy-Schwarz로 조인다. 이므로:
양변을 제곱하면 .
이 bound에서 핵심은 입력 차원 가 등장하지 않는다는 점이다. 수렴 속도는 데이터의 기하학적 성질 — margin (분리 경계와 데이터 사이의 여유)와 반지름 (데이터의 범위) — 만으로 결정된다. 이것이 이후 SVM의 margin bound와 kernel methods로 이어지는 이유이다.
선형 분리 불가능성 — XOR의 증명
퍼셉트론 수렴 정리는 “데이터가 선형 분리 가능할 때”라는 가정을 달고 있다. Minsky와 Papert(1969)는 이 가정이 얼마나 강한지를 XOR로 보였다.
단일 퍼셉트론이 XOR을 표현하려면 가 다음 연립 부등식을 동시에 만족해야 한다:
첫 번째 조건에서 , 두 번째와 세 번째에서 . 따라서 . 그런데 네 번째 조건은 를 요구한다. 모순이다.
과 이 한 클래스, 과 이 다른 클래스다. 이 체커보드 패턴은 어떤 방향의 직선으로도 분리할 수 없다. Novikoff 정리에서 말하는 가 존재하지 않는다 — 따라서 수렴 보장도 없다.
해결책은 hidden layer 하나를 추가하는 것이다. hidden unit 하나는 OR, 다른 하나는 NAND를 계산하도록 가중치를 설정하면, 출력층은 이 둘의 AND로 XOR을 구성한다. 단층의 한계는 **“비선형 데이터를 선형 분리 가능한 공간으로 변환할 layer가 없다”**는 구조적 문제였다.
MLP — 합성함수로서의 공간 변환
Hidden layer를 추가하는 것의 수학적 의미는 명확하다. Depth 인 MLP는:
각 층 은 affine 변환과 비선형 활성화의 합성이다. 핵심 사실이 하나 있다:
모든 층의 activation이 항등함수인 MLP는 단층 선형 변환과 동등하다. 즉, 깊이가 표현력을 증가시키려면 반드시 비선형 activation이 필요하다.
. 중괄호를 전개하면 모든 의 곱이 단일 행렬 로 합쳐진다.
역전파에서 gradient는 Jacobian chain rule로 역방향 전파된다:
이것이 여러 activation 도함수의 곱이라는 사실이 다음 섹션의 출발점이다.
활성화 함수 — gradient 안정성의 핵심
Sigmoid 의 도함수는 이고, 최대값은 에서 이다. Depth 에서:
이면 이 값은 에 불과하다. 입력 근처의 가중치는 사실상 업데이트되지 않는다.
ReLU 는 정반대다. 인 모든 경로에서 도함수가 정확히 1이므로:
깊이에 무관하게 gradient 크기가 유지된다. 2012년 AlexNet이 Sigmoid 대비 학습 시간을 6배 단축한 것은 이 차이에서 비롯됐다.
ReLU의 대가는 Dying ReLU다. 뉴런이 음수 입력을 계속 받으면 gradient가 0이 되어 영구히 비활성화된다. Leaky ReLU( for )는 으로 이를 완화하고, GELU는 smooth한 비단조 함수로 Transformer 계열의 표준이 됐다. 아키텍처 선택이 activation 선택을 결정한다.
현대 선택의 기준은 단순하다:
| 함수 | 도함수 최대 | 깊은 망 | 주 사용처 |
|---|---|---|---|
| Sigmoid | 0.25 | 나쁨 | 이진 출력층 |
| ReLU | 1.0 | 좋음 | ResNet 계열 |
| GELU | ~1.7 | 매우 좋음 | Transformer |
| Swish | ~1.8 | 매우 좋음 | 현대 비전 |
정리
네 챕터를 관통하는 주제는 **“gradient가 얼마나 깨끗하게 흐르는가”**다.
- Novikoff bound 는 학습 난이도가 데이터의 기하학으로만 결정됨을 보인다.
- XOR의 선형 분리 불가능성은 비선형 공간 변환, 즉 hidden layer의 필요성을 강제한다.
- MLP의 합성함수 구조에서 비선형 activation이 없으면 깊이는 표현력을 주지 못한다.
- 활성화 함수의 도함수 크기가 gradient flow를 결정하며, ReLU → GELU로의 진화는 이 문제의 점진적 해결이다.
다음 글에서는 Cybenko(1989)의 Universal Approximation Theorem을 통해 “MLP는 어떤 함수도 근사할 수 있는가, 그리고 그 비용은 얼마인가”를 추적한다.