IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

신경망 이론의 네 가지 뿌리 — 퍼셉트론부터 활성화 함수까지

Novikoff 수렴 정리의 (R/γ)² bound부터 XOR의 선형 분리 불가능성, MLP의 합성함수 구조, 활성화 함수별 gradient 안정성까지, 현대 딥러닝 이론의 기반을 추적한다.


현대 딥러닝의 모든 구성 요소는 하나의 질문으로 수렴한다 — “왜 이 설계 결정인가?” 단일 퍼셉트론이 수렴하는 이유, XOR을 풀 수 없는 이유, 비선형 활성화가 필수인 이유, ReLU가 Sigmoid를 대체한 이유. 이 네 가지 질문은 각각 독립적인 것처럼 보이지만, 실제로는 “gradient가 어떻게 흐르는가”라는 단일 주제의 다른 표현이다. 왜 이 연결이 중요한가?

수렴의 기하학 — Novikoff 정리

Rosenblatt의 퍼셉트론 알고리즘은 단순하다. mistake가 발생하면 가중치를 업데이트한다:

wk+1wk+yixiw_{k+1} \leftarrow w_k + y_i x_i

이 알고리즘이 유한 스텝 안에 반드시 멈춘다는 것을 Novikoff(1962)가 증명했다.

정리 1 · Novikoff 수렴 bound

데이터가 선형 분리 가능하고, 단위 분리자 ww^*에 대해 yi(wx~i)γ>0y_i(w^* \cdot \tilde{x}_i) \geq \gamma > 0, x~iR\|\tilde{x}_i\| \leq R이면, 퍼셉트론 알고리즘의 총 mistake 횟수 kk

k(Rγ)2k \leq \left(\frac{R}{\gamma}\right)^2

를 만족한다.

▷ 증명

증명은 두 축을 동시에 추적한다.

하한: wkww_k \cdot w^*의 증가. 매 mistake에서 y(k)(wx(k))γy^{(k)}(w^* \cdot x^{(k)}) \geq \gamma이므로:

w_k \cdot w^* \geq k\gamma \tag{A}

상한: wk2\|w_k\|^2의 증가. mistake 시에만 업데이트되고 y(k)(wk1x(k))0y^{(k)}(w_{k-1} \cdot x^{(k)}) \leq 0이므로:

\|w_k\|^2 \leq kR^2 \tag{B}

Cauchy-Schwarz로 조인다. w=1\|w^*\| = 1이므로:

kγ(A)wkwwk(B)kRk\gamma \overset{(A)}{\leq} w_k \cdot w^* \leq \|w_k\| \overset{(B)}{\leq} \sqrt{k}R

양변을 제곱하면 k(R/γ)2k \leq (R/\gamma)^2. \square

이 bound에서 핵심은 입력 차원 dd가 등장하지 않는다는 점이다. 수렴 속도는 데이터의 기하학적 성질 — margin γ\gamma(분리 경계와 데이터 사이의 여유)와 반지름 RR(데이터의 범위) — 만으로 결정된다. 이것이 이후 SVM의 margin bound와 kernel methods로 이어지는 이유이다.

선형 분리 불가능성 — XOR의 증명

퍼셉트론 수렴 정리는 “데이터가 선형 분리 가능할 때”라는 가정을 달고 있다. Minsky와 Papert(1969)는 이 가정이 얼마나 강한지를 XOR로 보였다.

단일 퍼셉트론이 XOR을 표현하려면 w1,w2,bw_1, w_2, b가 다음 연립 부등식을 동시에 만족해야 한다:

{b0(0,0)0w2+b>0(0,1)1w1+b>0(1,0)1w1+w2+b0(1,1)0\begin{cases} b \leq 0 & (0,0) \to 0 \\ w_2 + b > 0 & (0,1) \to 1 \\ w_1 + b > 0 & (1,0) \to 1 \\ w_1 + w_2 + b \leq 0 & (1,1) \to 0 \end{cases}

첫 번째 조건에서 b0b \leq 0, 두 번째와 세 번째에서 w1,w2>b0w_1, w_2 > -b \geq 0. 따라서 w1+w2>0w_1 + w_2 > 0. 그런데 네 번째 조건은 w1+w2bw_1 + w_2 \leq -b를 요구한다. 모순이다.

XOR의 기하학적 이유

(0,0)(0,0)(1,1)(1,1)이 한 클래스, (0,1)(0,1)(1,0)(1,0)이 다른 클래스다. 이 체커보드 패턴은 어떤 방향의 직선으로도 분리할 수 없다. Novikoff 정리에서 말하는 γ\gamma가 존재하지 않는다 — 따라서 수렴 보장도 없다.

해결책은 hidden layer 하나를 추가하는 것이다. hidden unit 하나는 OR, 다른 하나는 NAND를 계산하도록 가중치를 설정하면, 출력층은 이 둘의 AND로 XOR을 구성한다. 단층의 한계는 **“비선형 데이터를 선형 분리 가능한 공간으로 변환할 layer가 없다”**는 구조적 문제였다.

MLP — 합성함수로서의 공간 변환

Hidden layer를 추가하는 것의 수학적 의미는 명확하다. Depth LL인 MLP는:

f(x)=σL(WLσ1(W1x+b1)+bL)f(x) = \sigma_L(W_L \cdots \sigma_1(W_1 x + b_1) \cdots + b_L)

각 층 fl=σlAlf_l = \sigma_l \circ A_l은 affine 변환과 비선형 활성화의 합성이다. 핵심 사실이 하나 있다:

명제 2 · 비선형성의 필수성

모든 층의 activation이 항등함수인 MLP는 단층 선형 변환과 동등하다. 즉, 깊이가 표현력을 증가시키려면 반드시 비선형 activation이 필요하다.

▷ 증명

f(x)=WL(WL1((W1x+b1)+bL1)+bL)=W~x+b~f(x) = W_L(W_{L-1}(\cdots(W_1 x + b_1)\cdots + b_{L-1}) + b_L) = \tilde{W}x + \tilde{b}. 중괄호를 전개하면 모든 WlW_l의 곱이 단일 행렬 W~\tilde{W}로 합쳐진다. \square

역전파에서 gradient는 Jacobian chain rule로 역방향 전파된다:

W1=ALALZLA2Z2Z2W1\frac{\partial \ell}{\partial W_1} = \frac{\partial \ell}{\partial A_L} \cdot \frac{\partial A_L}{\partial Z_L} \cdots \frac{\partial A_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial W_1}

이것이 여러 activation 도함수의 곱이라는 사실이 다음 섹션의 출발점이다.

활성화 함수 — gradient 안정성의 핵심

Sigmoid σ(z)=1/(1+ez)\sigma(z) = 1/(1+e^{-z})의 도함수는 σ(z)=σ(z)(1σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))이고, 최대값은 z=0z=0에서 0.250.25이다. Depth LL에서:

l=1Lσ(zl)(0.25)L\prod_{l=1}^{L} \sigma'(z_l) \leq (0.25)^L

L=20L=20이면 이 값은 9×10139 \times 10^{-13}에 불과하다. 입력 근처의 가중치는 사실상 업데이트되지 않는다.

ReLU max(0,z)\max(0, z)는 정반대다. z>0z > 0인 모든 경로에서 도함수가 정확히 1이므로:

l:zl>0ReLU(zl)=1\prod_{l: z_l > 0} \text{ReLU}'(z_l) = 1

깊이에 무관하게 gradient 크기가 유지된다. 2012년 AlexNet이 Sigmoid 대비 학습 시간을 6배 단축한 것은 이 차이에서 비롯됐다.

트레이드오프

ReLU의 대가는 Dying ReLU다. 뉴런이 음수 입력을 계속 받으면 gradient가 0이 되어 영구히 비활성화된다. Leaky ReLU(αz\alpha z for z<0z < 0)는 α0\alpha \neq 0으로 이를 완화하고, GELU는 smooth한 비단조 함수로 Transformer 계열의 표준이 됐다. 아키텍처 선택이 activation 선택을 결정한다.

현대 선택의 기준은 단순하다:

함수도함수 최대깊은 망주 사용처
Sigmoid0.25나쁨이진 출력층
ReLU1.0좋음ResNet 계열
GELU~1.7매우 좋음Transformer
Swish~1.8매우 좋음현대 비전

정리

네 챕터를 관통하는 주제는 **“gradient가 얼마나 깨끗하게 흐르는가”**다.

  • Novikoff bound (R/γ)2(R/\gamma)^2는 학습 난이도가 데이터의 기하학으로만 결정됨을 보인다.
  • XOR의 선형 분리 불가능성은 비선형 공간 변환, 즉 hidden layer의 필요성을 강제한다.
  • MLP의 합성함수 구조에서 비선형 activation이 없으면 깊이는 표현력을 주지 못한다.
  • 활성화 함수의 도함수 크기가 gradient flow를 결정하며, ReLU → GELU로의 진화는 이 문제의 점진적 해결이다.

다음 글에서는 Cybenko(1989)의 Universal Approximation Theorem을 통해 “MLP는 어떤 함수도 근사할 수 있는가, 그리고 그 비용은 얼마인가”를 추적한다.

REF
Minsky, M. and Papert, S. · 1969 · Perceptrons: An Introduction to Computational Geometry · MIT Press
REF
Nair, V. and Hinton, G. · 2010 · Rectified Linear Units Improve Restricted Boltzmann Machines · ICML