무한폭 신경망은 왜 커널 회귀로 환원되는가
Neural Tangent Kernel의 정의부터 NNGP, RKHS, Lazy vs Feature Learning까지 — 무한폭 극한이 딥러닝 훈련을 결정론적 선형 ODE로 환원하는 이유를 추적한다.
- 01 고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가
- 02 Norm-based 일반화 이론은 왜 진공에서 멈추는가
- 03 무한폭 신경망은 왜 커널 회귀로 환원되는가
- 04 Double Descent는 왜 일어나는가
- 05 Grokking은 왜 일어나는가 — 지연 일반화의 수학
- 06 복권 티켓은 처음부터 결정되어 있었는가
- 07 LLM의 스케일링은 예측 가능한가
신경망은 왜 수렴하는가? 왜 일반화하는가? 이 질문들은 오랫동안 직관과 실험에 의존해왔다. Jacot et al. 2018이 Neural Tangent Kernel(NTK)을 발표했을 때, 비로소 수학적 대상이 생겼다 — 무한폭 극한에서 신경망 훈련이 결정론적 커널 회귀로 완전히 환원된다는 것이다. 이 통찰은 어디서 오는가, 그리고 어디에서 깨지는가?
NTK의 정체 — 그래디언트 내적으로서의 커널
Neural Tangent Kernel 의 정의는 단순하다.
두 입력 에 대해 파라미터 그래디언트의 내적이다. 직관은 명확하다 — “에서의 그래디언트 스텝이 의 예측을 얼마나 바꾸는가”를 측정한다. 가 크면 두 점이 훈련 중 서로 강하게 영향을 미친다.
핵심은 무한폭 극한()에서 이 커널이 상수로 수렴한다는 것이다. 각 은닉층 뉴런이 독립적으로 기여하고, 폭이 커질수록 중심극한정리에 의해 랜덤 초기화의 fluctuation이 사라진다. NTK parametrization( scaling)에서 훈련 중 가중치 이동이 이므로, 역시 시간에 대해 불변이 된다.
층별 귀납 공식은 이를 명시적으로 계산 가능하게 한다.
여기서 은 NNGP 공분산(순전파), 은 미분 커널(역전파)이다. Forward path와 backward path가 layer마다 합산되어 NTK를 구성한다.
훈련이 선형 ODE로 환원되는 이유
가 상수라는 사실이 갖는 실용적 힘은 훈련 역학에서 드러난다. MSE 손실에서 연속 그래디언트 플로우를 쓰면
이다. 가 상수이므로 이는 에 대한 선형 ODE다. 행렬 형태로 쓰면 이고, 닫힌 형태 해가 존재한다.
극한에서 이것은 정확히 커널 릿지 회귀 해가 된다.
수렴 속도는 커널 행렬의 최소 고유값 에 의해 결정된다. 즉 무한폭 신경망의 훈련은 초기 예측기 에서 출발해 잔차를 커널로 보간하는 것과 수학적으로 동치다.
무한폭 FCN, MSE 손실, 연속 그래디언트 플로우, NTK parametrization 하에서 임의의 테스트 점 에 대한 시각 의 예측은 위의 닫힌 형태로 주어지며, 에서 의 최소 고유값에 비례한 지수 속도로 수렴한다.
NNGP — 초기화 시점의 함수 공간 Prior
NTK와 쌍을 이루는 개념이 Neural Network Gaussian Process(NNGP)다. 무한폭에서 랜덤 초기화 신경망의 출력 분포는 가우시안 프로세스로 수렴한다.
이유는 CLT다. 에서 각 뉴런의 기여가 i.i.d.이므로, 에서 합이 가우시안으로 수렴한다. 여러 입력점에 대한 결합 분포도 다변수 가우시안 — 이것이 GP다.
NNGP()와 NTK()의 구분은 중요하다.
| NNGP | NTK | |
|---|---|---|
| 의미 | 출력의 prior 공분산 | 그래디언트의 내적 |
| 시점 | 랜덤 초기화 | 훈련 중 (불변) |
| 역할 | Bayesian prior | 그래디언트 플로우의 geometry |
는 NTK 귀납 공식의 building block이다. ReLU에서 은 arc-cosine 커널(Cho-Saul 2009)로 닫힌 형태를 갖는다.
RKHS와 일반화 — 커널 방법의 전통 연결
NTK가 positive definite 커널이라는 사실에서 Moore-Aronszajn 정리에 의해 유일한 Hilbert 공간 가 존재한다. 이 RKHS에서 representer theorem이 성립하고, 는 RKHS 노름을 최소화하는 보간자임을 보일 수 있다.
이 연결이 갖는 실용적 가치는 일반화 bound다. RKHS ball 의 Rademacher complexity는
로 계산된다. 커널 행렬의 trace가 작을수록 — 즉 유효 차원이 낮을수록 — 일반화가 개선된다. 이는 kernel eigenvalue의 decay 속도와 직결된다.
NTK RKHS는 고정된 커널의 함수 공간이다. 이 프레임워크는 무한폭 극한에서 정확하지만, feature learning을 배제한다. 실전 신경망의 커널은 훈련 중 변하고, 이 변화가 NTK로는 포착되지 않는다. Analytic NTK는 강력한 baseline이지만(CIFAR-10 Conv NTK ~77%) 실제 훈련된 ResNet(~95%)에는 10-18%p 부족하다. 이 gap이 feature learning의 순 기여다.
Lazy vs Feature Learning — NTK의 경계
Chizat, Oyallon, Bach 2019는 NTK regime이 곧 lazy training regime임을 명확히 했다. 출력에 스케일 팩터 를 도입하면
가 성립한다. 에서 가중치가 거의 움직이지 않고 훈련이 선형화된다 — 이것이 lazy regime, 곧 NTK regime이다. 에서는 가중치 이동이 이 되고 feature가 실질적으로 변한다.
반대 극단인 mean-field regime(Mei-Montanari-Nguyen 2018)에서는 normalization을 써서 경험적 분포 의 Wasserstein 그래디언트 플로우가 feature learning을 기술한다. 두 regime 사이의 continuum을 통합하려는 시도가 Yang 2020의 P(Maximal Update Parameterization)다.
정리
- 무한폭 극한에서 NTK는 상수 커널로 수렴하고, 훈련은 결정론적 선형 ODE로 환원된다. 해는 커널 릿지 회귀와 동치다.
- NNGP는 초기화 시점의 함수 공간 prior이고, NTK는 그래디언트 플로우의 geometry다. 둘 다 layer별 귀납 공식으로 계산 가능하다.
- NTK RKHS에서 Rademacher 복잡도가 로 계산되어 kernel eigenvalue decay와 일반화를 연결한다.
- Lazy(NTK) vs rich(feature learning)는 이분법이 아니라 연속체다. Chizat의 가 이를 파라미터화하고, P가 통합을 시도한다.
수식 하나 뒤에는 “신경망이 초기화에서 얼마나 멀리 가느냐”라는 근본 질문이 숨어 있다.