Norm-based 일반화 이론은 왜 진공에서 멈추는가
Bartlett의 spectral norm 곱부터 PAC-Bayes의 KL capacity, compression의 effective bits, Nagarajan-Kolter의 구조적 반례까지 — norm-based 이론이 어디서 한계에 부딪히는지 추적한다.
- 01 고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가
- 02 Norm-based 일반화 이론은 왜 진공에서 멈추는가
- 03 무한폭 신경망은 왜 커널 회귀로 환원되는가
- 04 Double Descent는 왜 일어나는가
- 05 Grokking은 왜 일어나는가 — 지연 일반화의 수학
- 06 복권 티켓은 처음부터 결정되어 있었는가
- 07 LLM의 스케일링은 예측 가능한가
딥러닝의 일반화는 고전 이론으로 설명되지 않는다. VC 차원과 Rademacher complexity는 실제 네트워크에서 vacuous한 bound를 내놓는다. 그렇다면 norm을 기반으로 한 정제가 이 간극을 닫을 수 있을까? Bartlett 2017에서 시작해 PAC-Bayes, path-norm, compression을 거쳐 Nagarajan-Kolter 2019의 반례에 이르는 여정은, norm-based 이론이 가진 구조적 한계를 드러낸다.
Margin과 spectral norm 곱
Bartlett, Foster, Telgarsky 2017의 출발점은 단순한 관찰이다. -layer ReLU 네트워크의 Lipschitz 상수는 각 층의 spectral norm 곱 으로 bound된다. 두 입력이 가까우면 출력도 그만큼 가깝고, 이는 covering number를 작게 만든다.
여기에 margin normalization을 결합한다. ReLU는 positive homogeneous이므로 전체 네트워크를 배 rescale하면 margin도 배가 된다. 그러나 margin-to-Lipschitz 비율
은 rescaling에 불변이다. 이것이 진짜 capacity measure다.
-layer ReLU 네트워크, 입력 norm , 초기화 에 대해 확률 로:
핵심은 세 단계다. (1) 레이어별 covering을 조합해 함수 클래스 의 covering number를 으로 bound한다. (2) Dudley entropy integral로 Rademacher complexity를 유도한다. (3) Koltchinskii-Panchenko의 margin-based bound에 대입해 완성한다. 항의 지수 은 레이어별 covering error 를 최적 분배할 때 Lagrangian 조건에서 자연스럽게 나온다.
bound의 구조에서 중요한 것은 초기화 기준 상대적 이동 이다. 절대적 norm이 아니라 초기화에서 얼마나 벗어났는가가 capacity를 결정한다. 이 아이디어는 이후 NTK의 “lazy regime”과 PAC-Bayes의 prior 설계에서 동일한 형태로 반복된다.
PAC-Bayes — 분포의 KL이 capacity가 되다
Bartlett 2017은 단일 hypothesis의 bound다. PAC-Bayes는 패러다임을 전환한다. 단일 가 아니라 **posterior distribution over **의 expected loss를 bound하면, 전체의 worst-case 문제를 피할 수 있다.
데이터와 독립인 prior , 임의의 데이터 의존 posterior 에 대해 확률 로:
capacity는 이제 다. Gaussian posterior 와 prior 를 취하면:
주 항이 다시 “초기화로부터의 거리”다. Bartlett의 과 구조가 같다.
Dziugaite & Roy 2017의 기여는 bound 자체를 minimization 목적함수로 삼아 , , 를 SGD로 최적화한 것이다. 이로써 MNIST에서 이라는 최초의 non-vacuous bound를 달성했다. 이것이 역사적인 이유는 단순히 숫자가 작아서가 아니라, uniform convergence 프레임 안에서 non-vacuous가 가능함을 처음 보였기 때문이다.
Path-norm과 compression — 두 가지 정제
Neyshabur 2015의 path-norm은 네트워크 구조를 직접 반영한다. 입력에서 출력까지 각 경로의 weight 곱의 -norm:
이것이 spectral norm product보다 자연스러운 이유는 layerwise rescaling에 완전히 불변하기 때문이다. , 을 취하면 각 경로에서 와 가 상쇄된다. 2-layer 경우 Rademacher complexity는 으로, 입력 차원 에 logarithmic하게만 의존한다.
Arora et al. 2018은 전혀 다른 방향을 취한다. 훈련된 네트워크가 -bit으로 압축 가능하면 effective capacity 이고, 일반화 gap은 으로 bound된다. 핵심 관찰은 noise sensitivity다 — 훈련된 네트워크는 레이어 입력에 Gaussian noise를 넣어도 출력이 거의 변하지 않는다. 이는 각 레이어를 low-rank approximation으로 대체해도 출력이 유지됨을 의미하고, 따라서 압축이 가능하다.
이 관점은 Lottery Ticket Hypothesis와 같은 아이디어를 공유한다 — overparameterized 네트워크 안에 작은 effective subnetwork가 숨어있다.
Bartlett의 spectral norm은 global Lipschitz를 측정하지만 초기화 기준 정제가 필요하다. PAC-Bayes는 non-vacuous를 달성하지만 bound 자체를 최적화한 특별한 weight의 bound다. Path-norm은 scale-invariant하지만 deep network에서 경로 수가 지수적이다. Compression은 직관적이지만 attention 같은 구조에서 low-rank 가정이 약하다. 각 refinement는 다른 가정 위에 서 있다.
Nagarajan-Kolter 2019 — 구조적 실패
그러나 훈련 중 의 실제 거동을 보면 문제가 드러난다. ResNet CIFAR-10에서 훈련이 진행될수록 이 값은 에서 으로 단조 증가한다. 그러나 test accuracy는 함께 개선된다. Bound와 실제 일반화가 반대 방향으로 움직인다.
이것은 우연이 아니다. Cross-entropy loss는 confidence를 높이기 위해 weight magnitude를 키우는 방향으로 작용한다. norm 증가는 자연스러운 훈련 현상이고, norm 기반 bound는 이를 capacity 증가로 잘못 해석한다.
Nagarajan & Kolter 2019는 이 관찰을 구조적 불가능성 정리로 격상시킨다.
어떤 분포 , 2-layer ReLU 클래스 , SGD 알고리즘 가 존재하여: 가 생성한 의 실제 generalization gap 이지만, -의존적인 어떤 uniform convergence bound 도 을 만족한다.
반례의 핵심은 고차원 구 위의 분포다. SGD가 훈련 샘플 위에서 정확히 학습하더라도, 반전 샘플 에서는 완전히 오분류한다. 고차원에서 와 는 거의 직교하므로 SGD가 “보지 않은” 방향이다. ReLU의 asymmetry로 가 되어 오분류가 발생한다.
uniform convergence는 ” 안의 어떤 가 어떤 샘플에서도 나쁠 수 있음”을 제한해야 하므로 vacuous한 bound를 피할 수 없다. SGD가 찾는 는 특정 샘플 방향으로 biased되어 있고, 이 미스매치는 해결 불가능하다.
정리
- Bartlett 2017의 spectral norm 곱과 distance from initialization은 norm-based refinement의 기초다. 모든 후속 연구가 이 구조를 반복한다.
- PAC-Bayes는 패러다임 전환을 이뤄 MNIST에서 non-vacuous bound를 최초로 달성했지만, 이는 natural weight가 아닌 특별히 최적화된 weight의 bound다.
- Path-norm과 compression은 각각 scale-invariance와 effective complexity라는 다른 렌즈를 제공한다.
- Nagarajan-Kolter 2019는 uniform convergence 자체의 구조적 실패를 증명한다. 이것이 NTK(exact analysis), double descent(distribution-specific), implicit bias(algorithm-dependent)로 방향을 전환해야 하는 논리적 이유다.
norm이 진공에 머무는 이유는 capacity measure가 틀려서가 아니라, uniform convergence라는 프레임이 SGD의 algorithm-specific trajectory를 담을 수 없기 때문이다.