고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가
ResNet50의 VC 차원이 10의 10제곱에 달하는 이유부터 uniform convergence의 구조적 실패, implicit regularization, 그리고 4가지 일반화 퍼즐까지 — 고전 이론이 어디서 깨지는지 추적한다.
총 7편 · 순서대로 읽기를 권장
ResNet50의 VC 차원이 10의 10제곱에 달하는 이유부터 uniform convergence의 구조적 실패, implicit regularization, 그리고 4가지 일반화 퍼즐까지 — 고전 이론이 어디서 깨지는지 추적한다.
Bartlett의 spectral norm 곱부터 PAC-Bayes의 KL capacity, compression의 effective bits, Nagarajan-Kolter의 구조적 반례까지 — norm-based 이론이 어디서 한계에 부딪히는지 추적한다.
Neural Tangent Kernel의 정의부터 NNGP, RKHS, Lazy vs Feature Learning까지 — 무한폭 극한이 딥러닝 훈련을 결정론적 선형 ODE로 환원하는 이유를 추적한다.
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.
훈련 손실이 0이 된 이후에도 수만 스텝 뒤에 테스트 정확도가 갑자기 100%로 뛰는 grokking 현상의 메커니즘부터, SGD implicit bias와 simplicity bias의 양날 구조까지 추적한다.
LTH의 IMP 프로토콜부터 Stable Ticket의 early rewinding, Liu 2019 반론, Strong LTH의 constructive proof까지 — 희소 서브네트워크가 일반화를 설명하는 방식을 추적한다.
Chinchilla compute-optimal ratio의 수학적 유도부터 Broken Scaling Law, Emergent Abilities 논쟁, ICL의 implicit gradient descent 이론까지, LLM 스케일링의 예측 가능성을 추적한다.