tag

#generalization

총 10개의 글

AI 2026.04.28 · 13 min Advanced Generalization Theory Deep Dive · 1

고전 일반화 이론은 왜 딥러닝 앞에서 무너지는가

ResNet50의 VC 차원이 10의 10제곱에 달하는 이유부터 uniform convergence의 구조적 실패, implicit regularization, 그리고 4가지 일반화 퍼즐까지 — 고전 이론이 어디서 깨지는지 추적한다.

AI 2026.04.28 · 12 min Advanced Statistical Learning Theory Deep Dive · 1

학습이란 무엇인가 — 통계적 학습 이론의 기초 언어

진짜 위험과 경험 위험의 차이부터 No Free Lunch 정리와 iid 가정이 깨지는 경우까지, 통계적 학습 이론의 핵심 정식화를 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 3

무한폭 신경망은 왜 커널 회귀로 환원되는가

Neural Tangent Kernel의 정의부터 NNGP, RKHS, Lazy vs Feature Learning까지 — 무한폭 극한이 딥러닝 훈련을 결정론적 선형 ODE로 환원하는 이유를 추적한다.

AI 2026.04.28 · 10 min Advanced Statistical Learning Theory Deep Dive · 3

PAC Learning이란 무엇인가 — 학습 가능성의 수학적 정의

Valiant의 PAC learnability 정의부터 Fundamental Theorem까지, '얼마나 많은 데이터가 있으면 학습이 보장되는가'를 추적한다.

AI 2026.04.28 · 11 min Advanced Generalization Theory Deep Dive · 4

Double Descent는 왜 일어나는가

고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.

AI 2026.04.28 · 13 min Advanced Statistical Learning Theory Deep Dive · 4

VC 차원은 왜 신경망을 설명하지 못하는가

Shattering과 VC 차원의 정의부터 Sauer-Shelah Lemma를 거친 VC 경계 유도, 그리고 현대 딥러닝에서 이 경계가 왜 완전히 무너지는지까지 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 5

Grokking은 왜 일어나는가 — 지연 일반화의 수학

훈련 손실이 0이 된 이후에도 수만 스텝 뒤에 테스트 정확도가 갑자기 100%로 뛰는 grokking 현상의 메커니즘부터, SGD implicit bias와 simplicity bias의 양날 구조까지 추적한다.

AI 2026.04.28 · 11 min Advanced Statistical Learning Theory Deep Dive · 5

Rademacher 복잡도는 왜 VC보다 강한가

랜덤 라벨 상관성으로 함수족의 표현력을 측정하는 Rademacher 복잡도의 정의부터, Symmetrization-McDiarmid 기반 일반화 경계, Contraction Lemma를 통한 surrogate loss 정당화, 그리고 신경망 norm-based bound까지 추적한다.

AI 2026.04.28 · 12 min Advanced Generalization Theory Deep Dive · 6

복권 티켓은 처음부터 결정되어 있었는가

LTH의 IMP 프로토콜부터 Stable Ticket의 early rewinding, Liu 2019 반론, Strong LTH의 constructive proof까지 — 희소 서브네트워크가 일반화를 설명하는 방식을 추적한다.

AI 2026.04.28 · 11 min Advanced Statistical Learning Theory Deep Dive · 6

SGD는 왜 일반화하는가 — Stability 이론의 답

가설공간 복잡도 대신 알고리즘의 robustness를 측정하는 Uniform Stability 프레임워크에서, Ridge Regression의 O(1/λn)과 SGD의 O(ηT/n) 경계까지 추적한다.