AI 2026.04.28 · 11 min
Advanced Generalization Theory Deep Dive · 4
Double Descent는 왜 일어나는가
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.
총 2개의 글
고전 bias-variance U-shape이 설명하지 못하는 interpolation threshold부터 Marchenko-Pastur 분포로 유도되는 variance 발산, 그리고 regularization이 peak를 완화하는 정확한 수학적 이유까지.
Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.