series · regularization-theory-deep-dive

📚 Regularization Theory Deep Dive

총 7편 · 순서대로 읽기를 권장

AI 2026.04.28 · 11 min Advanced Regularization Theory Deep Dive · 1

Regularization은 Prior다 — L1/L2부터 Group Sparsity까지

L2가 Gaussian prior의 negative log이고 L1이 Laplace prior인 이유부터, 기하학적 sparsity와 SVD shrinkage, 그리고 Elastic Net/Group Lasso의 구조적 확장까지 하나의 Bayesian 프레임으로 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 2

Dropout은 왜 세 가지 얼굴을 가지는가

앙상블 근사, Variational Inference, Adaptive L2라는 세 해석이 하나의 알고리즘에서 어떻게 공존하는지, 그리고 변종들이 그 철학을 어떻게 확장하는지 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 3

Normalization은 어떻게 깊은 네트워크를 훈련 가능하게 만드는가

BatchNorm의 ICS 신화 반박부터 RMSNorm이 현대 LLM의 표준이 되기까지, 정규화 기법의 설계 철학과 진화를 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 4

Data Augmentation은 왜 효과적인가

ERM의 Dirac delta 근사부터 Contrastive Learning의 augmentation-defined semantics까지, 현대 정규화 기법의 통일된 수학적 기반을 추적한다.

AI 2026.04.28 · 13 min Advanced Regularization Theory Deep Dive · 5

모델은 왜 자신을 과신하는가 — Calibration의 수학

Over-confidence의 수학적 원인부터 Label Smoothing, Knowledge Distillation, Confidence Penalty, Temperature Scaling까지, 훈련 목적함수가 만들어내는 calibration 왜곡과 그 교정을 추적한다.

AI 2026.04.28 · 11 min Advanced Regularization Theory Deep Dive · 6

훈련이 곧 정규화다 — Implicit Regularization의 세 얼굴

Early stopping이 L2 regularization과 동치인 이유부터 SGD의 max-margin 편향, 과매개변수화 모델의 최소-노름 해까지, 암묵적 정규화의 통합 구조를 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 7

Regularization의 4축 — 33개 기법을 하나의 틀로

SWA의 iterate 평균부터 SAM의 worst-case minimax, AdamW의 decoupled weight decay까지, 현대 regularization 기법들이 Prior·Ensemble·Landscape·Invariance 4축 위에서 어떻게 통합되는지 추적한다.