tag

#optimization

총 12개의 글

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 1

딥러닝의 수학은 왜 극한에서 시작하는가

ε-δ 언어부터 Subgradient까지, 경사하강법·역전파·ReLU가 작동하는 이유를 하나의 수렴 철학으로 추적한다.

AI 2026.04.28 · 14 min Advanced Functional Analysis Deep Dive · 1

무한차원은 왜 다른가 — 함수해석학이 AI에 던지는 질문

거리공간의 완비성부터 Riesz 보조정리까지, 유한차원의 직관이 무한차원에서 무너지는 지점과 그 귀결로서의 정규화를 추적한다.

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 2

미분가능성의 계층 — 편미분에서 역전파까지

편미분이 존재해도 전미분이 없을 수 있다는 사실부터, 야코비안-헤시안-연쇄법칙이 하나의 선형근사 철학으로 통일되는 구조까지, 딥러닝 최적화의 수학적 뼈대를 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 2

SGD는 왜 수렴하는가 — Robbins–Monro부터 Implicit Regularization까지

학습률 스케줄의 수학적 근거인 Robbins–Monro 조건부터 SGD noise가 flat minima를 선호하는 이유까지, 딥러닝 최적화의 이론적 토대를 추적한다.

AI 2026.04.28 · 13 min Advanced Kernel Methods Deep Dive · 3

SVM은 왜 내적만으로 비선형이 되는가

Margin 최대화의 기하학적 출발점부터 Lagrangian dual, Kernel Trick, Soft-margin, SMO까지 — SVM 전체 설계를 관통하는 하나의 원리를 추적한다.

AI 2026.04.28 · 10 min Advanced Calculus Optimization Deep Dive · 3

손실 함수의 기하학 — 헤시안이 최적화를 지배하는 방식

다변수 테일러 전개의 2차 항부터 조건수와 수렴 속도의 관계까지, 경사하강법과 뉴턴 방법의 이론적 기반을 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 4

Adam은 왜 수렴을 보장하지 못하는가

AdaGrad의 누적 분산에서 출발해 RMSProp의 이동평균, Adam의 편향 보정, 수렴 반례, 그리고 AMSGrad·AdamW·Lion까지 — adaptive optimizer 계보의 설계 결정을 추적한다.

AI 2026.04.28 · 13 min Advanced Calculus Optimization Deep Dive · 4

경사하강법의 수렴은 왜 그 속도인가

볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.

AI 2026.04.28 · 12 min Advanced Information Geometry Deep Dive · 5

Natural Gradient는 왜 좌표를 묻지 않는가

유클리드 gradient의 parameterization 의존성 문제부터 Fisher 계량 하의 steepest descent 유도, K-FAC·Shampoo의 실전 근사까지, Natural Gradient의 철학과 구조를 추적한다.

AI 2026.04.28 · 13 min Advanced Optimization Theory Deep Dive · 6

LR 스케줄링의 통일 원리 — 왜 하나의 철학으로 수렴하는가

고정 LR의 O(1/T) 보장부터 warmup의 curvature 안정화, cosine+warm restart의 local minimum 탐색, One-Cycle의 super-convergence까지, 현대 LR 스케줄링 전체를 관통하는 설계 원리를 추적한다.

AI 2026.04.28 · 12 min Advanced Optimization Theory Deep Dive · 7

딥러닝 최적화의 숨은 기하학 — Sharpness에서 Fisher까지

Loss landscape의 sharpness가 2/η 경계에 자가 안정화되는 Edge-of-Stability부터 Fisher metric 위의 Natural Gradient까지, 딥러닝 최적화의 공통 원리를 추적한다.

AI 2026.04.28 · 12 min Advanced Regularization Theory Deep Dive · 7

Regularization의 4축 — 33개 기법을 하나의 틀로

SWA의 iterate 평균부터 SAM의 worst-case minimax, AdamW의 decoupled weight decay까지, 현대 regularization 기법들이 Prior·Ensemble·Landscape·Invariance 4축 위에서 어떻게 통합되는지 추적한다.