AI 2026.04.28 · 13 min
Advanced Calculus Optimization Deep Dive · 1
딥러닝의 수학은 왜 극한에서 시작하는가
ε-δ 언어부터 Subgradient까지, 경사하강법·역전파·ReLU가 작동하는 이유를 하나의 수렴 철학으로 추적한다.
총 7편 · 순서대로 읽기를 권장
ε-δ 언어부터 Subgradient까지, 경사하강법·역전파·ReLU가 작동하는 이유를 하나의 수렴 철학으로 추적한다.
편미분이 존재해도 전미분이 없을 수 있다는 사실부터, 야코비안-헤시안-연쇄법칙이 하나의 선형근사 철학으로 통일되는 구조까지, 딥러닝 최적화의 수학적 뼈대를 추적한다.
다변수 테일러 전개의 2차 항부터 조건수와 수렴 속도의 관계까지, 경사하강법과 뉴턴 방법의 이론적 기반을 추적한다.
볼록 L-smooth 함수의 O(1/k) 수렴부터 Adam의 bias correction까지, 학습률·모멘텀·적응형 옵티마이저를 하나의 분산 제어 프레임으로 추적한다.
계산 그래프와 자동미분의 수학적 구조부터 기울기 소실·폭발의 원인과 해결책, Autograd 엔진의 내부 동작까지 딥러닝 최적화의 핵심을 추적한다.
라그랑주 승수법부터 KKT 조건, 라그랑지안 쌍대성, 엔벨로프 정리, RLHF까지 — 제약 최적화의 수학적 구조가 AI 알고리즘 설계를 어떻게 결정하는지 추적한다.
Softmax 야코비안의 행렬 구조부터 DEQ의 고정점 역전파, MAML의 2차 미분까지 — 딥러닝 최적화를 관통하는 하나의 언어를 추적한다.