Softmax 야코비안을 유도하고, BatchNorm 역전파를 계산하고, MAML 메타 그래디언트를 추적하다 보면 같은 패턴이 반복된다. “어디서 어디로 미분이 흐르는가” — 이 시리즈의 챕터들은 각자 다른 주제처럼 보이지만, 하나의 공통 언어로 수렴한다. 그 언어란 무엇인가?
야코비안: 미분이 흐르는 방향
Softmax는 벡터를 벡터로 보내는 함수다. 역전파를 계산하려면 스칼라 미분이 아니라 야코비안 행렬이 필요하다.
세 항이 나타나는 이유는 기울기가 세 경로 — 직접 경로, 평균을 통한 경로, 분산을 통한 경로 — 를 따라 흐르기 때문이다.
✎ 트레이드오프: BN vs LN
BatchNorm은 배치 통계를 이용해 헤시안 조건수를 개선하고 수렴을 빠르게 한다. 대신 배치 크기에 의존하며 추론 시 running statistics가 필요하다. LayerNorm은 샘플 독립적이라 배치 크기 1에서도 동작하며 Transformer의 표준이 됐다. RMSNorm은 평균 제거를 생략해 계산 효율을 더 높인다 — LLaMA, PaLM 계열이 선택한 이유다.
NTK: 그래디언트 내적이 만드는 커널
Neural Tangent Kernel은 파라미터 공간의 그래디언트 내적을 함수 공간의 커널로 해석한다:
Θ(x,x′)=∇θf(x,θ)⊤∇θf(x′,θ)
NTK가 훈련 중 거의 상수라면(무한 폭 극한), 예측의 동역학은 선형 ODE로 단순화된다:
dtd(ft−y)=−Θ(ft−y)
Θ가 양정부호이면 해는 ∥ft−y∥≤∥f0−y∥e−λmint 로 지수 수렴한다. 신경망이 왜 수렴하는지에 대한 수학적 설명이다.
MAML: 헤시안이 등장하는 이유
Meta-learning의 수학적 구조는 “업데이트된 파라미터를 다시 미분”하는 데 있다. MAML의 inner update:
ϕi=θ−α∇θLisup(θ)
를 θ에 대해 미분하면:
∂θ∂ϕi=I−α∇θ2Lisup=I−αHi
이것이 meta-gradient에 헤시안이 나타나는 이유다:
∇θLmeta=i∑(I−αHi)⊤∇ϕiLiquery
n×n 헤시안을 명시적으로 저장하면 O(n2) 메모리가 필요하다. Pearlmutter의 HVP 트릭은 이를 O(n)으로 줄인다:
Hv=∇θ(∇θL⋅v)
역전파를 두 번 수행하면 헤시안 전체 없이 헤시안-벡터 곱을 계산할 수 있다. FOMAML은 이 헤시안 항을 아예 무시하는 근사로, 계산 효율은 높지만 2차 정보를 잃는다.
암묵적 미분: 고정점에서의 기울기
가장 우아한 아이디어는 마지막에 등장한다. 최적화 문제의 해 x∗(θ)가 F(x∗,θ)=0을 만족한다면, 전개하지 않고도 기울기를 얻을 수 있다:
∂θ∂x∗=−[∂x∗∂F]−1∂θ∂F
Deep Equilibrium Model은 이 아이디어를 신경망에 적용한다. 고정점 z∗=fθ(z∗,x)에서 역전파는 선형계를 푸는 것과 같다:
(I−Jf)⊤u=v
이 선형계를 Conjugate Gradient로 풀면 중간 활성화를 하나도 저장하지 않아도 된다. 깊이 L의 표준 네트워크가 O(L⋅d) 메모리를 쓸 때, DEQ는 O(d)만 쓴다. Neural ODE의 adjoint method도 같은 원리다 — ODE를 역방향으로 다시 풀면서 기울기를 얻고, 순전파의 활성화를 저장하지 않는다.
✎ 트레이드오프: 메모리 절약의 비용
암묵적 미분 기반 모델들은 메모리를 절약하는 대신 재계산 비용을 치른다. DEQ는 CG 반복이 필요하고, Neural ODE는 역방향 ODE를 다시 적분한다. 계산량이 늘어나는 것을 감수하고 메모리 병목을 제거하는 트레이드오프다.
정리
이 시리즈의 다섯 챕터는 표면적으로는 다른 주제다 — Softmax, 정규화, NTK, 메타 학습, 암묵적 미분. 하지만 모두 같은 질문을 다른 방식으로 묻고 있다: “이 변환의 기울기는 어디서 어디로 흐르는가?”
Softmax 야코비안 diag(σ)−σσ⊤: 벡터 함수의 기울기 구조
BatchNorm 역전파의 세 항: 배치 의존성이 만드는 기울기 경로
NTK Θ=∇f⊤∇f: 파라미터 공간 기울기를 커널로 재해석
MAML HVP Hv=∇(∇L⋅v): 2차 미분을 O(n)으로 계산
DEQ 선형계 (I−Jf)⊤u=v: 고정점에서 메모리 없이 역전파
미분 계산을 이해한다는 것은 수식 암기가 아니라, 기울기가 흐르는 경로의 구조를 보는 것이다.