IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

딥러닝 최적화의 숨은 기하학 — Sharpness에서 Fisher까지

Loss landscape의 sharpness가 2/η 경계에 자가 안정화되는 Edge-of-Stability부터 Fisher metric 위의 Natural Gradient까지, 딥러닝 최적화의 공통 원리를 추적한다.


1차 방법은 gradient만 본다. 2차 방법은 곡률까지 본다. 그런데 실전 딥러닝은 이 둘의 경계를 끊임없이 오간다 — 이론적으로 불안정해야 할 learning rate에서 수렴하고, 파라미터 공간의 기하를 무시해야 할 방식으로 업데이트하면서도 좋은 해에 도달한다. 왜 이런 일이 가능한가?

이론적 경계 너머에서 학습이 일어난다

고전적인 수렴 분석은 η2/L\eta \leq 2/L 조건을 요구한다. LL-smooth 함수에서 이 경계를 넘으면 descent lemma가 깨지고 발산이 예측된다.

하지만 Cohen et al. (2021)이 full-batch GD 실험에서 관찰한 것은 달랐다. Hessian의 최대 고유값, 즉 sharpness λmax(H)\lambda_{\max}(H)는 훈련 초반에 빠르게 증가하다가 정확히 2/η2/\eta 경계에 도달한 뒤 그 근방에서 진동한다. 그리고 loss는 여전히 감소한다.

λmax(H(xt))    2/ηwith f(xt) still decreasing\lambda_{\max}(H(x_t)) \;\longrightarrow\; 2/\eta \quad \text{with } f(x_t) \text{ still decreasing}

이것이 Edge-of-Stability 현상이다. 두 국면으로 나뉜다. Phase I에서는 λmax<2/η\lambda_{\max} < 2/\eta이고 loss가 빠르게 떨어진다. Phase II에서는 λmax2/η\lambda_{\max} \approx 2/\eta 근방에서 sharpness가 진동하지만 loss는 완만하게 계속 감소한다.

Self-stabilization 메커니즘

Loss를 빠르게 감소시키는 gradient step은 동시에 sharpness를 높인다. λmax\lambda_{\max}2/η2/\eta에 근접하면 최대 고유값 방향의 effective step이 자동으로 줄어들어 더 이상 sharpness가 오를 수 없다. 이 자동 제약이 self-stabilization이다.

이 관찰의 핵심 함의는 sharpness 증가는 loss 감소의 필연적 대가라는 것이다. 실전 딥러닝은 이 경계에서 최대 속도로 달리면서 동시에 안정성을 확보한다.

배치 크기에는 임계점이 있다

Edge-of-Stability는 full-batch GD에서 가장 명확하다. Mini-batch로 넘어오면 gradient noise가 개입한다. 이 noise의 크기를 정량화한 것이 **Gradient Noise Scale(GNS)**이다.

Mini-batch gradient의 분산은 다음과 같다.

Var[g^]=tr(Σ(x))B\text{Var}[\hat{g}] = \frac{\text{tr}(\Sigma(x))}{B}

여기서 Σ(x)\Sigma(x)는 개별 샘플 gradient의 공분산이다. Signal-to-noise ratio가 1이 되는 배치 크기를 critical batch size라 한다.

Bcrit=tr(Σ(x))f(x)2B_{\text{crit}} = \frac{\text{tr}(\Sigma(x))}{\|\nabla f(x)\|^2}

B<BcritB < B_{\text{crit}}이면 noise가 signal보다 작다. 이 영역에서는 ηB\eta \propto B 선형 스케일링이 성립한다 — 배치를 2배로 늘리면 learning rate도 2배 올릴 수 있다. B>BcritB > B_{\text{crit}}이면 배치를 더 늘려도 수익이 감소한다. Wall-clock time은 B\sqrt{B}에 비례해 늘어나지만 수렴 속도는 제자리다.

2차 정보를 쓰면 무엇이 달라지는가

Edge-of-Stability와 GNS는 모두 loss landscape의 곡률, 즉 Hessian 정보와 관련된다. Newton method는 이 정보를 직접 활용한다.

xt+1=xtH(xt)1f(xt)x_{t+1} = x_t - H(x_t)^{-1} \nabla f(x_t)

Quadratic 함수에서는 한 번의 step으로 optimum에 도달한다. Condition number에 대한 의존성이 사라진다. 하지만 ResNet-50(26M 파라미터)의 full Hessian은 약 2.7 페타바이트의 메모리를 요구한다. 현실에서는 불가능하다.

명제 1 · K-FAC Kronecker Factorization

Layer \ell의 Fisher 정보행렬은 다음과 같이 근사된다.

F()A()G()F^{(\ell)} \approx A^{(\ell)} \otimes G^{(\ell)}

여기서 A()=E[a(1)(a(1))]A^{(\ell)} = \mathbb{E}[a^{(\ell-1)}(a^{(\ell-1)})^\top]은 activation의 outer product, G()=E[δ()(δ())]G^{(\ell)} = \mathbb{E}[\delta^{(\ell)}(\delta^{(\ell)})^\top]은 backprop error의 outer product다.

▷ 증명

Kronecker product의 역행렬 성질 (AB)1=A1B1(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}에 의해, 역행렬 계산이 두 개의 소행렬 inversion으로 분해된다. 메모리는 O(n12+n2)O(n_{\ell-1}^2 + n_\ell^2)로 줄어든다 — full Fisher의 O((n1n)2)O((n_{\ell-1} n_\ell)^2) 대비 수십만 배 압축이다. Kronecker 근사의 정당성은 서로 다른 위치의 activation이 대체로 독립적이라는 가정에서 나온다. Conv layer에서 이 가정이 특히 잘 성립한다.

파라미터 공간이 아닌 분포 공간에서의 최적화

K-FAC은 단순한 공학적 근사가 아니다. 그 배경에는 Natural Gradient라는 더 근본적인 아이디어가 있다.

일반 gradient descent는 Euclidean 거리 기준으로 내리막을 찾는다. 그러나 확률 모델에서 파라미터 공간의 Euclidean 거리는 분포 간 실제 차이를 반영하지 못한다. Fisher Information Matrix는 KL divergence의 local quadratic 근사다.

KL(pθpθ+dθ)12(dθ)F(θ)(dθ)\text{KL}(p_\theta \| p_{\theta + d\theta}) \approx \frac{1}{2} (d\theta)^\top F(\theta) (d\theta)

이 metric 하에서 최속하강 방향이 Natural Gradient다.

θt+1=θtηF(θt)1L(θt)\theta_{t+1} = \theta_t - \eta F(\theta_t)^{-1} \nabla L(\theta_t)

두 가지 결정적인 성질이 있다. 첫째, reparameterization invariance — 파라미터를 θϕ=g(θ)\theta \to \phi = g(\theta)로 재정의해도 기하학적 방향이 변하지 않는다. Euclidean gradient는 재정의에 의존하지만 Natural Gradient는 분포 공간에서의 방향을 그대로 유지한다. 둘째, K-FAC은 이 Fisher를 Kronecker 구조로 근사하므로, K-FAC은 실용적인 Natural Gradient 구현이다.

트레이드오프

Natural Gradient는 KL 공간에서의 최속하강이라는 이론적 우아함을 제공하지만, Fisher가 rank-deficient이거나 비모수 손실(robust loss, margin loss 등)에서는 정당성이 약해진다. Damping term λI\lambda I 도입이 필수적이고, 이는 추가 하이퍼파라미터를 만든다.

정리

네 개의 챕터를 관통하는 하나의 원리가 있다 — loss landscape의 곡률을 얼마나, 어떤 방식으로 활용하는가.

  • Edge-of-Stability: GD는 λmax=2/η\lambda_{\max} = 2/\eta 경계에서 sharpness를 자동으로 제어하며 최대 속도로 학습한다.
  • Gradient Noise Scale: 배치 크기 BcritB_{\text{crit}}를 기준으로 선형 스케일링이 유효한 영역과 수익 감소 영역이 나뉜다.
  • K-FAC: Kronecker 구조로 Fisher를 근사해 Newton의 수렴 속도를 O(p)O(p) 메모리로 달성한다.
  • Natural Gradient: Euclidean이 아닌 정보 기하의 metric에서 최적화하면 reparameterization에 불변이 된다.

Adam이 여전히 실전의 기본값인 이유는 이 모든 것을 모르고 써도 어느 정도 작동하기 때문이다. 하지만 학습이 불안정할 때, 배치 크기 스케일링이 기대한 대로 되지 않을 때, 더 빠른 수렴이 필요할 때 — 이 기하학이 진단과 처방의 언어가 된다.

REF
Amari · 1998 · A Natural Policy Gradient · Neural Computation