Data Augmentation은 왜 효과적인가

ERM의 Dirac delta 근사부터 Contrastive Learning의 augmentation-defined semantics까지, 현대 정규화 기법의 통일된 수학적 기반을 추적한다.

Random crop, flip, Mixup, CutMix, SimCLR — 이것들은 각기 다른 “트릭”처럼 보인다. 그러나 하나의 수식으로 전부 기술할 수 있다면? Chapelle et al. 2000의 **Vicinal Risk Minimization(VRM)**은 그 통일된 언어다. 왜 augmentation이 generalization을 개선하는가, 그리고 어떤 augmentation이 “좋은” augmentation인가?

ERM의 한계: 데이터를 점으로 보기

Empirical Risk Minimization(ERM)은 training set을 Dirac delta의 합으로 근사한다.

$\hat{P}_\delta = \frac{1}{n}\sum_i \delta_{(x_i, y_i)}$

이 empirical delta measure에서 최소화하는 손실은 training point에서만 잘 맞으면 그만이다. 모델은 이 점들을 외울 수 있고, 실제 분포 $P$ 의 나머지 공간에서는 어떻게 거동할지 보장이 없다.

VRM은 이 점들을 “퍼뜨린다”. 각 $(x_i, y_i)$ 주변에 vicinity distribution $\mathcal{D}_{x_i, y_i}$ 를 두고, 그 분포로부터 샘플을 뽑아 손실을 계산한다.

$\hat{L}_{\text{VRM}}(f) = \frac{1}{n}\sum_i \mathbb{E}_{(\tilde{x}, \tilde{y}) \sim \mathcal{D}_{x_i, y_i}}[\ell(f(\tilde{x}), \tilde{y})]$

$\mathcal{D}_{x_i, y_i} = \delta_{(x_i, y_i)}$ 이면 ERM과 동일하다. Augmentation은 vicinity를 어떻게 정의하는가의 선택이다.

Augmentation	Vicinity $\mathcal{D}_{x, y}$
No augment	$\delta_{(x, y)}$ (ERM)
Gaussian noise	$\mathcal{N}(x, \sigma^2 I) \otimes \delta_y$
Horizontal flip	$\frac{1}{2}\delta_{(x,y)} + \frac{1}{2}\delta_{(\text{flip}(x),y)}$
Mixup	$\mathbb{E}_{\lambda, j}[\delta_{(\lambda x_i + (1-\lambda)x_j,\, \lambda y_i + (1-\lambda)y_j)}]$

VRM의 generalization bound에는 vicinity가 진짜 분포 $P$ 에 얼마나 가까운가를 측정하는 항이 포함된다. 좋은 augmentation 선택이 bound를 직접 조인다.

Invariance 주입: Group Theory로 보는 Augmentation

왜 rotation augmentation이 vision에서 효과적인가? 자연 이미지의 semantic은 회전에 대해 불변(invariant)하기 때문이다. 고양이는 뒤집어도 고양이다.

Group $G$ 가 입력 공간에 act할 때, vicinity를 group orbit으로 정의하면

$\mathcal{D}_{x} = \text{Uniform}_{\{g \cdot x : g \in G\}}$

이 vicinity로 VRM 손실을 최소화하면 $f$ 가 $G$ -invariant feature를 학습하도록 유도된다.

정리 1 · Rademacher Complexity 감소 (Dao et al. 2019 기반)

$G$ -invariant function class $\mathcal{F}_G$ 의 Rademacher complexity는 full class $\mathcal{F}$ 에 대해 다음 bound를 만족한다.

$\mathcal{R}_n(\mathcal{F}_G) \leq \frac{1}{|G|} \mathcal{R}_n(\mathcal{F})$

▷ 증명

$G = \{e, g\}$ (이진 group, e.g. horizontal flip) 경우. 임의의 $f \in \mathcal{F}$ 에 대해 $f^+ = (f + f \circ g)/2$ 는 $G$ -invariant다. Group averaging이 function class를 invariant subspace로 project하므로 $\sup_{f \in \mathcal{F}_G}$ 는 $\sup_{f \in \mathcal{F}}$ 의 최대 $1/|G|$ 로 제한된다. $\square$

∎

Dao et al. 2019는 더 나아가 augmentation이 작은 perturbation일 때 first-order Taylor expansion으로 다음을 보인다: augmentation = ERM + Jacobian-norm penalty. 그룹 방향으로의 feature gradient를 명시적으로 억제하는 것이다.

✎ architectural invariance vs. augmentation

Group equivariant CNN처럼 invariance를 구조에 내장하면 exact invariance를 얻는다. 반면 augmentation은 approximate invariance를 훨씬 저렴하게 제공한다. 작은 데이터셋에서는 구조적 invariance가, 대규모 데이터에서는 augmentation이 실용적으로 우위다.

Mixup과 CutMix: “가상의 데이터 포인트”

Mixup(Zhang et al. 2018)은 어떤 group의 orbit도 아닌 vicinity를 정의한다.

$(\tilde{x}, \tilde{y}) = \lambda(x_i, y_i) + (1-\lambda)(x_j, y_j), \quad \lambda \sim \text{Beta}(\alpha, \alpha)$

라벨도 mix된다. 이 경우 모델이 수렴하면 다음이 근사적으로 성립한다.

$f^*(\lambda x_i + (1-\lambda) x_j) \approx \lambda f^*(x_i) + (1-\lambda) f^*(x_j)$

즉 decision boundary가 두 클러스터 사이에서 선형으로 변이한다. Sharp cliff 대신 gradual slope — adversarial perturbation에 대한 robustness가 증가하고, softmax의 과신(overconfidence)도 완화된다.

$\alpha = 0.2$ 가 ImageNet 표준인 이유: Beta(0.2, 0.2)는 U-shape으로 $\lambda$ 가 대부분 0이나 1에 가깝다. 대부분의 sample이 원본에 가까운 채로 가끔만 강하게 섞인다. 이는 VRM의 핵심 원칙 — vicinity가 진짜 분포 $P$ 에 가까워야 한다 — 을 지킨다. $\alpha \to \infty$ 이면 모든 sample이 50:50 mix가 되어 natural image 분포와 멀어지고 성능이 떨어진다.

CutMix(Yun et al. 2019)는 pixel-level blend 대신 patch 교환을 택한다.

$\tilde{x} = (1 - M) \odot x_i + M \odot x_j, \quad \tilde{y} = \lambda y_i + (1-\lambda) y_j$

각 pixel이 $x_i$ 또는 $x_j$ 의 원본 pixel을 유지하므로 Mixup보다 자연 분포에 가깝다. ImageNet ResNet-50 기준 top-1 accuracy: ERM 76.3% → Mixup 77.4% → CutMix 78.6%이며, object localization task에서의 우위가 특히 크다.

Contrastive Learning: Augmentation이 Semantics를 정의한다

VRM 프레임워크에서 가장 급진적인 전환이 여기서 일어난다. Supervised augmentation은 label이 이미 있고, augmentation이 invariance를 주입한다. Contrastive learning(SimCLR, Chen et al. 2020)에서는 augmentation이 semantic 자체를 정의한다.

같은 이미지에서 두 random augmentation $t_1, t_2 \sim \mathcal{T}$ 를 뽑아 positive pair를 만든다. InfoNCE loss는 이 pair의 representation을 가깝게, 다른 이미지의 representation을 멀게 밀어낸다.

$\mathcal{L}_{\text{NT-Xent}} = \frac{1}{2N}\sum_{i=1}^N [\ell_{2i-1, 2i} + \ell_{2i, 2i-1}], \quad \ell_{i,j} = -\log \frac{\exp(\text{sim}(z_i, z_j)/\tau)}{\sum_{k \neq i} \exp(\text{sim}(z_i, z_k)/\tau)}$

Poole et al. 2019는 이 loss가 mutual information의 lower bound를 최대화함을 보인다.

$I(X; Y) \geq \log N - \mathcal{L}_{\text{InfoNCE}}$

핵심 함의는 다음이다: $\mathcal{T}$ 에 color jitter를 포함하면 color-invariant feature가, blur를 포함하면 detail-invariant semantic-level feature가 학습된다. 어떤 invariance를 학습할지는 label이 아니라 augmentation set이 결정한다.

Chen 2020의 ablation은 이를 극명하게 보여준다. Random crop만으로는 ImageNet linear eval 25%, crop + color jitter에서 55%, 전체 SimCLR augmentation pipeline(crop, flip, color jitter, grayscale, Gaussian blur)에서 69%다. Augmentation의 조합 효과는 단순 합산이 아니다.

트레이드오프

⚠ Vicinity 설계의 실패 모드

VRM의 generalization bound 개선은 vicinity가 진짜 분포 $P$ 에 가까울 때만 작동한다. ImageNet에서 ±180° rotation은 자연 이미지의 upright bias와 맞지 않아 오히려 해롭다. Digit recognition에서 180° 회전은 6을 9로 바꾼다 — label-changing augmentation은 vicinity가 $P$ 에서 멀어지는 극단적 예다.

기법별 tradeoff를 정리하면 다음과 같다.

기법	강점	약점
Gaussian noise	단순, smooth boundary	비구조적, group 정보 없음
Group augmentation	task-informed invariance	group 정의 필요
Mixup	calibration 개선, smooth boundary	unnatural blending
CutMix	spatial coherence 보존	background patch → label mismatch
RandAugment $(N, M)$	AutoAugment 수준을 저렴하게	domain-specific pool 미지원
Contrastive (SimCLR)	label 없이 powerful representation	large batch 필요, augmentation 선택이 critical

RandAugment의 magnitude $M$ 은 모델 크기에 따라 조정이 필요하다. 큰 모델은 capacity가 높아 overfit 경향이 강하므로 더 큰 $M$ 이 필요하다. ResNet-50의 $M=9$ , EfficientNet-B7의 $M=15$ 가 그 예다.

정리

모든 data augmentation은 VRM의 vicinity $\mathcal{D}_{x,y}$ 선택으로 통일된다. ERM은 $\mathcal{D} = \delta$ 인 특수 경우다.
Augmentation의 generalization 효과는 이론적 보장이 있다: vicinity가 진짜 분포 $P$ 에 가까울수록 bound가 tighter해진다.
Group augmentation은 Rademacher complexity를 최대 $1/|G|$ 로 줄이고, first-order에서 Jacobian-norm penalty와 동치다.
Mixup/CutMix는 linear decision boundary와 soft label을 통해 calibration을 개선한다. $\alpha$ 의 선택은 vicinity가 $P$ 에서 얼마나 멀어지는가를 조절한다.
Contrastive learning에서 augmentation은 regularizer가 아니라 semantic의 정의 자체다. 무엇을 invariant하게 학습할