TRPO와 PPO는 서로 다른 알고리즘처럼 보이지만, 동일한 이론의 두 구현이다. 그 이론의 출발점은 단 하나의 등식 — Performance Difference Lemma (PDL) — 이다. PDL에서 surrogate objective가 나오고, surrogate에서 trust region bound가 나오고, trust region bound에서 monotonic improvement 보장이 나온다. 이 체계를 이해하지 않으면, “PPO가 왜 잘 되는가”라는 질문에 “실험적으로 그렇더라” 이상의 답을 하기 어렵다.
출발점: 두 정책의 성능 차이
임의의 두 정책 π,π′에 대해 다음 등식이 성립한다.
J(π′)−J(π)=1−γ1Es∼dπ′,a∼π′(⋅∣s)[Aπ(s,a)]
여기서 dπ′(s)=(1−γ)∑t=0∞γtPr(st=s∣π′,ρ0)는 새 정책의 discounted state distribution이고, Aπ(s,a)=Qπ(s,a)−Vπ(s)는 기존 정책의 advantage다.
증명의 핵심은 telescoping sum이다. 새 정책 π′의 trajectory 위에서 ∑t=0∞γt(γVπ(st+1)−Vπ(st))=−Vπ(s0)가 성립하고, 이를 J(π′)에 더하면 각 step의 Bellman 잔차가 advantage Aπ(st,at)로 정확히 떨어진다. tower property로 dπ′를 뽑아내면 등식이 완성된다.
PDL에서 곧바로 따르는 따름정리 하나가 policy iteration의 정당성을 설명한다: 모든 s에서 ∑aπ′(a∣s)Aπ(s,a)≥0이면 J(π′)≥J(π). greedy policy improvement가 이 조건을 충족하므로 매 iteration이 non-decreasing이다.
닭과 달걀 — dπ′의 문제
PDL의 우변에는 dπ′, 즉 최적화 대상인 새 정책의 state distribution이 등장한다. 이것이 핵심적 문제다. 새 정책으로 rollout 해보기 전까지 dπ′를 알 수 없다.
이 문제를 우회하는 방법은 dπ′→dπ로 치환하는 것이다. 이렇게 만든 대리 목적 함수를 surrogate objective라 한다.
현재 정책의 rollout 데이터만으로 평가 가능하다. importance ratio r=π′/π가 여기서 등장하고, 이것이 PPO의 rt(θ)다.
명제 1
· Surrogate의 1차 일치
매끄러운 parameterization πθ 하에서, θ=θold에서 ∇θJ와 ∇θLπθold는 같다.
▷ 증명
θ=θold에서 importance ratio r=1이므로 L의 gradient는 policy gradient theorem의 형태로 환원된다. 두 표현식은 ∇θlogπθ⋅Aπ의 기댓값으로 일치한다. □
∎
0차에서 Lπ(π)=J(π) (on-policy advantage의 기댓값이 0이므로), 1차에서 gradient가 같다. 2차부터는 다르다 — 이것이 trust region이 필요한 이유다.
Trust Region Bound
L과 J의 차이를 정량화하면 다음 부등식이 나온다 (Schulman 2015).
J(π′)≥Lπ(π′)−(1−γ)24ϵγDKLmax(π∥π′)
여기서 ϵ=maxs,a∣Aπ(s,a)∣이고, DKLmax=maxsDKL(π(⋅∣s)∥π′(⋅∣s))다.
증명은 세 도구의 조합이다. 먼저 두 정책의 state distribution 차이를 TV distance로 bound하고, advantage의 boundedness로 그 차이가 성능에 미치는 영향을 제한한다. 마지막으로 Pinsker inequality TV(p,q)≤DKL(p∥q)/2로 TV를 KL로 변환한다.
✎ 트레이드오프: max KL vs mean KL
이론은 max KL을 요구하지만 실전 코드는 모두 mean KL을 사용한다. max KL은 finite sample로 unbiased하게 추정할 수 없기 때문이다 (sup의 sample estimator는 biased). mean KL은 unbiased estimator가 있다. 실전 NN 정책에서 max/mean 비율은 대략 2–5배 — 큰 차이가 없으므로 mean을 쓰더라도 bound의 정신이 유지된다고 본다. 다만 이론적 monotonic improvement 보장은 약화된다.
상수 C=4ϵγ/(1−γ)2에서 (1−γ)2 분모가 중요하다. γ→1이면 C→∞다. long-horizon 문제에서 작은 KL도 누적 오차가 크기 때문에, trust region을 더 보수적으로 잡아야 한다.
Monotonic Improvement — MM Framework
PDL, surrogate, trust region bound를 묶으면 Minorization-Maximization (MM) 알고리즘이 된다.
세 부등식의 순서: (1) trust region bound, (2) πk+1이 M의 maximizer, (3) 0차 일치. J가 위로 bounded이므로 {J(πk)}는 단조 수렴한다.
TRPO는 이 framework의 직접적 구현이다 — maxθLθold(θ) subject to DˉKL≤δ. PPO는 KL 제약 대신 importance ratio clip으로 trust region을 암묵적으로 강제한다. 두 알고리즘 모두 동일한 이론 체계의 서로 다른 근사다.
정리
PDL은 두 정책의 성능 차이를 1−γ1Edπ′[Aπ]로 분해한다. dπ′가 unknown이라는 사실이 모든 후속 이론의 동기다.
Surrogate Lπ(π′)는 dπ′→dπ로 치환해 평가 가능하게 만든다. 현재 점에서 J와 0차·1차 일치, 2차부터 발산.