AI 2026.04.28 · 10 min
Advanced Advanced Rl Deep Dive · 1
TRPO·PPO의 이론적 뿌리 — Performance Difference Lemma
두 정책의 성능 차이를 advantage로 분해하는 PDL부터 surrogate objective, trust region bound, monotonic improvement 보장까지, advanced RL의 단일 이론 체계를 추적한다.