#natural-policy-gradient

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 2

단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.