AI 2026.04.28 · 10 min
Advanced Advanced Rl Deep Dive · 2
TRPO는 왜 KL을 step size로 쓰는가
단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.
총 1개의 글
단조 개선 보장을 실전에서 구현하기 위한 TRPO의 constraint 형식화부터 Natural PG 환원, Conjugate Gradient, Line Search까지 — 하나의 철학이 네 단계로 펼쳐지는 과정을 추적한다.