tag

#ppo

총 2개의 글

AI 2026.04.28 · 10 min Advanced Advanced Rl Deep Dive · 1

두 정책의 성능 차이를 advantage로 분해하는 PDL부터 surrogate objective, trust region bound, monotonic improvement 보장까지, advanced RL의 단일 이론 체계를 추적한다.

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 3

2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.