AI 2026.04.28 · 11 min
Advanced Advanced Rl Deep Dive · 3
PPO는 왜 TRPO를 대체했는가
2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.
총 1개의 글
2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.