AI 2026.04.28 · 11 min
Advanced Advanced Rl Deep Dive · 3
PPO는 왜 TRPO를 대체했는가
2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.
총 3개의 글
2차 최적화의 계산 비용 문제부터 Clipped Objective의 수학적 구조, RLHF 스케일까지 — PPO가 강화학습의 실질적 표준이 된 이유를 추적한다.
라그랑주 승수법부터 KKT 조건, 라그랑지안 쌍대성, 엔벨로프 정리, RLHF까지 — 제약 최적화의 수학적 구조가 AI 알고리즘 설계를 어떻게 결정하는지 추적한다.
OOD 문제를 pessimism으로 해결하는 CQL, BC 정규화를 쓰는 TD3+BC, 상상 롤아웃으로 샘플 효율을 높이는 Dreamer, 그리고 RLHF·DPO가 공유하는 하나의 원칙을 추적한다.