AI 2026.04.28 · 12 min
Advanced Advanced Rl Deep Dive · 6
On-policy와 Off-policy — RL 알고리즘 선택의 실제 기준
Sample efficiency와 학습 안정성의 근본 긴장부터 분산 RL 아키텍처, Hybrid 알고리즘의 트레이드오프까지, 현대 RL 알고리즘 설계 철학을 추적한다.
총 1개의 글
Sample efficiency와 학습 안정성의 근본 긴장부터 분산 RL 아키텍처, Hybrid 알고리즘의 트레이드오프까지, 현대 RL 알고리즘 설계 철학을 추적한다.