#sac · IQ Lab

AI 2026.04.28 · 11 min Advanced Advanced Rl Deep Dive · 4

엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.