AI 2026.04.28 · 11 min
Advanced Advanced Rl Deep Dive · 4
SAC는 왜 동작하는가 — MaxEnt RL의 설계 철학
엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.
총 1개의 글
엔트로피 보너스가 왜 자연스러운 exploration인가. Soft Bellman의 수렴 보장부터 KL projection, twin critics, auto-α까지 SAC의 모든 설계 결정을 하나의 프레임으로 추적한다.