#q-learning · IQ Lab

AI 2026.04.28 · 12 min Advanced Advanced Rl Deep Dive · 5

Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.