AI 2026.04.28 · 12 min
Advanced Advanced Rl Deep Dive · 5
TD3는 왜 DDPG보다 안정적인가
Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.
총 1개의 글
Q-function 과대추정부터 학습 발산까지, DDPG의 세 가지 불안정성 원인과 TD3의 세 가지 수정이 어떻게 vicious cycle을 끊는지 추적한다.