연구진은 연속 제어 문제를 해결하기 위해 Soft DDPG 알고리즘을 제안했습니다. 이 알고리즘은 가우시안 스무딩을 활용하여 벨만 방정식을 정의하고, 기존 DDPG의 문제점인 critic의 미분 가능성 의존성을 해결합니다.
Soft DDPG는 critic의 action-gradient에 대한 명시적인 의존성을 없애고, 불연속적인 Q-함수에서도 gradient를 명확하게 정의할 수 있도록 합니다.
표준 연속 제어 벤치마크와 불연속 보상 환경에서 실험 결과, Soft DDPG는 기존 DDPG보다 안정적인 학습 성능을 보였습니다.