연구진은 소프트맥스 정책 그래디언트의 코너 탈출 속도를 가속화하는 '델라이트풀 정책 그래디언트(DG)'를 제안했습니다.
DG는 정책 그래디언트 항을 어드밴티지와 액션 서프라이즈의 곱으로 게이팅하여 코너 트래핑 메커니즘을 제거하고, K-암드 밴딧에서 초기 확률 비율에 로그 함수적으로 비례하는 탈출 경계를 달성합니다.
MNIST 컨텍스추얼 밴딧 환경에서 DG는 표준 정책 그래디언트보다 빠른 복구를 보여주며, 공유 함수 근사 하에서의 이론적 한계를 시사합니다.