Pulse · AI 뉴스

델라이트풀 정책 그래디언트: 코너 탈출 가속화

Delightful Policy Gradient · 2026-05-12

연구진은 소프트맥스 정책 그래디언트의 코너 탈출 속도를 가속화하는 '델라이트풀 정책 그래디언트(DG)'를 제안했습니다.

DG는 정책 그래디언트 항을 어드밴티지와 액션 서프라이즈의 곱으로 게이팅하여 코너 트래핑 메커니즘을 제거하고, K-암드 밴딧에서 초기 확률 비율에 로그 함수적으로 비례하는 탈출 경계를 달성합니다.

MNIST 컨텍스추얼 밴딧 환경에서 DG는 표준 정책 그래디언트보다 빠른 복구를 보여주며, 공유 함수 근사 하에서의 이론적 한계를 시사합니다.

##정책그래디언트##강화학습##코너탈출##DG##MNIST

매일 핵심 AI 소식을 한국어로, 빠르게