벨만-테일러 점수 디코딩은 상태 의존적 실행 가능 행동을 갖는 마르코프 결정 프로세스(MDP)를 위한 새로운 프레임워크입니다. 이 프레임워크는 정책 학습을 유클리드 점수 공간으로 이동시키면서 행동 디코더를 통해 실행 가능성을 적용합니다.
유도된 잠재 점수 MDP는 디코더를 미분하지 않고 표준 DRL 알고리즘으로 최적화할 수 있습니다. 성능 보증을 통해 접근 방식의 최적성 격차는 구조적 근사 오차와 알고리즘 학습 오차로 분해됩니다.
연구진은 큐잉 네트워크 제어 문제에 이 프레임워크를 적용하여 상태 의존적 인덱스 기반 디스패칭 규칙을 학습했으며, 수치 실험에서 작은 인스턴스에서는 거의 최적의 성능을, 큰 시스템에서는 벤치마크 대비 상당한 개선을 보였습니다.