본 논문은 할인된 마르코프 결정 과정 제어에서 디플레이트 Q-값 반복(Q-VI)을 분석하기 위한 공동 스펙트럼 반지름(JSR) 프레임워크를 개발합니다.
표준 Q-VI의 스위칭 시스템 모델은 모든 허용 가능한 하위 시스템이 모든-일 벡터를 불변 방향으로 공유하기 때문에 JSR이 할인 인자 γ(0,1)와 정확히 같다는 것을 밝힙니다.
디플레이션의 이점은 유도된 의사 결정 문제를 변경하는 것이 아니라 불필요한 모든-일 구성 요소가 제거된 후 수렴 기하학을 보다 정확하게 설명하는 것입니다.