연구진은 Q-MMR이라는 새로운 이론적 프레임워크를 제시하며, 이는 유한 지평선 MDP에서 오프라인 정책 평가를 위한 방법입니다. Q-MMR은 데이터 포인트마다 스칼라 가중치를 학습하여 재가중된 보상이 대상 정책 하에서의 기대 수익을 근사하도록 합니다. 연구진은 $Q^π$ 의 실현 가능성만 있으면 일반적인 함수 근사에서 데이터 의존적 유한 샘플 보장을 설정할 수 있으며, 차원-무관 경계를 달성할 수 있다고 밝혔습니다.