Direct Advantage Estimation (DAE)이 샘플 효율성을 높이는 것으로 나타났지만, 완전한 환경 관찰에 의존하는 한계가 있었어요. 부분 관찰 환경으로 확장하고, 고차원 관찰에 대한 계산 복잡성을 줄이기 위해 이산 잠재 동역학 모델을 도입했어요. Arcade Learning Environment에서 DAE가 함수 근사기 용량과 함께 효과적으로 확장되며 높은 샘플 효율성을 유지하는 것을 확인했어요.