연구진은 장기적인 LLM 에이전트 학습을 위한 밀집 지도 신호 평가 벤치마크인 QVal을 공개했어요. QVal은 학습 없이 상태-행동 쌍의 Q-정렬도를 측정하여 지도 신호 품질을 직접 평가하며, 기존 방식의 문제점을 해결해요. 4개 환경, 7개 방법론 패밀리, 6개 오픈 웨이트 모델 백본에서 21개 밀집 지도 방법을 벤치마킹한 결과, 간단한 프롬프트가 기존 방법보다 우수한 성능을 보였어요.