연구진은 에이전트 시스템의 오프라인 평가 시 경로를 최종 성공 여부로만 판단하는 방식의 한계를 지적했어요. 이로 인해 통계적 비효율성이 발생하고 시스템 간 구분이 어려워져 데이터 활용도가 떨어진다는 문제점을 제기했어요. 연구진은 경로를 직접 비교하며 진행 상황과 복귀 시간 프로필에 대한 선호도를 반영하는 경로 기반 선호도 평가 방법을 제안했어요.
다양한 에이전트 및 인터랙티브 벤치마크에서 기존 성공 기반 측정 방식은 75%의 경우 동점 결과를 초래했지만, 경로 정보를 고려한 선호도 평가는 동점 비율을 35%로 줄여 시스템 구별 능력을 향상시켰어요. 또한 순위 안정성과 데이터 효율성도 개선됐어요.
연구 결과, 벤치마크 포화 현상은 데이터 수집 문제나 문제 난이도 외에도 평가 방법 선택에 기인할 수 있음을 시사해요.