연구진이 에이전트 평가를 위한 새로운 툴킷 VISTA를 공개했어요. 기존 평가 방식의 한계를 극복하고, 보다 현실적인 사용자 시뮬레이션을 제공하는 데 목표를 두고 있어요.
VISTA는 시뮬레이션의 품질과 상호작용 효과를 측정하는 6가지 지표를 포함하고 있으며, UI와 API 기반 상호작용을 통합하여 실제 사용자 행동을 더 잘 반영해요.
전자상거래 쇼핑과 교육 고객 서비스 환경에서 VISTA를 평가한 결과, 기존 방법보다 더 현실적이고 포괄적인 평가를 수행할 수 있음을 확인했어요.