관광 추천 대화형 시스템(CRS)의 신뢰성 평가를 위한 새로운 데이터셋 TRACE가 공개됐습니다. TRACE는 10,000개의 대화 로그를 포함하며, 2,400개의 Yelp POI와 34,208개의 리뷰를 활용했습니다.
TRACE는 추천 POI의 적합성, 검증 가능한 증거 제시, 대화 중 추천 거절 회복 능력을 평가하는 25가지 지표를 포함합니다.
LLM Zero-Shot은 추천 회피 능력에서 강점을 보이지만, 검색 시스템보다 증거 인용 밀도가 낮고, Multi-Review Synthesis는 회복 능력에 실패하는 등 Three-Competency Gap이 확인됐습니다.