연구진은 LLM 시뮬레이션으로 평가하는 감정적 지원 대화 시스템(ESDS)이 실제 어려운 사용자의 상호작용을 제대로 반영하지 못한다는 문제점을 지적했어요.
전문 상담사 8명을 통해 어려운 사용자를 시뮬레이션하고 기존 중국 ESDS를 평가하며, 시스템의 한계를 파악하고 최악의 시나리오 평가 프레임워크를 제안했어요.
17개 시스템을 평가한 결과, 대부분의 모델이 최악의 상호작용 상황에서 성능이 크게 저하되었으며, LLM 기반 모델이 특화된 ESDS보다 더 안정적인 경향을 보였어요.