본 연구는 대화형 AI 치료사의 응답 품질을 평가하는 새로운 방법을 제시하며, 특히 기존 LLM 평가 방식의 한계를 지적합니다.
연구진은 동적 감정 시그니처 그래프(DESG)를 제안하여 대화 내용을 임상 상태와 비대칭적 임상 기하학으로 분석하고, 기존 방법보다 높은 정확도를 달성했습니다.
DESG는 EmpatheticDialogues, ESConv, CRADLE-Dialogue 데이터셋을 활용한 평가에서 0.9353의 macro-F1 점수를 기록하며, 기존 모델들을 압도했습니다.