연구진은 LLM 평가 시 사용자의 의도 충실도를 정확히 파악하기 위해 새로운 프레임워크를 제안했어요. 3개 언어, 3개 도메인, 6개 LLM을 대상으로 2,880개 출력물을 분석한 결과, 구조적 회복과 의도 충실도 간의 차이가 발견됐어요. 연구 결과, LLM 평가 시 종합 점수 외에 차원별 의도 충실도 평가가 필요하다는 점을 강조했어요.