연구진은 검색 증강 LLM의 인용 품질이 사용자 오도 여부를 결정하지만, 기존 벤치마크는 개별적인 측면만 평가한다는 문제점을 지적했어요.
CITETRACE 데이터셋을 구축하여 사용자 쿼리부터 검색된 자료, 생성된 답변까지의 전체 인용 체인을 추적하고, 10개 모델의 761,495개 인용 쌍을 평가했어요.
연구 결과, 모델들은 실제 자료를 인용하지만, 의도-목적 일치성, 자료 적합성, 답변-자료 충실성 측면에서 실패하는 '검증되지 않은 오도(Verified Misguidance)' 패턴을 보였어요.
전체 인용문의 30.6%가 자료를 왜곡하고, 27.1%가 부적절한 분야의 자료에서 비롯되었으며, 응답 수준에서 최대 96%의 사용자가 구조적으로 오해를 불러일으키는 인용문을 접했어요.