연구진이 RAG 시스템의 환각 감지를 위해 코드, 도구 출력, 마크다운 문서 등 다양한 구조화된 입력을 포함하는 통합 벤치마크를 구축했어요.
Qwen3.5-2B 모델은 통합 테스트 세트에서 0.689 스팬-F1을 달성하며 LettuceDetect-large (0.17) 및 다른 LLM 평가 모델들을 압도했어요.
이 모델은 기존 자연어 벤치마크에서도 경쟁력을 유지하며 RAGTruth에서 81.8 example-F1, PsiloQA에서 0.724 IoU를 기록했어요.