Pulse · AI 뉴스

문서 기반 그라운딩을 넘어: 코드, 도구 출력, 구조화된 문서에 대한 스팬 단위 환각 감지

Qwen · 2026-07-01

연구진이 RAG 시스템의 환각 감지를 위해 코드, 도구 출력, 마크다운 문서 등 다양한 구조화된 입력을 포함하는 통합 벤치마크를 구축했어요.

Qwen3.5-2B 모델은 통합 테스트 세트에서 0.689 스팬-F1을 달성하며 LettuceDetect-large (0.17) 및 다른 LLM 평가 모델들을 압도했어요.

이 모델은 기존 자연어 벤치마크에서도 경쟁력을 유지하며 RAGTruth에서 81.8 example-F1, PsiloQA에서 0.724 IoU를 기록했어요.

##RAG##환각감지##Qwen##코드
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기