연구팀은 기업 문서 AI 파이프라인의 전체 시스템 평가를 위한 EnterpriseDocBench를 구축했어요. 파싱 정확도, 인덱싱 효율성, 검색 관련성, 생성의 사실 기반 답변 등 다양한 지표를 하나의 코퍼스에서 평가합니다.
실험 결과, 하이브리드 검색이 BM25보다 약간 더 좋은 성능을 보였고, 두 방식 모두 밀집 임베딩보다 우수했으며, 문서 길이에 따라 환각 현상이 증가하는 경향을 보이지 않았어요.
제안된 프레임워크, 지표, 기준선, 데이터 수집 스크립트는 오픈 소스로 공개될 예정이며, 답변의 사실 정확도는 85.5%이지만 답변의 완전성은 평균 0.40에 불과했어요.