Pulse · AI 뉴스

기업 AI 문서 처리 파이프라인 벤치마킹: 통합 평가 프레임워크

OpenAI · 2026-04-29

연구팀은 기업 문서 AI 파이프라인의 전체 시스템 평가를 위한 EnterpriseDocBench를 구축했어요. 파싱 정확도, 인덱싱 효율성, 검색 관련성, 생성의 사실 기반 답변 등 다양한 지표를 하나의 코퍼스에서 평가합니다.

실험 결과, 하이브리드 검색이 BM25보다 약간 더 좋은 성능을 보였고, 두 방식 모두 밀집 임베딩보다 우수했으며, 문서 길이에 따라 환각 현상이 증가하는 경향을 보이지 않았어요.

제안된 프레임워크, 지표, 기준선, 데이터 수집 스크립트는 오픈 소스로 공개될 예정이며, 답변의 사실 정확도는 85.5%이지만 답변의 완전성은 평균 0.40에 불과했어요.

##벤치마크##기업AI##문서처리##GPT-5##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기