Anthropic이 실제 기업 데이터를 모방한 50만 건 문서 코퍼스를 구축하여 RAG 시스템 성능을 평가하는 벤치마크 'EnterpriseRAG-Bench'를 발표했습니다.
이 벤치마크는 슬랙, 이메일, 티켓, 미팅 기록 등 기업 내부 데이터에 대한 RAG 시스템의 성능을 측정하는 데 중점을 둡니다.
벤치마크는 회사 개요, 직원 디렉토리, 프로젝트 문서 등 다양한 요소를 포함하며, BM25가 벡터 검색보다 뛰어난 성능을 보였고, 에이전트 기반 검색은 완전성 측면에서 강점을 나타냈습니다.
GitHub 저장소를 통해 데이터셋, 생성 프레임워크, 평가 도구 및 리더보드를 공개했으며, RAG/검색 시스템 구축 관련 피드백을 환영합니다.