연구진은 기존 벤치마크의 한계를 극복하기 위해 EvoBrowseComp라는 새로운 벤치마크를 발표했어요. EvoBrowseComp는 정적 지식이 아닌 실시간 웹 탐색을 통해 생성된 800개의 영어 및 중국어 복합 질문으로 구성돼요.
QA 합성 에이전트, 정보 필터링 에이전트, 가이드 에이전트의 협업 프레임워크를 통해 데이터 오염을 방지하고 질문의 논리적 중복과 지름길을 줄여요.
EvoBrowseComp는 자동 업데이트를 지원하여 변화하는 세계 지식과 발전하는 에이전트 역량에 발맞춰 지속적으로 난이도를 유지하며, 광범위한 수평 검색 능력을 요구해요.