연구진은 심층 연구 에이전트의 다국어 환경에서의 검색 능력을 평가하기 위해 Cross-Lingual BrowseComp-Plus (XBCP) 벤치마크를 새롭게 공개했어요.
XBCP는 질문과 답변은 영어로 유지하되, 증거 자료의 언어를 다양하게 변경하여 단일 언어 환경과 다국어 환경, 두 가지 설정을 제공해요.
실험 결과, 증거 자료 번역은 에이전트의 정확도 저하, 증거 회수율 감소, 신뢰도 하락, 인용 정확도 저하를 야기하며, 심층 연구 에이전트가 언어 불일치 증거를 통합하는 데 어려움을 겪는다는 것을 확인했어요.