연구진이 다양한 언어의 증거를 활용하는 에이전트의 성능을 평가하는 Cross-Lingual BrowseComp-Plus (XBCP) 벤치마크를 공개했어요. XBCP는 영어 질문과 답변은 유지하면서 증거 문서의 언어를 다양하게 바꿔, 단일 언어 또는 다국어 환경에서 에이전트의 검색 능력을 테스트해요. 결과적으로 증거 번역 시 성능 저하가 확인되었으며, 에이전트는 교차 언어 증거를 통합하는 데 어려움을 겪는 것으로 나타났어요.