연구자들이 광범위한 웹을 검색하고 증거를 수집하여 답변을 도출하는 심층 연구 벤치마크 DeepWeb-Bench가 공개됐어요. 기존 벤치마크보다 훨씬 어렵게 설계됐으며, 증거 수집, 출처 조정, 장기적인 추론이 필요해요. 9개의 최첨단 모델을 평가한 결과, 모델들은 전문 분야에 따라 차별화된 성능을 보였어요.