연구진이 에이전트 AI의 수학 문제 해결 능력 향상을 위해 정보 검색(IR) 시스템을 평가하는 SABER-Math 벤치마크를 공개했어요. SABER-Math는 고등학교 수학 문제 28만여 개를 활용해 LLM이 솔루션 요약 및 수학 주제를 추출하고, 관련 문서를 찾아 순위를 매기는 방식으로 구성돼요. 기존 벤치마크와 달리 수학적 관련성을 정확하게 평가하며, 일반적인 IR 벤치마크로는 수학 분야 성능을 예측하기 어렵다는 점을 보여줬어요.