수학 올림피아드 문제 외에 수학 지식 발전에 활용되는 연구 수준의 문제를 푸는 능력을 평가하는 벤치마크 'Soohak'이 공개됐습니다. Gemini-3-Pro, GPT-5, Claude-Opus-4.5는 Soohak Challenge 세트에서 각각 30.4%, 26.4%, 10.4%의 정확도를 기록했습니다. Soohak은 문제 해결 능력 외에 문제의 적절성을 판단하고 잘못된 답을 내놓지 않는 '거부' 능력을 평가하는 세트도 포함하고 있습니다.