LLM의 수학적 능력이 향상됨에 따라, 기존의 정적인 벤치마크로는 모델의 발전 상황을 제대로 평가하기 어렵습니다.
연구팀은 MathArena 벤치마크를 확장하여 증명 기반 대회, arXiv 문제, Lean 형식 증명 생성 등 다양한 수학적 추론 작업을 평가하는 플랫폼으로 발전시켰습니다.
GPT-5.5는 2026년 미국 수학 올림피아드에서 98%, 연구 수준의 문제에서 74%의 정확도를 기록하며, 최첨단 모델의 뛰어난 수학적 문제 해결 능력을 보여주었습니다.