연구진은 실제 인간의 수행 능력에 기반한 난이도 신호를 갖춘 수학 추론 벤치마크를 소개합니다. KCSAT-ML은 2014년부터 2025년까지의 한국 대학수학능력시험 수학 문제 664문제로, 수백만 명의 응시자 데이터를 활용하여 문제별 오류율을 제공합니다.
연구 결과, VLMs와 LLMs는 모델 크기에 상관없이 인간이 어렵다고 판단하는 문제에서 정확도가 급격히 낮아지는 경향을 보였습니다. 또한, 테스트 시간 스케일링(TTS)은 응시자 오류율에 따라 토큰 사용량이 선형적으로 증가하는 반면, 정확도 향상은 비선형적인 곡선을 따릅니다.
단일 모델 패밀리 내에서도 TTS는 가장 어려운 문제에서는 반스케일링, 쉬운 문제에서는 과도한 사고를 유발하는 등 양면적인 모습을 보이며, 집계 정확도만으로는 드러나지 않는 모델 간 성능 차이를 보여줍니다.