본 연구는 대규모 언어 모델(LLM)의 수학적 추론 능력 향상에 따른 발전 과정을 분석하는 논문입니다. 120여 편의 연구를 분석하여 수학적 데이터셋, 아키텍처, 학습 전략, 평가 프로토콜을 체계적으로 검토했어요.
연구에서는 수학적 데이터셋을 사전 학습 코퍼스, 지도 학습 리소스, 평가 벤치마크로 분류하고, 도구 통합, 검증기 기반 추론, 파라미터 효율적 적응 등 아키텍처와 학습 전략을 분석했어요.
기존 평가 지표를 비교 분석한 결과, 최종 답변 정확도와 과정 수준의 추론 검증 간 격차가 존재하며, 추론의 신뢰성 문제, 벤치마크 편향, 일반화 한계 등의 문제점을 지적하고 개선 방향을 제시했어요.