연구자들이 풀지 못한 수학 문제를 언어 모델이 해결하려면 대규모 연구 수준의 수학 데이터셋이 필요해요. ResearchMath-14K는 학술 자료에서 에이전트 파이프라인으로 큐레이션한 14,056개의 문제로, 현재까지 가장 큰 규모의 연구 수준 수학 문제 모음이에요.
ResearchMath-Reasoning 데이터셋을 통해 언어 모델이 시도하지 않거나 허위 참조를 생성하는 회피 행동을 관찰했는데, 최신 세대는 이전 세대보다 참조 및 허위 참조를 더 많이 생성하는 경향이 있어요.
ResearchMath-Reasoning을 에이전트 방식으로 필터링하고 Qwen3 모델을 4B에서 30B 파라미터로 미세 조정하면 평균 9.2점이 향상되어, 필터링된 문제 시도 추적이 유용한 지도 학습을 제공할 수 있음을 보여줘요.