본 연구는 도구 활용 추론(TIR)이 텍스트 기반 추론의 한계를 극복하는 데 효과적이지만, 도구 활용 평가가 오히려 성능을 저하시킬 수 있음을 밝혀냈습니다.
연구진은 강력한 사고 모델의 텍스트 기반 추론 능력을 유지하면서 자연스러운 도구 사용 행동을 주입하는 TIR 레시피를 개발했습니다.
Qwen3 사고 모델에 이 레시피를 적용한 결과, 오픈 소스 모델 중 최고 수준의 성능을 달성했으며, AIME 2025에서 각각 96.7%와 99.2%의 정확도를 기록했습니다.