연구진은 도구 통합 추론(TIR)의 불안정성과 모델 용량 제한 문제를 해결하기 위해 SOD라는 단계별 온-정책 증류 프레임워크를 제안했습니다.
SOD는 단계별 분기 정도에 따라 증류 강도를 적응적으로 조정하여, 교사의 신뢰할 수 없는 토큰 수준의 감독을 방지합니다.
연구 결과, SOD는 어려운 수학, 과학, 코딩 벤치마크에서 기존 방법보다 최대 20.86% 성능 향상을 보였으며, 0.6B 모델이 AIME 2025에서 26.13%의 정확도를 달성했습니다.