연구에 따르면, 추론 과정과 최종 답변이 하나의 토큰 예산을 공유할 때, 긴 추론 과정이 답변을 위한 공간을 줄여 성능을 저해하는 '커플링 택스' 현상이 발생합니다.
Qwen3 모델을 활용한 실험 결과, 2048 토큰까지는 비사고 모드가 사고 모드보다 더 좋은 성능을 보였으며, 어려운 문제에서는 더 큰 예산이 필요했습니다.
연구진은 커플링 택스를 분석하고 해결하기 위한 분리 예산 생성 방식을 제안하여, MATH-500 문제에서 83.6%의 정확도를 달성했습니다.