연구에 따르면 대규모 언어 모델은 최종 답변이 결정된 후에도 불필요한 추론 과정을 거치는 경우가 많아요. Qwen3-4B 모델을 분석한 결과, 32%의 쿼리에서만 답변이 변경되고, 최종 답변 결정 후 평균 760개의 추론 토큰이 추가적으로 생성돼요. 연구팀은 답변이 안정화되면 조기에 중단하는 전략을 통해 추론 토큰 사용량을 500개 줄이고 정확도는 2% 감소시키는 데 성공했어요.