연구진은 LLM의 추론 과정이 불필요한 경우에도 토큰 소비를 늘려 지연과 비용을 발생시킨다는 문제점을 지적하며, 답변 후 정당화 과정을 추가하는 'Post-Reasoning' 기법을 제안했습니다.
Post-Reasoning은 추가적인 지연이나 토큰 비용 없이 117개 모델-벤치마크 설정에서 88.19% 이상 성능 향상을 달성했으며, 평균 17.37%의 상대적 성능 향상을 보였습니다.
지도 학습 기반의 'supervised post-reason tuning'을 통해 성능을 더욱 개선하여, 기존 프롬프트 기반 방식보다 평균 8.01% 더 높은 성능을 기록하며 새로운 성능 기준을 제시했습니다.