연구진은 미세 조정 과정에서 명시적 추론 모델이 최종 답변을 생성하는 중간 추론 과정을 잃는 '추론 손실' 현상을 발견했어요. 새로운 평가 프레임워크를 통해 모델의 답변 정확도와 추론 과정의 유효성을 분리하여 측정하고, 기존 벤치마크가 이러한 문제점을 제대로 반영하지 못함을 확인했어요. 간단한 손실 마스킹 전략을 통해 추론 손실을 완화할 수 있으며, 추론 모델 평가는 답변 성능 외에 구조적 추론 신뢰도 지표도 함께 고려해야 한다고 제안했어요.