연구진은 Qwen3 모델(1.7B-32B)을 활용해 사고 기능(Thinking)의 ON/OFF 상태에 따른 명령어 따르기 성능 변화를 분석했어요. 결과적으로 전체 합격률 변화는 크지 않았지만(최대 -3.52pp), 일부 프롬프트는 사고 기능 ON/OFF에 따라 합격/불합격이 바뀌는 현상이 나타났어요.
사고 기능은 '계획'(전체 구조, 조정)은 개선하지만 '정밀'(정확한 로컬 형태)은 악화시키는 경향을 보였으며, 이 경향은 Hunyuan 모델에서도 유사하게 나타났어요. 또한 사고 기능은 최종 답변 길이에 영향을 미쳐, 길이 일치 분석을 통해 정밀도 저하를 일부 완화할 수 있었어요.
사고 기능 추적 분석 결과, '중립'은 긍정적인 연관성을, '계획'은 예측력이 낮은 상관관계를, '정밀'은 작은 부정적 상관관계를 보였으며, 활성화 패치 분석 결과, 정밀도 변화는 계획 변화보다 더 자주 복구되는 것으로 나타났어요.