연구진은 모델이 생성한 추론 체인에 제거, 마스킹, 셔플링, 노이즈 주입 등 다양한 개입을 적용하여 순서가 중요한지, 모든 정보가 중요한지, 구조적으로 얼마나 견고한지를 분석했습니다.
토큰 수준 셔플링을 제외한 라인 및 단어 수준 셔플링은 정확도에 큰 영향을 미치지 않았으며, 이는 추론 능력보다 사전 훈련의 영향임을 시사합니다.
모델이 생성한 추론 체인에서 숫자 제거는 정확도를 0%로 떨어뜨렸지만, 문장 삭제는 오히려 정확도를 향상시켰으며, 심하게 축소된 표현도 83%의 정확도를 유지했습니다.