연구진은 답변 정확 CoT 데이터에서 답변 후반부에 이어지는 불필요한 추론이 모델 학습에 악영향을 줄 수 있음을 확인했어요. 이 문제를 해결하기 위해 데이터 후반부의 불필요한 연속을 제거하는 편집 기술을 사용해 모델을 학습시킨 결과, 성능이 향상됐어요. 연구진은 이 현상을 '유해한 연속'이라고 명명하고, 불필요한 연속의 특징을 분석해 불확실성과 진행 방향의 불일치를 발견했어요.
연구진은 '유해한 연속 절단(HCC)'이라는 경계 추정 기술을 개발해 데이터 편집 과정을 자동화했어요. HCC는 편집자가 식별한 불필요한 연속의 경계를 근사하는 경량화된 기술이에요.
이 연구는 답변 정확 CoT 데이터의 품질 관리가 모델 성능 향상에 중요하다는 점을 시사하며, 데이터 전처리 과정에서 유해한 연속을 제거하는 것이 효과적임을 보여줘요.