연구진은 실패한 경로를 제거하는 기존 거부 파인튜닝(RFT) 방식의 한계를 지적하며, 단계별 정확도를 평가하는 비평 모델을 활용하여 오류 회복 능력을 향상시키는 단계 거부 파인튜닝(SRFT)을 제안했습니다.
SRFT는 오류 단계를 마스크 처리하면서도 컨텍스트 창에 유지하여 모델이 오류에서 회복하는 방법을 학습하도록 합니다.
SWE-bench Verified 평가 결과, SRFT는 기존 RFT보다 해상도율을 3.7% 향상시켜 총 해상도율 32.2%를 달성했습니다.