RREDCoT는 강화 학습(RL)을 통해 추론 모델의 Chain-of-Thought(CoT) 추적을 개선하는 새로운 기법입니다. 기존 방식의 높은 분산 문제를 해결하기 위해 CoT 추적의 중요한 세그먼트에 더 높은 보상을 부여하는 보상 재분배를 활용합니다. 모델 자체를 사용하여 최적의 보상 재분배를 근사하며, 추가적인 생성 과정 없이 효율적인 학습이 가능합니다.
RREDCoT는 Monte Carlo 샘플링 및 여러 속성 기법과 비교하여 성능을 검증했으며, CoT 추적 세그먼트 분할 및 상태 값 추정 관련 분석을 진행했습니다. 기존 방식 대비 분산 감소 효과를 확인하고, 더 안정적인 모델 학습을 가능하게 합니다.
RREDCoT는 CoT 추적의 세그먼트 레벨에서 보상을 재분배하여 모델의 추론 과정을 개선하고, 더 정확하고 효율적인 답변을 생성하도록 돕습니다.