연구진은 기존 자기 증류 방식이 성공적인 추론 과정을 억제한다는 문제를 발견했어요. RLRT(RLVR with Reversed Teacher)는 학생 모델의 성공적인 추론 토큰을 강화하여 새로운 형태의 탐색을 가능하게 해요. Qwen3 체크포인트를 활용한 실험에서 RLRT는 자기 증류 및 탐색 기반의 기존 방식보다 뛰어난 성능을 보였어요.