연구진은 제한된 검증 데이터 환경에서 희소 시퀀스 레벨 보상은 모델 탐색을 촉진하고, 조밀 토큰 레벨 보상은 행동 압축에 적합하다고 주장합니다.
Qwen3와 Llama 모델을 활용한 수학 문제 해결 실험에서, RL로 개선된 8B 교사 모델을 통해 조밀하게 지도 감독된 학생 모델이 동일한 학생 모델에 직접 GRPO를 적용하는 것보다 우수한 성능을 보였습니다.
연구 결과는 희소 보상으로 교사 모델의 행동을 발견하고, 조밀한 전송으로 학생 모델을 압축하며, 브리지 이후 학생 측의 희소 RL을 사용하는 것이 효과적임을 시사합니다.